Extração automática de conhecimento por múltiplos indutores






















































Tese de Doutorado
Título original Extração automática de conhecimento por múltiplos indutores.
Autor Baranauskas, José Augusto
E-mail [email protected]
Unidade Instituto de Ciências Matemáticas e de Computação (ICMC)
Área de concentração Ciências de Computação e Matemática Computacional
Orientador ¤ Monard, Maria Carolina
Banca Examinadora ¤ Engel, Paulo Martins
¤ Fernandez, Francisco Javier Ramirez
¤ Freitas, Alex Alves
¤ Monard, Maria Carolina
¤ Rezende, Solange Oliveira
Data da Defesa 09/08/2001
Palavras-chave ¤ aprendizado de máquina
¤ mineração de dados
Resumo Original
Nesta tese são investigados três problemas básicos em aprendizado supervisionado: seleção de atributos, composição de atributos e combinação de classificadores simbólicos. A seleção de atributos é uma atividade de pré-processamento de dados que seleciona um subconjunto de atributos do conjunto original de exemplos. Existem, basicamente, três abordagens que são empregadas para a seleção de atributos: embutida, filtro e wrapper; as duas últimas pesquisadas neste trabalho. Os experimentos realizados, utilizando diversos indutores e conjuntos de exemplos, para avaliar as abordagens filtro e wrapper nos permitem concluir que o uso de filtros deve ser considerado antes de se cogitar a utilização de wrappers, no caso de existirem muitos atributos para descrever os exemplos. Sob a perspectiva de compreensibilidade do conhecimento induzido, a análise sobre o impacto da seleção de atributos em um classificador simbólico mostrou um aumento do número de regras e do número de condições por regra. A composição de atributos, também conhecida como indução construtiva, é outra atividade de pré-processamento de dados. Dentre as várias abordagens de composição de atributos (guiada por dados, por hipótese, por conhecimento e multi-estratégia), nesta tese é proposta uma metodologia para composição de atributos guiada pelo conhecimento. Os resultados dos experimentos realizados utilizando a metodologia proposta mostram que, mesmo com o auxílio do usuário/especialista, é difícil construir atributos derivados que sejam realmente relevantes para aprender o conceito embutido nos conjuntos de exemplos analisados de repositórios (naturais), os quais, muitas vezes, já foram pré-processados. Esse fato foi confirmado, por um trabalho posterior, com dados do mundo real, no qual a metodologia proposta mostrou seu potencial. A combinação de classificadores, simbólicos ou não, é uma atividade de mineração de dados. Na realidade, uma das preocupações do Aprendizado de Máquina simbólico é que os classificadores induzidos devem ser fáceis de serem compreendidos pelos seres humanos. Para isso, deve-se escolher o indutor com bias mais adequado para cada tipo de situação, já que pesquisas mostraram que não existe o melhor indutor para todos os domínios. Aliada a essa escolha, é possível fazer uso de vários classificadores, combinando-os num único classificador final, formando um ensemble. Os ensembles possuem a tendência de melhorar o desempenho na classificação de exemplos não vistos durante o processo de aprendizado. Entretanto, o emprego de ensembles dificulta a compreensão humana sobre o comportamento do classificador final, já que ele deixa de ser simbólico, mesmo assumindo que cada classificador individual que o compõe seja simbólico. Na realidade, a combinação de classificadores simbólicos – provenientes de diferentes indutores – em um classificador final também simbólico é um tópico novo de pesquisa, ainda com poucos resultados divulgados. Com o objetivo de preencher essa lacuna, é proposto e desenvolvido neste trabalho o sistema Xruler. Para isso, inicialmente foi definido o formato padrão de regras PBM, o qual fornece uma perspectiva unificada sob a qual todo classificador simbólico pode ser convertido e analisado. Dentre outros componentes, o sistema Xruler possui um algoritmo de cobertura que pode ser aplicado ao conjunto de regras induzidas por diversos indutores para se obter um classificador simbólico final. Nos experimentos realizados com o sistema Xruler os resultados obtidos mostraram aumento da precisão e redução do número de regras. Sob o aspecto sintático das regras, isso pode ser considerado um avanço no sentido de uma maior compreensibilidade por seres humanos do conjunto final de regras.
Arquivos








Nome Tamanho
¤ tese.pdf 2.29 Mb
  indica que o arquivo está somente acessível pela Universidade de São Paulo .
Data de Publicação 28/01/2002

Recomendados Para Você:

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *