Mineração de dados ou (Descoberta de conhecimento em banco de dados - KDD)
Objetivo: Encontrar conhecimento novo e útil, implícito em BDs geralmente usando técnicas estatísticas.
Data Mining
- Definição: é a extração não-trivial de informação implícita (nova ou previamente desconhecida) e útil a partir de bases de dados
- Data Mining X Knowledge Discovery (KDD)
- Etapas do processo de KDD [FAY96b]:
- definir objetivos, entender o domínio;
- selecionar ou focar num subconjunto de dados;
- pré-processamento ou limpeza: remover ruídos e preparar o dados (por exemplo, normalização);
- redução ou projeção dos dados: escolher algumas características para análise;
- escolher a técnica, método ou tarefa de mineração (a serem discutidas);
- escolher o algoritmo de mineração;
- fazer a mineração;
- interpretar os resultados, podendo retornar aos passos anteriores;
- consolidar conhecimento descoberto: documentar ou incorporar no sistema.
- Modelo de arquitetura para sistema de KDD[MAT93] (componentes):
- um controlador: responsável pela interação com o usuário e por controlar os demais componentes;
- uma interface de banco de dados: trata as consultas aos dados;
- uma base de conhecimento: contendo informação específica sobre o domínio (definições, regras, hierarquias, novas descobertas);
- um focador: determina que porção de dados analisar;
- um extrator de padrões: com uma coleção de algoritmos de extração;
- um módulo de avaliação: avalia o quão interessante ("interstingness") e útil são os padrões extraídos.
- Técnicas de Mineração
- Classificação (categorização)
- Classificação (identificação de modelo - aprendizado)
- Clusterização (agrupamento)
- Identificação de padrão/modelo (estatística)
- Detecção de desvios
- Modelos de Predição e Regressão (usar modelo para prever valores)
- Associação ou correlação (análise de dependência)
- Seqüência de tempo
- Tendências no tempo
- Comparações (comuns X diferenças)
- Cuidados:
estatística, volume grande de dados
amostras ou toda coleção
ruídos
incerteza (probabilidade): modelo da base ou do mundo real
filtragem de padrões (interestingness)
apresentação ou visualização
snapshots de dados (mudanças; DWH)
seleção de atributos ou amostras (hot-sets)
preparação dos dados (técnicas permanentes ou dependentes do objetivo)
coleta e seleção dos dados (amostras)
inconsistências, formatos, tabelas não-normalizadas
valores nulos ou incorretos: aproximação, exclusão
agregação de valores (somas, médias)
granularidade de tempo, período de tempo, discretização (faixas de valores)
- Aprendizado Supervisionado X Não-Supervisionado
- Dedução X Indução x Abdução
- Exemplos/Aplicações
supermercados
crédito em bancos (classificação)
fraudes em sistemas de saúde
epidemiologia
DB marketing
scouts esportivos
segurança (clonagem de celulares, acessos a páginas web para preços)
anti-descoberta (militar, espionagem, proteção a testemunhas)
novas filiais (analisar amostrar para ver sucessos e fracassos)
mala-direta (perfil)
- Medidas de avaliação
- Bibliografia Clássica
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; AMITH, Smyth P.; UTHURUSAMY, R. (eds). Advances in knowledge discovery and data mining. Cambridge: MIT Press, 1996.
AGRAWAL, Rakesh. Data mining: the quest perspective. EDBT Summer School on Advances in Database Technology. Proceedings... Gubbio-Itália, Setembro de 1995. Disponível por WWW em http://www.almaden.ibm.com/cs/quest
BEYNON-DAVIES, P. Expert database systems - a gentle introduction. McGraw-Hill, 1991.
LU, Hongjun et alli (eds). KDD: techniques and applications. Singapore: World Scientific, 1997.
ANAND, S. S. et alli. Tackling the cross-sales problem using data mining. IN: LU, Hongjun et alli (eds). KDD: techniques and applications. Singapore: World Scientific, 1997. Disponível por WWW em http://inchinn.infj.ulst.ac.uk/htdocs/cross_sales.html
PARSAYE, Kamran et alli. Intelligent databases: object-oriented, deductive hypermedia technologies. New York: John Wiley & Sons, 1989.
Congressos
International Conference on Knowledge Discovery – KDD
http://www.aaai.org/Conferences/KDD/
European Symposium on Principles of Data Mining and Knowledge Discovery (PKDD-98) www.wisdom.weizmann.ac.il/~lindell/
Pacific-Asia Workshop on Knowledge Discovery from Advanced Databases – PAKDD’99, textmining.krdl.org.sg/publications.html
Revistas
ACM SIGKDD Explorations (ww.acm.org/sigkdd/explorations)
International Journal on Knowledge Discovery and Data Mining
http://www.wkap.nl/journals/kddm
Outras em: Sistema de Buscas DBLP
sunsite.ust.hk/dblp//db/journals/index.html
- Ferramentas e algoritmos
Weka (software livre) http://www.cs.waikato.ac.nz/~ml/weka/
IBM Intelligent Miner (www.software.ibm.com/data/intelli-mine)
WizRule (www.wizsoft.com)
Aira (www.godigital.com.br)
Oracle Discovery
Sipina-W (eric.univ-lyon2.fr/~ricco/sipina.html)
Algoritmos de Árvores de decisão ID3 e C4.5
http://www.cis.temple.edu/~ingargiola/cis587/readings/id3-c45.html
Redes Neurais (SNNS)
Criação de Sistemas Especialistas com árvores de decisão
Expert Sinta (http://www.lia.ufc.br/~bezerra/exsinta/)
Outras:
- Descoberta Proativa X Reativa
- necessidades viscerais: quando existe uma necessidade ou interesse, mas esta não é percebida de forma consciente;
- necessidades conscientes: quando o usuário percebe sua necessidade e sabe do que precisa;
- necessidades formalizadas: quando o usuário expressa sua necessidade de alguma forma;
- necessidades comprometidas: quando a necessidade é representada no sistema.
Descoberta Reativa | Descoberta Proativa |
1) existe um problema inicial (interesse) 2) usuário sabe do que precisa 3) usuário sabe identificar a solução e tem idéia do que ela seja (apresentação) 4) o objetivo está claro = usuário sabe o que está procurando | 1) existe um problema inicial (interesse) 2) usuário não sabe o que pode ser a solução 3) usuário poderá identificar a solução mas não sabe como ela pode-se apresentar 4) objetivo não está bem definido = usuário não sabe bem o que está procurando |
Necessidades são: específicas e estáveis conscientes - há hipóteses iniciais: por onde começar o que pode ser a solução que estratégia usar - termina quando usuário encontra o que procurava | Necessidades são: dinâmicas e abrangentes viscerais (inconscientes) - não há hipóteses iniciais - processo exploratório - possibilidade de encontrar muitas coisas úteis e novas - problema ou interesse inicial pode mudar durante o processo de descoberta |
- encontrar atributos comuns nos produtos mais vendidos - encontrar motivos que levam à evasão ou a reclamações de clientes - achar perfis de grupos de clientes - encontrar clientes potenciais para propaganda seletiva - encontrar concorrentes no mercado | O que há de interessante: - nos produtos mais vendidos - nas reclamações de clientes - entre nossos clientes - nos nossos concorrentes |
Nenhum comentário:
Postar um comentário