Pesquisa

sexta-feira, 15 de outubro de 2010

18 - Sistemas de Data Mining


Mineração de dados ou (Descoberta de conhecimento em banco de dados - KDD)

Objetivo: Encontrar conhecimento novo e útil, implícito em BDs geralmente usando técnicas estatísticas.



Data Mining


  • Definição: é a extração não-trivial de informação implícita (nova ou previamente desconhecida) e útil a partir de bases de dados
  • Data Mining X Knowledge Discovery (KDD)
  • Etapas do processo de KDD [FAY96b]:
  1. definir objetivos, entender o domínio;
  2. selecionar ou focar num subconjunto de dados;
  3. pré-processamento ou limpeza: remover ruídos e preparar o dados (por exemplo, normalização);
  4. redução ou projeção dos dados: escolher algumas características para análise;
  5. escolher a técnica, método ou tarefa de mineração (a serem discutidas);
  6. escolher o algoritmo de mineração;
  7. fazer a mineração;
  8. interpretar os resultados, podendo retornar aos passos anteriores;
  9. consolidar conhecimento descoberto: documentar ou incorporar no sistema.
  • Modelo de arquitetura para sistema de KDD[MAT93] (componentes):
  • um controlador: responsável pela interação com o usuário e por controlar os demais componentes;
  • uma interface de banco de dados: trata as consultas aos dados;
  • uma base de conhecimento: contendo informação específica sobre o domínio (definições, regras, hierarquias, novas descobertas);
  • um focador: determina que porção de dados analisar;
  • um extrator de padrões: com uma coleção de algoritmos de extração;
  • um módulo de avaliação: avalia o quão interessante ("interstingness") e útil são os padrões extraídos.
  • Técnicas de Mineração
  • Classificação (categorização)
  • Classificação (identificação de modelo - aprendizado)
  • Clusterização (agrupamento)
  • Identificação de padrão/modelo (estatística)
  • Detecção de desvios
  • Modelos de Predição e Regressão (usar modelo para prever valores)
  • Associação ou correlação (análise de dependência)
  • Seqüência de tempo
  • Tendências no tempo
  • Comparações (comuns X diferenças)
  • Cuidados:

estatística, volume grande de dados

amostras ou toda coleção

ruídos

incerteza (probabilidade): modelo da base ou do mundo real

filtragem de padrões (interestingness)

apresentação ou visualização

snapshots de dados (mudanças; DWH)

seleção de atributos ou amostras (hot-sets)

preparação dos dados (técnicas permanentes ou dependentes do objetivo)

coleta e seleção dos dados (amostras)

inconsistências, formatos, tabelas não-normalizadas

valores nulos ou incorretos: aproximação, exclusão

agregação de valores (somas, médias)

granularidade de tempo, período de tempo, discretização (faixas de valores)

  • Aprendizado Supervisionado X Não-Supervisionado
  • Dedução X Indução x Abdução
  • Exemplos/Aplicações

supermercados

crédito em bancos (classificação)

fraudes em sistemas de saúde

epidemiologia

DB marketing

scouts esportivos

segurança (clonagem de celulares, acessos a páginas web para preços)

anti-descoberta (militar, espionagem, proteção a testemunhas)

novas filiais (analisar amostrar para ver sucessos e fracassos)

mala-direta (perfil)

  • Medidas de avaliação
  • Bibliografia Clássica

FAYYAD, U.; PIATETSKY-SHAPIRO, G.; AMITH, Smyth P.; UTHURUSAMY, R. (eds). Advances in knowledge discovery and data mining. Cambridge: MIT Press, 1996.

AGRAWAL, Rakesh. Data mining: the quest perspective. EDBT Summer School on Advances in Database Technology. Proceedings... Gubbio-Itália, Setembro de 1995. Disponível por WWW em http://www.almaden.ibm.com/cs/quest

BEYNON-DAVIES, P. Expert database systems - a gentle introduction. McGraw-Hill, 1991.

LU, Hongjun et alli (eds). KDD: techniques and applications. Singapore: World Scientific, 1997.

ANAND, S. S. et alli. Tackling the cross-sales problem using data mining. IN: LU, Hongjun et alli (eds). KDD: techniques and applications. Singapore: World Scientific, 1997. Disponível por WWW em http://inchinn.infj.ulst.ac.uk/htdocs/cross_sales.html

PARSAYE, Kamran et alli. Intelligent databases: object-oriented, deductive hypermedia technologies. New York: John Wiley & Sons, 1989.

Congressos

International Conference on Knowledge Discovery – KDD

www.acm.org

http://www.aaai.org/Conferences/KDD/

European Symposium on Principles of Data Mining and Knowledge Discovery (PKDD-98) www.wisdom.weizmann.ac.il/~lindell/

Pacific-Asia Workshop on Knowledge Discovery from Advanced Databases – PAKDD’99, textmining.krdl.org.sg/publications.html

Revistas

ACM SIGKDD Explorations (ww.acm.org/sigkdd/explorations)

International Journal on Knowledge Discovery and Data Mining

http://www.wkap.nl/journals/kddm

Outras em: Sistema de Buscas DBLP

www.informatik.uni-trier.de

sunsite.ust.hk/dblp//db/journals/index.html

  • Ferramentas e algoritmos

Weka (software livre) http://www.cs.waikato.ac.nz/~ml/weka/

IBM Intelligent Miner (www.software.ibm.com/data/intelli-mine)

WizRule (www.wizsoft.com)

Aira (www.godigital.com.br)

Oracle Discovery

www.kdnuggets.com/software

Sipina-W (eric.univ-lyon2.fr/~ricco/sipina.html)

Algoritmos de Árvores de decisão ID3 e C4.5

http://www.cis.temple.edu/~ingargiola/cis587/readings/id3-c45.html

Redes Neurais (SNNS)

Criação de Sistemas Especialistas com árvores de decisão

Expert Sinta (http://www.lia.ufc.br/~bezerra/exsinta/)

Outras:

www.abtech.com

www.acknosoft.com

www.angoss.com

www.azmy.com

www.bissantz.de

www.businessobjects.com

www.dimins.com

www.xore.com

www.datamining.com

www.isl.co.uk/clem.html

www.alice-soft.com

www.kovcomp.co.uk/mvsp.html

www.megaputer.com

www.cosmic.uga.edu

www.neovista.com

www.quadrillion.com

www.rulequest.com

  • Descoberta Proativa X Reativa
  • necessidades viscerais: quando existe uma necessidade ou interesse, mas esta não é percebida de forma consciente;
  • necessidades conscientes: quando o usuário percebe sua necessidade e sabe do que precisa;
  • necessidades formalizadas: quando o usuário expressa sua necessidade de alguma forma;
  • necessidades comprometidas: quando a necessidade é representada no sistema.

Descoberta Reativa

Descoberta Proativa

1) existe um problema inicial (interesse)

2) usuário sabe do que precisa

3) usuário sabe identificar a solução e tem idéia do que ela seja (apresentação)

4) o objetivo está claro = usuário sabe o que está procurando

1) existe um problema inicial

(interesse)

2) usuário não sabe o que pode ser a solução

3) usuário poderá identificar a solução mas não sabe como ela pode-se apresentar

4) objetivo não está bem definido = usuário não sabe bem o que está procurando

Necessidades são:

específicas e estáveis

conscientes

- há hipóteses iniciais:

por onde começar

o que pode ser a solução

que estratégia usar

- termina quando usuário encontra o que procurava

Necessidades são:

dinâmicas e abrangentes

viscerais (inconscientes)

- não há hipóteses iniciais

- processo exploratório

- possibilidade de encontrar muitas coisas úteis e novas

- problema ou interesse inicial pode mudar durante o processo de descoberta

- encontrar atributos comuns nos produtos mais vendidos

- encontrar motivos que levam à evasão ou a reclamações de clientes

- achar perfis de grupos de clientes

- encontrar clientes potenciais para propaganda seletiva

- encontrar concorrentes no mercado

O que há de interessante:

- nos produtos mais vendidos

- nas reclamações de clientes

- entre nossos clientes

- nos nossos concorrentes


Nenhum comentário: