
Problema: tomar decisões (precisa rapidez) usando informações (cruzando, por exemplo) em BD’s distribuídos ou remotos
Conseqüências:
onerar sistemas transacionais ou rotineiros
demora para obter informações ou para cruzar (relatórios)
Solução: armazém com cópia de dados
Observações:
é um conceito; DW é tudo e não só o "armazém"
exige dados remotos (é diferente de um BD centralizado)
mas exemplo simples: executivos com cópias em PC de dados vindos de Unix
Arquitetura: base OLAP (on-line analytical processing), base OLTP (on-line transactional processing), middleware
Base OLAP
cópia de dados (snapshot X copiar tudo)
tudo ou conforme interesse (Data Marts)
modelo detalhado ou resumido (granularidade)
níveis diferentes de detalhes (visão por metamodelos ou mediadores)
terabytes; superservidores
multidimensional (ex: produto, tempo, loja, cliente)
dados históricos (decisões sobre tendências; atualização)
ferramentas de OLAP (planilhas, access, SIG/SAD/EIS, data mining)
Técnicas de OLAP
Drill Down: é a possibilidade de poder obter dados mais detalhados a partir de dados de mais alto nível, através de diferentes dimensões. Em outras palavras, drill down nada mais é do que aumentar o nível de detalhes de uma consulta ou relatório, adicionando-lhes novas linhas de cabeçalho provenientes de tabelas dimensão. Por exemplo, uma tela de um computador pode mostrar um mapa com figuras de Estados. Clicando com o mouse sobre um determinado Estado, poderia ser apresentado às vendas em cada região e clicando-se sobre uma determinada região seria possível verificar o desempenho dos vendedores.
Drill up ou roll up: é o inverso de drill down, ou seja, é apresentar os dados em um nível mais elevado a partir de um nível mais detalhado
Slice: compreende a extração de informações sumarizadas de um cubo de dados, a partir do valor de uma dimensão.
Dice: é a extração de um "subcubo" ou a interseção de vários slices.
Pivot: é o ângulo pelo qual os dados são vistos ou trocados. Na prática corresponde a modificação da posição das dimensões em um gráfico ou troca de linhas por colunas em uma tabela.
Base OLTP
dados não padronizados, remotos, detalhes
Middelware
cópia automática ou manual
replicação de SGBD’s (síncrona ou assíncrona) ou programas específicos
número de camadas
uma camada: OLAP e OLTP na mesma base
two-tier (cliente-servidor): bases diretamente conectadas; bom quando há
homogeneidade
three-tier (cliente-intermediário-servidor):
subprocesso "merge"
filtragem (só o que interessa)
limpeza (dados nulos, controle de inconsistências)
integração (padronização, chaves, conversões, derivações)
ferramentas: SGBD distribuído, máquinas e sw especiais, ODBC/JDBC, EDI
Tecnologias
MOLAP: cubo de dimensões, otimizados
ROLAP:
HOLAP: híbrido
Esquemas
não-normalizado: dimensões somente nos metadados (não na intensão)
vantagens: modelos mais simples de todos
desvantagens: maior volume (redundância)
estrela: tabelas fatos e várias dimensões (uso de códigos)
vantagens: modelos simples, rapidez na resposta
desvantagens: volume ainda grande, quando dimensões têm muitos atributos
floco-de-neve: dimensões normalizadas (ligadas a outras dimensões)
vantagens: economia de espaço (volume),
desvantagens: tempo de resposta, maior complexidade
Vantagens:
rapidez nas informações para decisões ad hoc
não atrapalha sistema OLTP
visão multidimensional
quem usa a informação não necessita localizar dados e integrá-los
adicionar fatos (extensão) ou dimensões (intensão)
Cuidados
custo X necessidade
quem define o modelo
Tendências
SGBD’s especiais
Processamento Paralelo
Padrões e protocolos de comunicação (ODBC, JDBC, OLE DB, CORBA - Common Object Request Broker Architecture, DCOM - Microsoft´s Distribuited Common Object Model, XML)
Referências na Web
Alalouf, Carole. Hybrid OLAP - The Best of Both Worlds. Nov. 1997.
http://www.speedware.com.
AppsCo Software. AppsMart Reference Guide (Release 1.0). 1998.
http://www.appsco.com.
DBMiner Technology Inc. DBMiner E 1.1 - User Manual - For Windows NT/95.
March; 1999. http://db.cs.sfu.ca/DBMiner/download2.
Microsoft Corporation. Microsoft SQL Server 7.0 OLAP Services. 1998.
http://www.microsoft.com/sql/70/gen/whatsnew.htm.
Microsoft Corporation. Microsoft SQL Server 7.0 Data Warehousing Framework.
1998. http://www.microsoft.com/sql/70/gen/whatsnew.htm.
Um data warehouse (ou armazém de dados, ou depósito de dados no Brasil) é um sistema de computação utilizado para armazenar informações relativas às atividades de uma organização em bancos de dados, de forma consolidada. O desenho da base de dados favorece os relatórios, a análise de grandes volumes de dados e a obtenção de informações estratégicas que podem facilitar a tomada de decisão.
O data warehouse possibilita a análise de grandes volumes de dados, coletados dos sistemas transacionais (OLTP). São as chamadas séries históricas que possibilitam uma melhor análise de eventos passados, oferecendo suporte às tomadas de decisões presentes e a previsão de eventos futuros. Por definição, os dados em um data warehouse não são voláteis, ou seja, eles não mudam, salvo quando é necessário fazer correções de dados previamente carregados. Os dados estão disponíveis somente para leitura e não podem ser alterados.
A ferramenta mais popular para exploração de um data warehouse é a Online Analytical Processing OLAP ou Processo Analítico em Tempo Real, mas muitas outras podem ser usadas.
Os data warehouse surgiram como conceito acadêmico na década de 80. Com o amadurecimento dos sistemas de informação empresariais, as necessidades de análise dos dados cresceram paralelamente. Os sistemas OLTP não conseguiam cumprir a tarefa de análise com a simples geração de relatórios. Nesse contexto, a implementação do data warehouse passou a se tornar realidade nas grandes corporações. O mercado de ferramentas de data warehouse, que faz parte do mercado de Business Intelligence, cresceu então, e ferramentas melhores e mais sofisticadas foram desenvolvidas para apoiar a estrutura do data warehouse e sua utilização.
Atualmente, por sua capacidade de sumarizar e analisar grandes volumes de dados,o data warehouse é o núcleo dos sistemas de informações gerenciais e apoio à decisão das principais soluções de business intelligence do mercado.
Midleware
Middleware ou mediador, no campo da computação distribuída, é um programa de computador qua faz e mediação entre software e demais aplicações. É utilizado para mover ou transportar informações e dados entre programas de diferentes protocolos de comunicação, plataformas e dependências do sistema operacional. É geralmente constituído por módulos dotados com APIs de alto nível que proporcionam a sua integração com aplicações desenvolvidas em diversas linguagens de programação e interfaces de baixo nível que permitem a sua independência relativamente ao dispositivo. Seu objetivo é mascarar e heterogeneidade e fornecer um modelo de programação mais produtivo para os programadores de aplicativos. É composto por um conjunto da processos ou objetos em um grupo de computadores, que interagem entre si de forma a implementar comunicação e oferecer suporte para compartilhamento de recursos e aplicativos distribuídos.
Middleware
O Middleware é a designação genérica utilizada para referir aos sistemas de software que se executam entre as aplicações e os sistemas operacionais. O objetivo do middleware é facilitar o desenvolvimento de aplicações, tipicamente as distribuídas, assim como facilitar a integração de sistemas legados ou desenvolvidos de forma não integrada automática.
Nenhum comentário:
Postar um comentário