Ensinando os macetes que ninguém te ensina: 15

Problema: tomar decisões (precisa rapidez) usando informações (cruzando, por exemplo) em BD’s distribuídos ou remotos

Conseqüências:

onerar sistemas transacionais ou rotineiros

demora para obter informações ou para cruzar (relatórios)

Solução: armazém com cópia de dados

Observações:

é um conceito; DW é tudo e não só o "armazém"

exige dados remotos (é diferente de um BD centralizado)

mas exemplo simples: executivos com cópias em PC de dados vindos de Unix

Arquitetura: base OLAP (on-line analytical processing), base OLTP (on-line transactional processing), middleware

Base OLAP

cópia de dados (snapshot X copiar tudo)

tudo ou conforme interesse (Data Marts)

modelo detalhado ou resumido (granularidade)

níveis diferentes de detalhes (visão por metamodelos ou mediadores)

terabytes; superservidores

multidimensional (ex: produto, tempo, loja, cliente)

dados históricos (decisões sobre tendências; atualização)

ferramentas de OLAP (planilhas, access, SIG/SAD/EIS, data mining)

Técnicas de OLAP

Drill Down: é a possibilidade de poder obter dados mais detalhados a partir de dados de mais alto nível, através de diferentes dimensões. Em outras palavras, drill down nada mais é do que aumentar o nível de detalhes de uma consulta ou relatório, adicionando-lhes novas linhas de cabeçalho provenientes de tabelas dimensão. Por exemplo, uma tela de um computador pode mostrar um mapa com figuras de Estados. Clicando com o mouse sobre um determinado Estado, poderia ser apresentado às vendas em cada região e clicando-se sobre uma determinada região seria possível verificar o desempenho dos vendedores.

Drill up ou roll up: é o inverso de drill down, ou seja, é apresentar os dados em um nível mais elevado a partir de um nível mais detalhado

Slice: compreende a extração de informações sumarizadas de um cubo de dados, a partir do valor de uma dimensão.

Dice: é a extração de um "subcubo" ou a interseção de vários slices.

Pivot: é o ângulo pelo qual os dados são vistos ou trocados. Na prática corresponde a modificação da posição das dimensões em um gráfico ou troca de linhas por colunas em uma tabela.

Base OLTP

dados não padronizados, remotos, detalhes

Middelware

cópia automática ou manual

replicação de SGBD’s (síncrona ou assíncrona) ou programas específicos

número de camadas

uma camada: OLAP e OLTP na mesma base

two-tier (cliente-servidor): bases diretamente conectadas; bom quando há

homogeneidade

three-tier (cliente-intermediário-servidor):

subprocesso "merge"

filtragem (só o que interessa)

limpeza (dados nulos, controle de inconsistências)

integração (padronização, chaves, conversões, derivações)

ferramentas: SGBD distribuído, máquinas e sw especiais, ODBC/JDBC, EDI

Tecnologias

MOLAP: cubo de dimensões, otimizados

ROLAP:

HOLAP: híbrido

Esquemas

não-normalizado: dimensões somente nos metadados (não na intensão)

vantagens: modelos mais simples de todos

desvantagens: maior volume (redundância)

estrela: tabelas fatos e várias dimensões (uso de códigos)

vantagens: modelos simples, rapidez na resposta

desvantagens: volume ainda grande, quando dimensões têm muitos atributos

floco-de-neve: dimensões normalizadas (ligadas a outras dimensões)

vantagens: economia de espaço (volume),

desvantagens: tempo de resposta, maior complexidade

Vantagens:

rapidez nas informações para decisões ad hoc

não atrapalha sistema OLTP

visão multidimensional

quem usa a informação não necessita localizar dados e integrá-los

adicionar fatos (extensão) ou dimensões (intensão)

Cuidados

custo X necessidade

quem define o modelo

Tendências

SGBD’s especiais

Processamento Paralelo

Padrões e protocolos de comunicação (ODBC, JDBC, OLE DB, CORBA - Common Object Request Broker Architecture, DCOM - Microsoft´s Distribuited Common Object Model, XML)

Referências na Web

Alalouf, Carole. Hybrid OLAP - The Best of Both Worlds. Nov. 1997.

http://www.speedware.com.

AppsCo Software. AppsMart Reference Guide (Release 1.0). 1998.

http://www.appsco.com.

DBMiner Technology Inc. DBMiner E 1.1 - User Manual - For Windows NT/95.

March; 1999. http://db.cs.sfu.ca/DBMiner/download2.

Microsoft Corporation. Microsoft SQL Server 7.0 OLAP Services. 1998.

http://www.microsoft.com/sql/70/gen/whatsnew.htm.

Microsoft Corporation. Microsoft SQL Server 7.0 Data Warehousing Framework.

1998. http://www.microsoft.com/sql/70/gen/whatsnew.htm.

Um data warehouse (ou armazém de dados, ou depósito de dados no Brasil) é um sistema de computação utilizado para armazenar informações relativas às atividades de uma organização em bancos de dados, de forma consolidada. O desenho da base de dados favorece os relatórios, a análise de grandes volumes de dados e a obtenção de informações estratégicas que podem facilitar a tomada de decisão.

O data warehouse possibilita a análise de grandes volumes de dados, coletados dos sistemas transacionais (OLTP). São as chamadas séries históricas que possibilitam uma melhor análise de eventos passados, oferecendo suporte às tomadas de decisões presentes e a previsão de eventos futuros. Por definição, os dados em um data warehouse não são voláteis, ou seja, eles não mudam, salvo quando é necessário fazer correções de dados previamente carregados. Os dados estão disponíveis somente para leitura e não podem ser alterados.

A ferramenta mais popular para exploração de um data warehouse é a Online Analytical Processing OLAP ou Processo Analítico em Tempo Real, mas muitas outras podem ser usadas.

Os data warehouse surgiram como conceito acadêmico na década de 80. Com o amadurecimento dos sistemas de informação empresariais, as necessidades de análise dos dados cresceram paralelamente. Os sistemas OLTP não conseguiam cumprir a tarefa de análise com a simples geração de relatórios. Nesse contexto, a implementação do data warehouse passou a se tornar realidade nas grandes corporações. O mercado de ferramentas de data warehouse, que faz parte do mercado de Business Intelligence, cresceu então, e ferramentas melhores e mais sofisticadas foram desenvolvidas para apoiar a estrutura do data warehouse e sua utilização.

Atualmente, por sua capacidade de sumarizar e analisar grandes volumes de dados,o data warehouse é o núcleo dos sistemas de informações gerenciais e apoio à decisão das principais soluções de business intelligence do mercado.

Midleware

Middleware ou mediador, no campo da computação distribuída, é um programa de computador qua faz e mediação entre software e demais aplicações. É utilizado para mover ou transportar informações e dados entre programas de diferentes protocolos de comunicação, plataformas e dependências do sistema operacional. É geralmente constituído por módulos dotados com APIs de alto nível que proporcionam a sua integração com aplicações desenvolvidas em diversas linguagens de programação e interfaces de baixo nível que permitem a sua independência relativamente ao dispositivo. Seu objetivo é mascarar e heterogeneidade e fornecer um modelo de programação mais produtivo para os programadores de aplicativos. É composto por um conjunto da processos ou objetos em um grupo de computadores, que interagem entre si de forma a implementar comunicação e oferecer suporte para compartilhamento de recursos e aplicativos distribuídos.

Middleware

O Middleware é a designação genérica utilizada para referir aos sistemas de software que se executam entre as aplicações e os sistemas operacionais. O objetivo do middleware é facilitar o desenvolvimento de aplicações, tipicamente as distribuídas, assim como facilitar a integração de sistemas legados ou desenvolvidos de forma não integrada automática.

Ensinando os macetes que ninguém te ensina

Pesquisa

sexta-feira, 24 de setembro de 2010

15 - Data Warehouse + Middleware

Nenhum comentário: