Negocio

Data Warehousing e Data Mining: Informações para Business Intelligence

Data Warehouses

Um banco de dados consiste em um ou mais arquivos que precisam ser armazenados em um computador. Em grandes organizações, os bancos de dados normalmente não são armazenados nos computadores individuais dos funcionários, mas em um sistema central. Este sistema central normalmente consiste em um ou mais servidores de computador . Um servidor é um sistema de computador que fornece um serviço em uma rede. O servidor geralmente está localizado em uma sala com acesso controlado, de modo que somente pessoal autorizado pode obter acesso físico ao servidor.

Em uma configuração típica, os arquivos de banco de dados residem no servidor, mas podem ser acessados ​​de muitos computadores diferentes na organização. Conforme o número e a complexidade dos bancos de dados aumentam, começamos a nos referir a eles juntos como um data warehouse .

Um data warehouse é uma coleção de bancos de dados que funcionam juntos. Um data warehouse torna possível integrar dados de vários bancos de dados, o que pode fornecer novas percepções sobre os dados. O objetivo final de um banco de dados não é apenas armazenar dados, mas ajudar as empresas a tomar decisões com base nesses dados. Um data warehouse oferece suporte a esse objetivo, fornecendo uma arquitetura e ferramentas para organizar e compreender sistematicamente os dados de vários bancos de dados.

DBMS Distribuído

Conforme os bancos de dados ficam maiores, fica cada vez mais difícil manter o banco de dados inteiro em um único local físico. Não apenas a capacidade de armazenamento se torna um problema, mas também há considerações de segurança e desempenho. Considere uma empresa com vários escritórios ao redor do mundo.

É possível criar um único banco de dados grande e único no escritório principal e fazer com que todos os outros escritórios se conectem a esse banco de dados. No entanto, sempre que um funcionário precisa trabalhar com o banco de dados, ele precisa criar uma conexão por milhares de quilômetros, por meio de vários nós de rede. Contanto que você esteja movendo quantidades relativamente pequenas de dados, isso não representa um grande desafio.

Mas, e se o banco de dados for enorme? Não é muito eficiente mover grandes quantidades de dados para a frente e para trás pela rede. Pode ser mais eficiente ter um banco de dados distribuído . Isso significa que o banco de dados consiste em vários bancos de dados inter-relacionados, armazenados em diferentes sites da rede de computadores.

Para um usuário típico, o banco de dados distribuído aparece como um banco de dados centralizado. Nos bastidores, entretanto, partes desse banco de dados estão localizadas em locais diferentes. As características típicas de um sistema de gerenciamento de banco de dados distribuído, ou DBMS, são:

  • Vários sites de rede de computadores são conectados por um sistema de comunicação
  • Os dados em qualquer site estão disponíveis para usuários em outros sites
  • Os dados em cada site estão sob controle do DBMS

Você provavelmente usou um banco de dados distribuído sem perceber. Por exemplo, você pode estar usando uma conta de e-mail de um dos principais provedores de serviço. Onde exatamente residem seus e-mails? Provavelmente, a empresa que hospeda o serviço de e-mail usa vários locais diferentes sem você saber.

A principal vantagem dos bancos de dados distribuídos é que o acesso e o processamento dos dados são muito mais rápidos. A principal desvantagem é que o banco de dados é muito mais complexo de gerenciar. A configuração de um banco de dados distribuído é normalmente a tarefa de um administrador de banco de dados com habilidades de banco de dados muito especializadas.

Mineração de dados

Depois que todos os dados são armazenados e organizados em bancos de dados, o que vem a seguir? Muitas operações do dia a dia são suportadas por bancos de dados. Consultas baseadas em SQL, uma linguagem de programação de banco de dados, são usadas para responder a perguntas básicas sobre dados. Mas, à medida que a coleta de dados aumenta em um banco de dados, a quantidade de dados pode facilmente se tornar excessiva. Como uma organização obtém o máximo de seus dados sem se perder nos detalhes? É aí que entra a mineração de dados .

Mineração de dados é o processo de analisar dados e resumi-los para produzir informações úteis. A mineração de dados usa ferramentas sofisticadas de análise de dados para descobrir padrões e relacionamentos em grandes conjuntos de dados. Essas ferramentas são muito mais do que resumos ou consultas básicas e usam algoritmos muito mais complicados. Quando a mineração de dados é usada em aplicativos de negócios, também é chamada de análise de negócios ou inteligência de negócios .

Considere um varejista online que vende uma ampla variedade de produtos. Em um dia normal, pode vender milhares de produtos diferentes para dezenas de milhares de clientes diferentes. Como a empresa aproveita todos esses dados para melhorar seus negócios? Uma estratégia é descobrir quais produtos costumam ser comprados juntos.

Isso possibilitaria a criação de pacotes de produtos atraentes para os clientes. Outro método é desenvolver perfis para clientes. Uma empresa poderia perguntar, com base em compras anteriores, em quais produtos o mesmo cliente também pode estar interessado? Isso possibilita fazer sugestões ao cliente e aumentar as vendas.

Outro cenário é a detecção de fraude. Você já teve sua administradora de cartão de crédito entrando em contato com você a respeito de uma transação suspeita? Como é que isso funciona? Digamos que você seja um trabalhador da construção civil em Minneapolis. Normalmente, você usa seu cartão de crédito no supermercado, no shopping e em alguns restaurantes locais, todos na área de Minneapolis.

De repente, seu cartão de crédito é usado para pagar por um hotel sofisticado em Miami Beach, várias casas noturnas e uma joalheria. Pode muito bem ser que você tenha ido a Miami para um fim de semana romântico com sua namorada porque vai pedir a ela em casamento. Mas, também é bem possível que seu cartão de crédito tenha sido roubado e você ainda não tenha percebido.

Portanto, a operadora de cartão de crédito possui algoritmos sofisticados em execução em tempo real para identificar padrões fora do comum com base em seus dados demográficos e hábitos de gastos anteriores. Uma transação suspeita aciona um alerta e você é contatado pelo departamento de detecção de fraude. Muito inteligente e tudo graças à mineração de dados.

Os algoritmos de mineração de dados costumam ser projetados para melhorar com o tempo, à medida que mais dados são coletados e os resultados da análise são verificados quanto à precisão. Você provavelmente reconhece esses cenários. A mineração de dados foi integrada a muitas empresas, especialmente aquelas com uma forte presença online.

Resumo da lição

Em resumo, os bancos de dados são freqüentemente armazenados em um sistema de computador central conhecido como servidor de computador . Um data warehouse é uma coleção de bancos de dados que funcionam juntos. Isso torna possível examinar padrões e tendências combinando vários bancos de dados.

Bancos de dados distribuídos são usados ​​para armazenar um banco de dados em vários sites de computador para melhorar o acesso e processamento de dados. Mineração de dados é o processo de analisar dados e resumi-los para produzir informações úteis. A mineração de dados usa ferramentas sofisticadas de análise de dados para descobrir padrões e relacionamentos em grandes conjuntos de dados.

Resultados de Aprendizagem

Depois de concluir esta lição, você será capaz de:

  • Descreva o que os data warehouses fazem e sua importância
  • Liste algumas características de um sistema de gerenciamento de banco de dados distribuído
  • Resuma como funciona a mineração de dados e forneça um exemplo de sua utilidade