Big Data – DATA LAKE

Juliana Jenny Kolb

teste seu conhecimento

Home > Data Science > Big Data

Big Data – DATA LAKE

O Data Lake é um repositório centralizado projetado para armazenar, processar e proteger grandes quantidades de dados estruturados, semiestruturados e não estruturados.

Principais características:

  • Ingestão de quaisquer dados de qualquer sistema em qualquer velocidade;
  • Armazenagem de qualquer tipo ou volume de dados com total fidelidade;
  • Processamento de dados em tempo real ou em modo de lote;
  • Escalabilidade;
  • Análise de dados usando SQL, Python, R, etc.

Diferenças entre Data Lake e Data Warehouse

Características Data Lake Data Warehouse
Dados Não relacionais e relacionais de dispositivos de IoT, sites, aplicações móveis, mídias sociais e aplicações corporativas Relacionais de sistemas transacionais, banco de dados operacionais e aplicações de linha de negócio
Esquema Gravado no momento da análise (esquema na leitura) Definido antes da implementação DW (esquema na gravação)
Preço/Performance Resultados de consultas ficando mais rápidos, usando armazenamento de menor custo Resultados de consultas mais rápidos, usando armazenamento de maior custo
Qualidade dos dados Quaisquer dados Dados altamente selecionados, que representam a versão central da verdade
Usuários Cientistas de dados, desenvolvedores de dados e analistas de negócio Analistas de negócio
Análises Machine learning, análises preditivas, descoberta de dados e criação de perfis Geração de relatórios em lote, BI e visualizações