Juliana Jenny Kolb
Home > Data Science > Big Data
Big Data – DATA LAKE
O Data Lake é um repositório centralizado projetado para armazenar, processar e proteger grandes quantidades de dados estruturados, semiestruturados e não estruturados.
Principais características:
- Ingestão de quaisquer dados de qualquer sistema em qualquer velocidade;
- Armazenagem de qualquer tipo ou volume de dados com total fidelidade;
- Processamento de dados em tempo real ou em modo de lote;
- Escalabilidade;
- Análise de dados usando SQL, Python, R, etc.
Diferenças entre Data Lake e Data Warehouse
Características | Data Lake | Data Warehouse |
Dados | Não relacionais e relacionais de dispositivos de IoT, sites, aplicações móveis, mídias sociais e aplicações corporativas | Relacionais de sistemas transacionais, banco de dados operacionais e aplicações de linha de negócio |
Esquema | Gravado no momento da análise (esquema na leitura) | Definido antes da implementação DW (esquema na gravação) |
Preço/Performance | Resultados de consultas ficando mais rápidos, usando armazenamento de menor custo | Resultados de consultas mais rápidos, usando armazenamento de maior custo |
Qualidade dos dados | Quaisquer dados | Dados altamente selecionados, que representam a versão central da verdade |
Usuários | Cientistas de dados, desenvolvedores de dados e analistas de negócio | Analistas de negócio |
Análises | Machine learning, análises preditivas, descoberta de dados e criação de perfis | Geração de relatórios em lote, BI e visualizações |