Big Data – Pipeline de Dados

Juliana Jenny Kolb

teste seu conhecimento

Home > Data Science > Big Data

Big Data – Pipeline de Dados

Pipeline de dados consiste em uma série de etapas de processamento de dados.

FONTE -> PIPELINE (etapas de processamento) -> DESTINO

Entre os principais fatores que devem ser considerados, citam-se:

  • Velocidade ou taxa de transferência;
  • Confiabilidade (tolerância a falhas, auditoria);
  • Latência (tempo necessário para que um dado atravessem o pipeline).

Etapas

Data Engineering -> coleta de dados, remoção de inconsistências, inserção no Data Lake

  • limpar
  • conformar
  • formatar
  • transformar
  • ingerir

Data Preparation -> preparação dos dados

  • refinar
  • orquestrar
  • virtualizar
  • misturar/juntar
  • preparar
  • enriquecer

Analytics -> análise dos dados

  • construir
  • pontuar
  • modelar
  • analisar

Tipos de Pipeline

  • Pipeline em lote (batch): envolve a manipulação de blocos de dados que já foram armazenados durante um determinado período de tempo.
  • Pipeline em Streaming: executa operações em dados em movimento ou em tempo real.