Juliana Jenny Kolb
Home > Data Science > Big Data
Big Data – Pipeline de Dados
Pipeline de dados consiste em uma série de etapas de processamento de dados.
FONTE -> PIPELINE (etapas de processamento) -> DESTINO
Entre os principais fatores que devem ser considerados, citam-se:
- Velocidade ou taxa de transferência;
- Confiabilidade (tolerância a falhas, auditoria);
- Latência (tempo necessário para que um dado atravessem o pipeline).
Etapas
Data Engineering -> coleta de dados, remoção de inconsistências, inserção no Data Lake
- limpar
- conformar
- formatar
- transformar
- ingerir
Data Preparation -> preparação dos dados
- refinar
- orquestrar
- virtualizar
- misturar/juntar
- preparar
- enriquecer
Analytics -> análise dos dados
- construir
- pontuar
- modelar
- analisar
Tipos de Pipeline
- Pipeline em lote (batch): envolve a manipulação de blocos de dados que já foram armazenados durante um determinado período de tempo.
- Pipeline em Streaming: executa operações em dados em movimento ou em tempo real.