Introdução
Conceitos
1.
Processo de ETL
2.
Extração
2.1.
Web Scraping
2.1.1.
Ética e Legalidade
2.2.
API
2.2.1.
REST
2.2.2.
GraphQL
2.3.
Banco de Dados
2.4.
Arquivos Estruturados
2.4.1.
CSV
2.4.2.
XLS ou XLSX
2.4.3.
JSON
2.4.4.
XML
2.5.
Arquivos Não Estruturados
2.5.1.
PDF
2.5.2.
Texto
3.
Transformação
3.1.
Limpeza de Dados
3.2.
Validação de Dados
3.3.
Enriquecimento de Dados
3.4.
Normalização e Padronização
4.
Carregamento
4.1.
Data Warehouses
4.2.
Data Lakes
4.3.
Ferramentas de BI
Guia de Referência
5.
Definição do Problema
5.1.
Identificação de Necessidades de Negócio
5.2.
Definição de Métricas e KPIs
6.
Extração
6.1.
API Pública
6.2.
Bases de Dados
6.3.
Servidor de Arquivos Estáticos
6.4.
Sites Estáticos
6.5.
Sites Dinâmicos
6.6.
Tratamento dos Dados
7.
Transformação
8.
Carregamento
8.1.
Batch ou Streaming
8.2.
Sincronização Incremental
8.3.
Documentação de Metadados
8.4.
Armazenamento de Dados
8.4.1.
Estratégias de Particionamento
9.
Automação
9.1.
Orquestração de Workflows
9.2.
Pipeline CI/CD
Boas Práticas
10.
Versionamento de Dados
10.1.
Git
10.1.1.
LFS
10.2.
DVC
11.
Monitoramento de Pipelines
12.
Testes de Qualidade de Dados
Exemplos
Contribuidores
Light
Rust
Coal
Navy
Ayu
Guia do Analista de Dados da SEPLAN/RR
Contribuidores
Eduardo Henrique Freire Machado