ETL Pipeline — DistroWatch Data
Visão Geral
Este projeto é um ETL Pipeline feito com Python e Apache Airflow para extrair, transformar e carregar dados do DistroWatch.
O objetivo é organizar e analisar tendências, histórico de lançamentos e metadados de distribuições Linux.
Tecnologias usadas:
- Airflow — orquestra e agenda as tarefas ETL.
- Python — scripts para extração, limpeza, transformação e carregamento.
- Código modular — facilita manutenção e testes.
- Design preparado para integrar novos conectores ou fontes de dados.
Funcionalidades
- Workflows automatizados com Airflow, garantindo execução confiável.
- Dados limpos e padronizados para análise ou armazenamento.
- Agendamento configurável — permite execução periódica.
- Logs e tratamento de erros para fácil monitoramento.
Arquitetura
- Extração — coleta dados do DistroWatch via web scraping.
- Transformação — limpa, padroniza e organiza campos como datas e nomes.
- Carga — salva dados processados em arquivos CSV.
- Orquestração — Airflow gerencia ordem, tentativas e alertas.
Mais detalhes
Leia o artigo completo no LinkedIn
Veja o projeto no GitHub: ETL Pipeline — DistroWatch Data