ETL Pipeline — DistroWatch Data

Visão Geral

Este projeto é um ETL Pipeline feito com Python e Apache Airflow para extrair, transformar e carregar dados do DistroWatch.
O objetivo é organizar e analisar tendências, histórico de lançamentos e metadados de distribuições Linux.

Tecnologias usadas:

Funcionalidades

Arquitetura

  1. Extração — coleta dados do DistroWatch via web scraping.
  2. Transformação — limpa, padroniza e organiza campos como datas e nomes.
  3. Carga — salva dados processados em arquivos CSV.
  4. Orquestração — Airflow gerencia ordem, tentativas e alertas.

Mais detalhes

Leia o artigo completo no LinkedIn

Veja o projeto no GitHub: ETL Pipeline — DistroWatch Data