Desafio 3–5 semanas
Pipeline de dados em tempo real
Engenharia de dados em escala: ingestão por streaming, processamento distribuído com Spark e um lakehouse versionado.
KafkaPySparkAirflowDelta Lake
Construa este projeto na PyTrack
Acesse o passo a passo guiado, exercícios e a IDE Python no navegador.
Começar grátisO que você vai construir
- ✓Ingestão em streaming (Kafka)
- ✓Processamento com PySpark
- ✓Lakehouse com Delta Lake
- ✓Orquestração com Airflow
- ✓Qualidade e governança
Passo a passo
- 1
Configure o produtor/consumidor Kafka
- 2
Processe streams com PySpark
- 3
Escreva em Delta Lake (ACID)
- 4
Orquestre batches com Airflow
- 5
Adicione data quality
- 6
Monitore o pipeline
O que você vai aprender
StreamingSpark distribuídoLakehouse