Nº02 · Orquestación
Apache Airflow
Orquesta pipelines de datos como código: programa, ejecuta y monitorea.
¿Qué es?
Apache Airflow es una plataforma para orquestar workflows. Defines tus pipelines como DAGs (grafos de tareas) en Python, y Airflow se encarga de programarlos, ejecutar las tareas en el orden correcto, reintentar las que fallan y mostrarte todo en una UI.
¿Para qué sirve?
- Coordinar pipelines ETL/ELT con dependencias entre pasos.
- Programar trabajos recurrentes (diarios, horarios) con reintentos y alertas.
- Tener visibilidad: qué corrió, cuándo, qué falló y por qué.
¿Cuándo usarla / cuándo no?
Úsala cuando tienes flujos batch con múltiples pasos y dependencias que necesitan calendario, observabilidad y reintentos.
Piénsalo dos veces para streaming en tiempo real (mejor Kafka/Spark Streaming) o para un único script simple en cron — Airflow añade infraestructura que no siempre hace falta.
Empieza en 1 minuto
pip install apache-airflow
from airflow.decorators import dag, task
import pendulum
@dag(schedule="@daily", start_date=pendulum.datetime(2026, 1, 1), catchup=False)
def pipeline_ventas():
@task
def extraer():
return [1, 2, 3]
@task
def cargar(filas):
print(f"Cargadas {len(filas)} filas")
cargar(extraer())
pipeline_ventas()
Trivia rápida — pon a prueba lo que acabas de leer.
¿Qué tanto sabes de Apache Airflow?
Documentación oficial
La fuente de verdad vive ahí. Acá orientamos; la profundidad la pones tú.
Abrir documentación oficial ↗Qué aprender después
Ver tambiénNº02 · Actualizado 2026-06-08