Curaduría open-source · Python-first · en español

El catálogo

Nº02 · Orquestación

Apache Airflow

Orquesta pipelines de datos como código: programa, ejecuta y monitorea.

PlataformaIntroData Engineerpython

¿Qué es?

Apache Airflow es una plataforma para orquestar workflows. Defines tus pipelines como DAGs (grafos de tareas) en Python, y Airflow se encarga de programarlos, ejecutar las tareas en el orden correcto, reintentar las que fallan y mostrarte todo en una UI.

¿Para qué sirve?

  • Coordinar pipelines ETL/ELT con dependencias entre pasos.
  • Programar trabajos recurrentes (diarios, horarios) con reintentos y alertas.
  • Tener visibilidad: qué corrió, cuándo, qué falló y por qué.

¿Cuándo usarla / cuándo no?

Úsala cuando tienes flujos batch con múltiples pasos y dependencias que necesitan calendario, observabilidad y reintentos.

Piénsalo dos veces para streaming en tiempo real (mejor Kafka/Spark Streaming) o para un único script simple en cron — Airflow añade infraestructura que no siempre hace falta.

Empieza en 1 minuto

pip install apache-airflow
from airflow.decorators import dag, task
import pendulum

@dag(schedule="@daily", start_date=pendulum.datetime(2026, 1, 1), catchup=False)
def pipeline_ventas():
    @task
    def extraer():
        return [1, 2, 3]

    @task
    def cargar(filas):
        print(f"Cargadas {len(filas)} filas")

    cargar(extraer())

pipeline_ventas()

Trivia rápida — pon a prueba lo que acabas de leer.

¿Qué tanto sabes de Apache Airflow?

Documentación oficial

La fuente de verdad vive ahí. Acá orientamos; la profundidad la pones tú.

Abrir documentación oficial

Qué aprender después

Ver también

Nº02 · Actualizado 2026-06-08