Curaduría open-source · Python-first · en español

El catálogo

Nº01 · Orquestación

Airbyte

Mueve datos de cualquier fuente a tu warehouse con conectores listos.

PlataformaIntroData Engineer

¿Qué es?

Airbyte es una plataforma open-source de integración de datos (EL/ELT): su trabajo es mover datos desde una fuente hasta un destino. Lo distintivo es su biblioteca de cientos de conectores pre-construidos — APIs, bases de datos y aplicaciones SaaS como orígenes; warehouses y lakes como destinos — para que no tengas que escribir y mantener cada conector a mano.

Encaja en el patrón ELT: Airbyte hace la Extracción y la Carga (load), y la Transformación se hace después, ya dentro del destino, normalmente con dbt.

¿Para qué sirve?

  • Ingesta sin escribir conectores. Conectas Stripe, Postgres, Salesforce o un archivo y Airbyte se encarga de la extracción y la paginación; tú solo configuras.
  • Sincronizaciones incrementales. En lugar de recargar todo cada vez, trae solo lo nuevo o cambiado, con manejo de estado entre corridas.
  • EL antes de transformar. Deja los datos crudos en el warehouse para que dbt los modele después — separar carga de transformación mantiene el pipeline simple y auditable.
  • Conectores a medida. Si falta una fuente, el CDK (Connector Development Kit) te deja construir un conector que vive en el mismo ecosistema.

¿Cuándo usarla / cuándo no?

Úsalo cuando necesites llevar datos de muchas fuentes heterogéneas a un destino central de forma recurrente y batch, sin reinventar la extracción de cada API.

Piénsalo dos veces para:

  • Streaming en tiempo real / baja latencia: Airbyte es batch por diseño. Para flujos de eventos continuos, Kafka es la herramienta.
  • Transformaciones pesadas: la lógica de negocio y el modelado van en dbt (en SQL) o Spark, no en la capa de ingesta.
  • Una extracción trivial y puntual: si es un solo script que corres una vez, un pequeño script de Python pesa menos que levantar la plataforma.

Empieza en 1 minuto

La forma honesta de probar Airbyte en 1 minuto es PyAirbyte, la librería que corre conectores desde Python sin levantar toda la plataforma:

pip install airbyte
import airbyte as ab

# 'source-faker' genera datos de prueba — sin credenciales ni servidor
source = ab.get_source(
    "source-faker",
    config={"count": 100},
    install_if_missing=True,
)
source.check()
source.select_all_streams()

result = source.read()
df = result["products"].to_pandas()   # un stream del conector como DataFrame
print(df.head())

Esto corre un conector real en tu máquina. La plataforma completa (UI, scheduler, todos los conectores y destinos) se levanta aparte con abctl local install, que requiere Docker.

Trivia rápida — pon a prueba lo que acabas de leer.

¿Qué tanto sabes de Airbyte?

Documentación oficial

La fuente de verdad vive ahí. Acá orientamos; la profundidad la pones tú.

Abrir documentación oficial

Qué aprender después

Ver también

Nº01 · Actualizado 2026-06-26