Nº01 · Orquestación
Airbyte
Mueve datos de cualquier fuente a tu warehouse con conectores listos.
¿Qué es?
Airbyte es una plataforma open-source de integración de datos (EL/ELT): su trabajo es mover datos desde una fuente hasta un destino. Lo distintivo es su biblioteca de cientos de conectores pre-construidos — APIs, bases de datos y aplicaciones SaaS como orígenes; warehouses y lakes como destinos — para que no tengas que escribir y mantener cada conector a mano.
Encaja en el patrón ELT: Airbyte hace la Extracción y la Carga (load), y la Transformación se hace después, ya dentro del destino, normalmente con dbt.
¿Para qué sirve?
- Ingesta sin escribir conectores. Conectas Stripe, Postgres, Salesforce o un archivo y Airbyte se encarga de la extracción y la paginación; tú solo configuras.
- Sincronizaciones incrementales. En lugar de recargar todo cada vez, trae solo lo nuevo o cambiado, con manejo de estado entre corridas.
- EL antes de transformar. Deja los datos crudos en el warehouse para que dbt los modele después — separar carga de transformación mantiene el pipeline simple y auditable.
- Conectores a medida. Si falta una fuente, el CDK (Connector Development Kit) te deja construir un conector que vive en el mismo ecosistema.
¿Cuándo usarla / cuándo no?
Úsalo cuando necesites llevar datos de muchas fuentes heterogéneas a un destino central de forma recurrente y batch, sin reinventar la extracción de cada API.
Piénsalo dos veces para:
- Streaming en tiempo real / baja latencia: Airbyte es batch por diseño. Para flujos de eventos continuos, Kafka es la herramienta.
- Transformaciones pesadas: la lógica de negocio y el modelado van en dbt (en SQL) o Spark, no en la capa de ingesta.
- Una extracción trivial y puntual: si es un solo script que corres una vez, un pequeño script de Python pesa menos que levantar la plataforma.
Empieza en 1 minuto
La forma honesta de probar Airbyte en 1 minuto es PyAirbyte, la librería que corre conectores desde Python sin levantar toda la plataforma:
pip install airbyte
import airbyte as ab
# 'source-faker' genera datos de prueba — sin credenciales ni servidor
source = ab.get_source(
"source-faker",
config={"count": 100},
install_if_missing=True,
)
source.check()
source.select_all_streams()
result = source.read()
df = result["products"].to_pandas() # un stream del conector como DataFrame
print(df.head())
Esto corre un conector real en tu máquina. La plataforma completa (UI, scheduler, todos los conectores y destinos) se levanta aparte con
abctl local install, que requiere Docker.
Trivia rápida — pon a prueba lo que acabas de leer.
¿Qué tanto sabes de Airbyte?
Documentación oficial
La fuente de verdad vive ahí. Acá orientamos; la profundidad la pones tú.
Abrir documentación oficial ↗Qué aprender después
Ver tambiénApache NiFi
Mueve datos entre sistemas con flujos visuales, sin escribir código.
Apache Kafka
El sistema nervioso para datos en tiempo real.
dbt
Transforma datos en tu warehouse con SQL, como si fuera código de software.
Nº01 · Actualizado 2026-06-26