Nº04 · Procesamiento

Apache Kafka

El sistema nervioso para datos en tiempo real.

Plataforma—Intermedio—Data Engineer—python

¿Qué es?

Apache Kafka es una plataforma de event streaming distribuida. Los sistemas publican eventos en topics y otros los consumen, en tiempo real y de forma desacoplada. Kafka guarda esos flujos de forma durable, así que múltiples consumidores pueden leerlos a su ritmo.

¿Para qué sirve?

Mover datos en tiempo real entre servicios, bases de datos y pipelines.
Desacoplar productores y consumidores (un evento, muchos lectores).
Alimentar procesamiento en streaming (Spark, Flink) o ingesta a un data lake.

¿Cuándo usarla / cuándo no?

Úsala cuando necesitas un bus de eventos durable y de alto throughput, o arquitecturas event-driven donde varios sistemas reaccionan al mismo flujo.

Piénsalo dos veces para datos puramente batch (un archivo diario no necesita Kafka) o para una cola de tareas simple — ahí una cola tradicional es más liviana.

Empieza en 1 minuto

Necesitas un broker corriendo. Lo más rápido para probar en local es uno con Docker:

docker run -d -p 9092:9092 apache/kafka:latest
pip install confluent-kafka

from confluent_kafka import Producer

producer = Producer({"bootstrap.servers": "localhost:9092"})

producer.produce("ventas", key="ES", value='{"monto": 100.5}')
producer.flush()
print("Evento publicado en el topic 'ventas'")

Trivia rápida — pon a prueba lo que acabas de leer.

¿Qué tanto sabes de Apache Kafka?

Documentación oficial

La fuente de verdad vive ahí. Acá orientamos; la profundidad la pones tú.

Abrir documentación oficial ↗

Qué aprender después

Ver también

Nº07Procesamiento

Apache Spark

El motor distribuido para procesar datos a gran escala.

Intermediopython

Nº30Procesamiento

Trino

Un solo SQL para consultar datos donde sea que vivan.

Intermediosql

Nº04 · Actualizado 2026-06-08