Nº30 · Procesamiento
Trino
Un solo SQL para consultar datos donde sea que vivan.
¿Qué es?
Trino es un motor de consultas SQL distribuido diseñado para correr una misma query sobre fuentes muy distintas — un data lake en S3, PostgreSQL, Hive, Kafka — sin mover los datos. Cada fuente se conecta como un catálogo y tú consultas todo con SQL estándar.
¿Para qué sirve?
- Consultar un data lake (Parquet/Iceberg en object storage) con SQL interactivo.
- Federar fuentes: unir una tabla de PostgreSQL con archivos en S3 en un solo query.
- Servir de capa de consulta para dashboards (Superset, etc.) sobre el lake.
¿Cuándo usarla / cuándo no?
Úsala para analítica interactiva sobre grandes volúmenes en el lake, o cuando necesitas consultar varias fuentes a la vez sin un ETL previo.
Piénsalo dos veces para single-node o datasets medianos (DuckDB es más simple), para transformaciones ETL pesadas (Spark encaja mejor) o para cargas transaccionales (PostgreSQL).
Empieza en 1 minuto
Levanta un Trino local con Docker (trae el catálogo de ejemplo tpch) y conéctate con su CLI:
docker run -d -p 8080:8080 --name trino trinodb/trino
docker exec -it trino trino # abre el CLI dentro del contenedor
-- Sobre el catálogo de ejemplo tpch (sin configurar nada):
SELECT nationkey, name FROM tpch.tiny.nation LIMIT 5;
-- La idea real de Trino — federar fuentes distintas en un solo query
-- (una vez conectas catálogos hive/postgresql):
SELECT v.pais, SUM(v.monto) AS total, c.region
FROM hive.analytics.ventas v
JOIN postgresql.public.catalogo c ON v.pais = c.pais
GROUP BY v.pais, c.region
ORDER BY total DESC;
Trivia rápida — pon a prueba lo que acabas de leer.
¿Qué tanto sabes de Trino?
Documentación oficial
La fuente de verdad vive ahí. Acá orientamos; la profundidad la pones tú.
Abrir documentación oficial ↗Qué aprender después
Ver tambiénNº30 · Actualizado 2026-06-08