Curaduría open-source · Python-first · en español

El catálogo

Nº30 · Procesamiento

Trino

Un solo SQL para consultar datos donde sea que vivan.

Motor / BDIntermedioData Engineersql

¿Qué es?

Trino es un motor de consultas SQL distribuido diseñado para correr una misma query sobre fuentes muy distintas — un data lake en S3, PostgreSQL, Hive, Kafka — sin mover los datos. Cada fuente se conecta como un catálogo y tú consultas todo con SQL estándar.

¿Para qué sirve?

  • Consultar un data lake (Parquet/Iceberg en object storage) con SQL interactivo.
  • Federar fuentes: unir una tabla de PostgreSQL con archivos en S3 en un solo query.
  • Servir de capa de consulta para dashboards (Superset, etc.) sobre el lake.

¿Cuándo usarla / cuándo no?

Úsala para analítica interactiva sobre grandes volúmenes en el lake, o cuando necesitas consultar varias fuentes a la vez sin un ETL previo.

Piénsalo dos veces para single-node o datasets medianos (DuckDB es más simple), para transformaciones ETL pesadas (Spark encaja mejor) o para cargas transaccionales (PostgreSQL).

Empieza en 1 minuto

Levanta un Trino local con Docker (trae el catálogo de ejemplo tpch) y conéctate con su CLI:

docker run -d -p 8080:8080 --name trino trinodb/trino
docker exec -it trino trino   # abre el CLI dentro del contenedor
-- Sobre el catálogo de ejemplo tpch (sin configurar nada):
SELECT nationkey, name FROM tpch.tiny.nation LIMIT 5;

-- La idea real de Trino — federar fuentes distintas en un solo query
-- (una vez conectas catálogos hive/postgresql):
SELECT v.pais, SUM(v.monto) AS total, c.region
FROM hive.analytics.ventas v
JOIN postgresql.public.catalogo c ON v.pais = c.pais
GROUP BY v.pais, c.region
ORDER BY total DESC;

Trivia rápida — pon a prueba lo que acabas de leer.

¿Qué tanto sabes de Trino?

Documentación oficial

La fuente de verdad vive ahí. Acá orientamos; la profundidad la pones tú.

Abrir documentación oficial

Qué aprender después

Ver también

Nº30 · Actualizado 2026-06-08