Nº14 · Análisis

DuckDB

La base de datos analítica que corre dentro de tu proceso, sin servidor.

Motor / BD—Intro—Data Engineer·Data Scientist—sql

¿Qué es?

DuckDB es una base de datos analítica en proceso (embedded): no levantas un servidor ni administras infraestructura — corre dentro de tu script de Python, tu notebook o tu terminal. Piensa en "SQLite, pero para análisis": un motor SQL rápido que vive junto a tu código.

¿Para qué sirve?

Consultar archivos Parquet y CSV directamente con SQL, sin cargarlos antes a una base de datos.
Análisis local rápido sobre datasets de tamaño medio-grande (GBs) en una sola máquina, sin pagar un data warehouse.
Convivir con pandas/Polars: lees un DataFrame con SQL y devuelves otro DataFrame, mezclando lo mejor de ambos mundos.

¿Cuándo usarla / cuándo no?

Úsala cuando quieras SQL analítico sobre archivos locales o en object storage, prototipar transformaciones, o acelerar exploración que en pandas se vuelve lenta.

Piénsalo dos veces si necesitas escrituras concurrentes de muchos usuarios, un servicio transaccional siempre encendido (ahí va PostgreSQL) o procesar petabytes distribuidos (ahí entran Spark o Trino). DuckDB brilla en single-node.

Empieza en 1 minuto

pip install duckdb

import duckdb

# Consulta un Parquet directamente, sin cargarlo a una tabla
df = duckdb.sql("""
    SELECT pais, SUM(monto) AS total
    FROM 'ventas.parquet'
    GROUP BY pais
    ORDER BY total DESC
""").df()

print(df)

Eso es todo: sin servidor, sin esquema previo, sin CREATE TABLE. DuckDB lee el archivo, ejecuta el SQL y te devuelve un DataFrame de pandas.

Trivia rápida — pon a prueba lo que acabas de leer.