Nº07 · Procesamiento
Apache Spark
El motor distribuido para procesar datos a gran escala.
¿Qué es?
Apache Spark es un motor de procesamiento distribuido: reparte el trabajo entre muchas máquinas (o muchos núcleos) para transformar volúmenes de datos que no caben en una sola. Su API de Python, PySpark, se siente parecida a pandas pero escala a terabytes.
¿Para qué sirve?
- ETL/ELT pesados sobre data lakes (Parquet, Iceberg) y bases de datos.
- Procesamiento batch a gran escala y también streaming (Structured Streaming).
- Preparar features y entrenar modelos sobre datasets enormes (con MLlib).
¿Cuándo usarla / cuándo no?
Úsala cuando el dato no cabe en una máquina o cuando necesitas paralelismo real sobre un cluster.
Piénsalo dos veces si tus datos entran en memoria: levantar Spark es complejo y para GBs DuckDB o Polars son más simples y a menudo más rápidos en single-node.
Empieza en 1 minuto
pip install pyspark
from pyspark.sql import SparkSession
from pyspark.sql import functions as F
spark = SparkSession.builder.appName("demo").getOrCreate()
df = spark.read.parquet("ventas.parquet")
(df.groupBy("pais")
.agg(F.sum("monto").alias("total"))
.orderBy(F.desc("total"))
.show())
Trivia rápida — pon a prueba lo que acabas de leer.
¿Qué tanto sabes de Apache Spark?
Documentación oficial
La fuente de verdad vive ahí. Acá orientamos; la profundidad la pones tú.
Abrir documentación oficial ↗Qué aprender después
Ver tambiénNº07 · Actualizado 2026-06-08