Nº07 · Procesamiento

Apache Spark

El motor distribuido para procesar datos a gran escala.

Motor / BD—Intermedio—Data Engineer·Data Scientist—python

¿Qué es?

Apache Spark es un motor de procesamiento distribuido: reparte el trabajo entre muchas máquinas (o muchos núcleos) para transformar volúmenes de datos que no caben en una sola. Su API de Python, PySpark, se siente parecida a pandas pero escala a terabytes.

¿Para qué sirve?

ETL/ELT pesados sobre data lakes (Parquet, Iceberg) y bases de datos.
Procesamiento batch a gran escala y también streaming (Structured Streaming).
Preparar features y entrenar modelos sobre datasets enormes (con MLlib).

¿Cuándo usarla / cuándo no?

Úsala cuando el dato no cabe en una máquina o cuando necesitas paralelismo real sobre un cluster.

Piénsalo dos veces si tus datos entran en memoria: levantar Spark es complejo y para GBs DuckDB o Polars son más simples y a menudo más rápidos en single-node.

Empieza en 1 minuto

pip install pyspark

from pyspark.sql import SparkSession
from pyspark.sql import functions as F

spark = SparkSession.builder.appName("demo").getOrCreate()

df = spark.read.parquet("ventas.parquet")

(df.groupBy("pais")
   .agg(F.sum("monto").alias("total"))
   .orderBy(F.desc("total"))
   .show())

Trivia rápida — pon a prueba lo que acabas de leer.

¿Qué tanto sabes de Apache Spark?

Documentación oficial

La fuente de verdad vive ahí. Acá orientamos; la profundidad la pones tú.

Abrir documentación oficial ↗

Qué aprender después

Ver también

Nº04Procesamiento

Apache Kafka

El sistema nervioso para datos en tiempo real.

Intermediopython

Nº30Procesamiento

Trino

Un solo SQL para consultar datos donde sea que vivan.

Intermediosql

Nº07 · Actualizado 2026-06-08