Curaduría open-source · Python-first · en español

El catálogo

Nº07 · Procesamiento

Apache Spark

El motor distribuido para procesar datos a gran escala.

Motor / BDIntermedioData Engineer·Data Scientistpython

¿Qué es?

Apache Spark es un motor de procesamiento distribuido: reparte el trabajo entre muchas máquinas (o muchos núcleos) para transformar volúmenes de datos que no caben en una sola. Su API de Python, PySpark, se siente parecida a pandas pero escala a terabytes.

¿Para qué sirve?

  • ETL/ELT pesados sobre data lakes (Parquet, Iceberg) y bases de datos.
  • Procesamiento batch a gran escala y también streaming (Structured Streaming).
  • Preparar features y entrenar modelos sobre datasets enormes (con MLlib).

¿Cuándo usarla / cuándo no?

Úsala cuando el dato no cabe en una máquina o cuando necesitas paralelismo real sobre un cluster.

Piénsalo dos veces si tus datos entran en memoria: levantar Spark es complejo y para GBs DuckDB o Polars son más simples y a menudo más rápidos en single-node.

Empieza en 1 minuto

pip install pyspark
from pyspark.sql import SparkSession
from pyspark.sql import functions as F

spark = SparkSession.builder.appName("demo").getOrCreate()

df = spark.read.parquet("ventas.parquet")

(df.groupBy("pais")
   .agg(F.sum("monto").alias("total"))
   .orderBy(F.desc("total"))
   .show())

Trivia rápida — pon a prueba lo que acabas de leer.

¿Qué tanto sabes de Apache Spark?

Documentación oficial

La fuente de verdad vive ahí. Acá orientamos; la profundidad la pones tú.

Abrir documentación oficial

Qué aprender después

Ver también

Nº07 · Actualizado 2026-06-08