Curaduría open-source · Python-first · en español

El catálogo

Nº22 · Análisis

pandas

La navaja suiza para manipular y analizar datos tabulares en Python.

Librería / frameworkIntroData Scientist·Data Engineerpython

¿Qué es?

pandas es la librería de facto para trabajar con datos tabulares en Python. Su estructura central, el DataFrame, es como una hoja de cálculo programable: filas, columnas con nombre y miles de operaciones para limpiar, transformar y resumir datos.

¿Para qué sirve?

  • Leer y escribir CSV, Excel, JSON, Parquet o SQL con una línea.
  • Limpiar datos reales: nulos, tipos, duplicados, fechas, texto.
  • Agrupar, pivotar, unir tablas (groupby, merge, pivot_table) para responder preguntas de negocio.

¿Cuándo usarla / cuándo no?

Úsala para casi cualquier análisis exploratorio o ETL que entre en memoria: es el estándar, tiene la comunidad más grande y se integra con todo el ecosistema (NumPy, matplotlib, scikit-learn).

Piénsalo dos veces con datasets que no entran en RAM o cuando la velocidad importa: ahí Polars o DuckDB suelen ser más rápidos y eficientes en memoria.

Empieza en 1 minuto

pip install pandas
import pandas as pd

df = pd.read_csv("ventas.csv")

# Total por país, ordenado de mayor a menor
resumen = (
    df.groupby("pais")["monto"]
      .sum()
      .sort_values(ascending=False)
)

print(resumen.head())

Trivia rápida — pon a prueba lo que acabas de leer.

¿Qué tanto sabes de pandas?

Documentación oficial

La fuente de verdad vive ahí. Acá orientamos; la profundidad la pones tú.

Abrir documentación oficial

Qué aprender después

Ver también

Nº22 · Actualizado 2026-06-08