Nº22 · Análisis

pandas

La navaja suiza para manipular y analizar datos tabulares en Python.

Librería / framework—Intro—Data Scientist·Data Engineer—python

¿Qué es?

pandas es la librería de facto para trabajar con datos tabulares en Python. Su estructura central, el DataFrame, es como una hoja de cálculo programable: filas, columnas con nombre y miles de operaciones para limpiar, transformar y resumir datos.

¿Para qué sirve?

Leer y escribir CSV, Excel, JSON, Parquet o SQL con una línea.
Limpiar datos reales: nulos, tipos, duplicados, fechas, texto.
Agrupar, pivotar, unir tablas (groupby, merge, pivot_table) para responder preguntas de negocio.

¿Cuándo usarla / cuándo no?

Úsala para casi cualquier análisis exploratorio o ETL que entre en memoria: es el estándar, tiene la comunidad más grande y se integra con todo el ecosistema (NumPy, matplotlib, scikit-learn).

Piénsalo dos veces con datasets que no entran en RAM o cuando la velocidad importa: ahí Polars o DuckDB suelen ser más rápidos y eficientes en memoria.

Empieza en 1 minuto

pip install pandas

import pandas as pd

df = pd.read_csv("ventas.csv")

# Total por país, ordenado de mayor a menor
resumen = (
    df.groupby("pais")["monto"]
      .sum()
      .sort_values(ascending=False)
)

print(resumen.head())

Trivia rápida — pon a prueba lo que acabas de leer.

¿Qué tanto sabes de pandas?

Documentación oficial

La fuente de verdad vive ahí. Acá orientamos; la profundidad la pones tú.

Abrir documentación oficial ↗

Qué aprender después

Ver también

Nº23Análisis

Polars

DataFrames en Rust: rápidos, paralelos y con evaluación perezosa.

Intropython

Nº14Análisis

DuckDB

La base de datos analítica que corre dentro de tu proceso, sin servidor.

Introsql

Nº22 · Actualizado 2026-06-08