Nº17 · Análisis

Jupyter

El cuaderno interactivo donde el análisis de datos toma forma.

Entorno—Intro—Data Scientist·Base / transversal—python

¿Qué es?

Jupyter es un entorno de notebooks interactivos: documentos donde mezclas celdas de código (normalmente Python), su salida (tablas, gráficos, números) y texto explicativo en Markdown. Ejecutas celda por celda y ves el resultado al instante, lo que lo vuelve el lugar natural para explorar datos de forma iterativa.

El nombre viene de Julia, Python y R, los primeros lenguajes que soportó. Hoy el ecosistema incluye JupyterLab (la interfaz moderna) y JupyterHub (notebooks multiusuario en un servidor).

¿Para qué sirve?

Exploración de datos. Cargas un dataset con pandas, lo inspeccionas, graficas y ajustas — todo en el mismo documento, sin reiniciar nada.
Prototipado y experimentación. Probar una idea de modelo, una transformación o una hipótesis antes de llevarla a código de producción.
Comunicar análisis. Un notebook bien armado cuenta una historia: contexto en Markdown, el código que lo sustenta y los gráficos que lo prueban, en orden.
Enseñar y aprender. Es el formato estándar de cursos y tutoriales de datos por su mezcla de explicación y código ejecutable.

¿Cuándo usarla / cuándo no?

Úsalo para análisis exploratorio, prototipos, visualización ad-hoc y para documentar un razonamiento paso a paso. Es el banco de trabajo del Data Scientist.

Piénsalo dos veces para:

Código de producción. La lógica reutilizable debe vivir en módulos .py versionados y testeados, no en un notebook. Refactoriza lo que funcione hacia scripts.
Pipelines programados. Para correr algo en horario con reintentos, usa un orquestador (Airflow) — no un notebook a mano.
Reproducibilidad estricta. El estado oculto (celdas corridas en desorden) es una trampa clásica; reinicia el kernel y corre todo de arriba abajo antes de confiar en el resultado.

Empieza en 1 minuto

Instala JupyterLab y ábrelo en el navegador:

pip install jupyterlab
jupyter lab        # abre la interfaz en http://localhost:8888

Crea un notebook nuevo y, en una celda, prueba el flujo típico de exploración:

import pandas as pd

df = pd.DataFrame({"pais": ["PE", "PE", "CL"], "monto": [100, 50, 80]})
df.groupby("pais")["monto"].sum()   # la salida aparece bajo la celda

Trivia rápida — pon a prueba lo que acabas de leer.