Curaduría open-source · Python-first · en español

El catálogo

Nº25 · Lenguajes

Python

El lenguaje franco del stack de datos: de scripts a pipelines y ML.

LenguajeIntroBase / transversal·Data Engineer·Data Scientistpython

¿Qué es?

Python es un lenguaje de propósito general, interpretado y de tipado dinámico, creado por Guido van Rossum en 1991. En el mundo de los datos no domina por ser el más rápido ni el más estricto, sino por su ecosistema: existe una librería Python para casi cada problema del stack de datos, y la mayoría de frameworks modernos — orquestadores, plataformas de ML, herramientas de transformación — exponen su API principal en Python. Eso lo convierte en la lingua franca del área: el lenguaje que conecta capas que de otra forma no hablarían entre sí.

→ Documentación oficial: docs.python.org/3

¿Para qué sirve?

  • Pegamento de pipelines. Orquestadores como Airflow o Prefect definen sus DAGs en Python; los conectores de ingesta (Singer, dlt, Airbyte SDK) se escriben o configuran en Python. Es el idioma en que distintas piezas del stack se comunican.
  • Análisis y transformación de datos. Librerías como pandas, NumPy y Polars permiten explorar, limpiar y transformar datasets en memoria. Es el punto de entrada habitual antes de decidir si el trabajo escala a Spark o se queda en SQL.
  • Machine learning e IA. El ecosistema de ML — scikit-learn, PyTorch, TensorFlow, XGBoost, Hugging Face — vive casi íntegramente en Python. Desde feature engineering hasta despliegue de modelos, Python es el hilo conductor.

¿Cuándo usarla / cuándo no?

Úsalo en prácticamente cualquier tarea del stack de datos: ingestión, transformación ligera, orquestación, scripting de automatización, entrenamiento y servicio de modelos, exploración ad-hoc.

Piénsalo dos veces en estos escenarios:

  • Consultas analíticas puras sobre datos estructurados: SQL (en PostgreSQL, DuckDB, Trino, BigQuery…) suele ser más conciso, más legible para el equipo y más eficiente. Python entonces sirve para lanzar la consulta, no para reemplazarla.
  • Rendimiento extremo o concurrencia de bajo nivel: lenguajes como Rust o Go ganan en throughput y uso de memoria. Herramientas como Polars o Apache Arrow mitigan este gap desde Python, pero si el cuello de botella es el intérprete, evalúa motores dedicados.
  • Transformaciones a escala masiva: cuando el volumen supera la memoria de una sola máquina, frameworks distribuidos (Spark, Flink) o warehouses en la nube hacen el trabajo real; Python sigue siendo la interfaz, pero no el motor.

Empieza en 1 minuto

Verifica tu versión de Python e instala una librería de datos en un entorno aislado:

# Verificar versión instalada (se recomienda 3.10+)
python3 --version

# Crear un entorno virtual aislado
python3 -m venv .venv
source .venv/bin/activate   # Linux/macOS
# .venv\Scripts\activate    # Windows

# Instalar una librería de datos (ejemplo: pandas)
pip install pandas

# Confirmar que funciona
python3 -c "import pandas; print(pandas.__version__)"

Para proyectos en producción considera gestores como uv o Poetry en lugar de pip puro — gestionan dependencias de forma más reproducible.

Trivia rápida — pon a prueba lo que acabas de leer.

¿Qué tanto sabes de Python?

Documentación oficial

La fuente de verdad vive ahí. Acá orientamos; la profundidad la pones tú.

Abrir documentación oficial

Qué aprender después

Ver también

Nº25 · Actualizado 2026-06-08