Nº25 · Lenguajes
Python
El lenguaje franco del stack de datos: de scripts a pipelines y ML.
¿Qué es?
Python es un lenguaje de propósito general, interpretado y de tipado dinámico, creado por Guido van Rossum en 1991. En el mundo de los datos no domina por ser el más rápido ni el más estricto, sino por su ecosistema: existe una librería Python para casi cada problema del stack de datos, y la mayoría de frameworks modernos — orquestadores, plataformas de ML, herramientas de transformación — exponen su API principal en Python. Eso lo convierte en la lingua franca del área: el lenguaje que conecta capas que de otra forma no hablarían entre sí.
→ Documentación oficial: docs.python.org/3
¿Para qué sirve?
- Pegamento de pipelines. Orquestadores como Airflow o Prefect definen sus DAGs en Python; los conectores de ingesta (Singer, dlt, Airbyte SDK) se escriben o configuran en Python. Es el idioma en que distintas piezas del stack se comunican.
- Análisis y transformación de datos. Librerías como pandas, NumPy y Polars permiten explorar, limpiar y transformar datasets en memoria. Es el punto de entrada habitual antes de decidir si el trabajo escala a Spark o se queda en SQL.
- Machine learning e IA. El ecosistema de ML — scikit-learn, PyTorch, TensorFlow, XGBoost, Hugging Face — vive casi íntegramente en Python. Desde feature engineering hasta despliegue de modelos, Python es el hilo conductor.
¿Cuándo usarla / cuándo no?
Úsalo en prácticamente cualquier tarea del stack de datos: ingestión, transformación ligera, orquestación, scripting de automatización, entrenamiento y servicio de modelos, exploración ad-hoc.
Piénsalo dos veces en estos escenarios:
- Consultas analíticas puras sobre datos estructurados: SQL (en PostgreSQL, DuckDB, Trino, BigQuery…) suele ser más conciso, más legible para el equipo y más eficiente. Python entonces sirve para lanzar la consulta, no para reemplazarla.
- Rendimiento extremo o concurrencia de bajo nivel: lenguajes como Rust o Go ganan en throughput y uso de memoria. Herramientas como Polars o Apache Arrow mitigan este gap desde Python, pero si el cuello de botella es el intérprete, evalúa motores dedicados.
- Transformaciones a escala masiva: cuando el volumen supera la memoria de una sola máquina, frameworks distribuidos (Spark, Flink) o warehouses en la nube hacen el trabajo real; Python sigue siendo la interfaz, pero no el motor.
Empieza en 1 minuto
Verifica tu versión de Python e instala una librería de datos en un entorno aislado:
# Verificar versión instalada (se recomienda 3.10+)
python3 --version
# Crear un entorno virtual aislado
python3 -m venv .venv
source .venv/bin/activate # Linux/macOS
# .venv\Scripts\activate # Windows
# Instalar una librería de datos (ejemplo: pandas)
pip install pandas
# Confirmar que funciona
python3 -c "import pandas; print(pandas.__version__)"
Para proyectos en producción considera gestores como uv o Poetry en lugar de
pippuro — gestionan dependencias de forma más reproducible.
Trivia rápida — pon a prueba lo que acabas de leer.
¿Qué tanto sabes de Python?
Documentación oficial
La fuente de verdad vive ahí. Acá orientamos; la profundidad la pones tú.
Abrir documentación oficial ↗Qué aprender después
Ver tambiénNº25 · Actualizado 2026-06-08