Curaduría open-source · Python-first · en español

El catálogo

Nº15 · Infraestructura

Git

El control de versiones sobre el que se apoya todo trabajo de datos reproducible.

InfraestructuraIntroBase / transversal·Data Engineer·Data Scientist

¿Qué es?

Git es un sistema de control de versiones distribuido creado por Linus Torvalds en 2005. Registra la historia de cambios de un conjunto de archivos —sobre todo código— de modo que puedes ver qué cambió, cuándo y por qué, volver a cualquier punto anterior y trabajar en paralelo sin pisar a nadie.

Lo de distribuido es clave: cada copia (clon) del proyecto es un repositorio completo con toda la historia. Trabajas offline y sincronizas con un remoto (GitHub, GitLab) cuando quieres compartir.

¿Para qué sirve?

  • Historial y rollback. Cada commit es una foto del proyecto. Si algo se rompe, vuelves a la versión que funcionaba en segundos.
  • Ramas para trabajar en paralelo. Una rama (branch) te deja experimentar o desarrollar una feature aislada, y fusionarla (merge) cuando esté lista — sin bloquear al resto del equipo.
  • Colaboración. Sobre Git, plataformas como GitHub/GitLab añaden pull/merge requests, revisión de código e issues. Es el estándar de trabajo en equipo.
  • El sustrato de "todo como código". Pipelines (dbt, DAGs de Airflow), infraestructura (Terraform) y CI/CD viven en Git: versionados, revisables y reproducibles.

¿Cuándo usarla / cuándo no?

Úsalo siempre que escribas código o lleves un proyecto: scripts, pipelines, notebooks, configuración, documentación. No hay una alternativa razonable — es una habilidad base, no opcional.

Piénsalo dos veces —o usa la herramienta correcta— en estos casos:

  • Datasets grandes o binarios pesados (CSV de gigas, modelos .pkl, imágenes): Git se vuelve lento y pesado. Usa Git LFS para binarios, o DVC para versionar datos y modelos guardando solo una referencia en Git.
  • Secretos (claves, tokens, .env): nunca van a Git. Se gestionan aparte y se ignoran con .gitignore.

Empieza en 1 minuto

Crea un repositorio, guarda tu primer commit y mira la historia:

git init                       # inicializa el repo en la carpeta actual
echo "# Mi proyecto" > README.md
git add .                      # prepara los cambios
git commit -m "primer commit"  # guarda la foto en la historia
git log --oneline              # ve el historial

Para sincronizar con un remoto (GitHub/GitLab):

git remote add origin <url-del-repo>
git push -u origin main

Trivia rápida — pon a prueba lo que acabas de leer.

¿Qué tanto sabes de Git?

Documentación oficial

La fuente de verdad vive ahí. Acá orientamos; la profundidad la pones tú.

Abrir documentación oficial

Qué aprender después

Ver también

Nº15 · Actualizado 2026-06-25