Nº09 · Almacenamiento
Ceph
Almacenamiento distribuido a escala de producción: objetos, bloques y archivos.
¿Qué es?
Ceph es una plataforma de almacenamiento distribuido open-source, pensada para escala de producción. Sobre un mismo clúster ofrece tres interfaces: objeto (compatible con S3), bloque (discos para máquinas/contenedores) y sistema de archivos. Replica los datos entre nodos, se auto-recupera ante fallos de disco y escala hasta petabytes.
Es la opción cuando el almacenamiento mismo es el problema serio: una nube privada, infraestructura on-premise grande, almacenamiento persistente para Kubernetes. Esa potencia viene con un costo: operarlo es complejo y normalmente requiere un equipo dedicado.
¿Para qué sirve?
- Nube privada de almacenamiento. Una sola plataforma para objeto, bloque y archivos en tu propio datacenter.
- Lake on-premise a gran escala. Vía su RADOS Gateway expone la API S3, así que tu lake (Parquet, Iceberg) puede vivir sobre Ceph igual que sobre S3.
- Almacenamiento persistente para Kubernetes. Con Rook, Ceph provee volúmenes para cargas containerizadas.
¿Cuándo usarla / cuándo no?
Úsalo cuando el reto es de escala y operación: petabytes, tolerancia a fallos, multi-protocolo, infraestructura propia con gente que lo administre. Es la opción "seria" de almacenamiento on-premise.
Piénsalo dos veces —y casi siempre será así para quien empieza— cuando:
- Estás aprendiendo el concepto de object storage: MinIO te lo da en un minuto, compatible con S3, sin complejidad operativa.
- Tu escala es modesta o trabajas en local/un solo nodo: el overhead de Ceph no se justifica.
- Estás en la nube con S3/GCS/Azure gestionados: ya tienes almacenamiento a escala sin operarlo tú.
Empieza en 1 minuto
Seamos honestos: Ceph no se levanta en un minuto — es un sistema de clúster que se despliega y opera con cuidado. Dos caminos según tu objetivo:
- Para entender el concepto de almacenamiento de objetos (buckets, API S3), empieza con MinIO: un contenedor y listo.
- Para una prueba real de Ceph, el camino oficial es
cephadmsobre un host dedicado (no tu laptop de trabajo):
# En un host de pruebas dedicado (Linux), no en tu equipo principal:
curl -sLO https://download.ceph.com/rpm-18.2.0/el9/noarch/cephadm
sudo python3 cephadm bootstrap --mon-ip <IP-DEL-HOST>
# Levanta un clúster mínimo + el dashboard web; desde ahí agregas discos (OSDs).
La guía completa de despliegue y operación está en la documentación oficial.
Trivia rápida — pon a prueba lo que acabas de leer.
¿Qué tanto sabes de Ceph?
Documentación oficial
La fuente de verdad vive ahí. Acá orientamos; la profundidad la pones tú.
Abrir documentación oficial ↗Qué aprender después
Ver tambiénMinIO
Almacenamiento de objetos compatible con S3, para montar tu propio data lake.
Apache Parquet
El formato columnar que hace barata y rápida la analítica sobre archivos.
Apache Iceberg
Tablas con garantías de base de datos sobre tu data lake.
Nº09 · Actualizado 2026-06-25