Nº27 · Machine Learning
scikit-learn
La caja de herramientas de machine learning clásico en Python.
¿Qué es?
scikit-learn (también conocida como sklearn) es la biblioteca estándar de machine learning clásico en Python. Ofrece implementaciones consistentes de decenas de algoritmos —desde regresión lineal hasta Random Forests y SVM— bajo una API unificada: fit, predict, transform. Es el punto de entrada habitual al ML para quienes vienen del mundo de datos tabulares.
¿Para qué sirve?
- Clasificación, regresión y clustering. Acceso directo a algoritmos como
LogisticRegression,RandomForestClassifier,KMeans,GradientBoostingRegressory muchos más, listos para usar sobre datos en formato tabular. - Pipelines y preprocesado. Encadena pasos de limpieza, escalado, encoding y modelado en un único objeto
Pipeline, garantizando que el preprocesado se aplique de forma consistente entre entrenamiento y predicción. - Evaluación de modelos. Herramientas integradas de cross-validation, métricas (
accuracy_score,roc_auc_score,mean_squared_error) y búsqueda de hiperparámetros (GridSearchCV,RandomizedSearchCV).
¿Cuándo usarla / cuándo no?
Úsala cuando trabajes con datos tabulares estructurados y necesites ML clásico: clasificación binaria o multiclase, regresión, clustering, reducción de dimensionalidad o detección de anomalías. Es la elección segura para conjuntos de datos que caben en memoria y para construir baselines rápidos antes de explorar opciones más complejas.
Piénsalo dos veces si tu problema requiere deep learning —redes neuronales profundas, procesamiento de imágenes o texto a gran escala— donde PyTorch o TensorFlow son más adecuados. Tampoco es la herramienta correcta para datos masivos distribuidos: ahí entra Spark MLlib o similares, ya que scikit-learn opera en memoria en un solo nodo.
Empieza en 1 minuto
pip install scikit-learn
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
# Datos de ejemplo (150 muestras, 4 features, 3 clases)
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42
)
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)
preds = model.predict(X_test)
print(f"Accuracy: {accuracy_score(y_test, preds):.2f}")
Desde aquí, el siguiente paso natural es explorar Pipeline para encadenar un StandardScaler antes del modelo, y GridSearchCV para afinar hiperparámetros. La documentación oficial incluye ejemplos para cada algoritmo.
Trivia rápida — pon a prueba lo que acabas de leer.
¿Qué tanto sabes de scikit-learn?
Documentación oficial
La fuente de verdad vive ahí. Acá orientamos; la profundidad la pones tú.
Abrir documentación oficial ↗Qué aprender después
Ver tambiénNº27 · Actualizado 2026-06-08