Nº27 · Machine Learning

scikit-learn

La caja de herramientas de machine learning clásico en Python.

Librería / framework—Intro—Data Scientist—python

¿Qué es?

scikit-learn (también conocida como sklearn) es la biblioteca estándar de machine learning clásico en Python. Ofrece implementaciones consistentes de decenas de algoritmos —desde regresión lineal hasta Random Forests y SVM— bajo una API unificada: fit, predict, transform. Es el punto de entrada habitual al ML para quienes vienen del mundo de datos tabulares.

¿Para qué sirve?

Clasificación, regresión y clustering. Acceso directo a algoritmos como LogisticRegression, RandomForestClassifier, KMeans, GradientBoostingRegressor y muchos más, listos para usar sobre datos en formato tabular.
Pipelines y preprocesado. Encadena pasos de limpieza, escalado, encoding y modelado en un único objeto Pipeline, garantizando que el preprocesado se aplique de forma consistente entre entrenamiento y predicción.
Evaluación de modelos. Herramientas integradas de cross-validation, métricas (accuracy_score, roc_auc_score, mean_squared_error) y búsqueda de hiperparámetros (GridSearchCV, RandomizedSearchCV).

¿Cuándo usarla / cuándo no?

Úsala cuando trabajes con datos tabulares estructurados y necesites ML clásico: clasificación binaria o multiclase, regresión, clustering, reducción de dimensionalidad o detección de anomalías. Es la elección segura para conjuntos de datos que caben en memoria y para construir baselines rápidos antes de explorar opciones más complejas.

Piénsalo dos veces si tu problema requiere deep learning —redes neuronales profundas, procesamiento de imágenes o texto a gran escala— donde PyTorch o TensorFlow son más adecuados. Tampoco es la herramienta correcta para datos masivos distribuidos: ahí entra Spark MLlib o similares, ya que scikit-learn opera en memoria en un solo nodo.

Empieza en 1 minuto

pip install scikit-learn

from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Datos de ejemplo (150 muestras, 4 features, 3 clases)
X, y = load_iris(return_X_y=True)

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

preds = model.predict(X_test)
print(f"Accuracy: {accuracy_score(y_test, preds):.2f}")

Desde aquí, el siguiente paso natural es explorar Pipeline para encadenar un StandardScaler antes del modelo, y GridSearchCV para afinar hiperparámetros. La documentación oficial incluye ejemplos para cada algoritmo.

Trivia rápida — pon a prueba lo que acabas de leer.

¿Qué tanto sabes de scikit-learn?

Documentación oficial

La fuente de verdad vive ahí. Acá orientamos; la profundidad la pones tú.

Abrir documentación oficial ↗

Qué aprender después

Ver también

Nº22Análisis

pandas

La navaja suiza para manipular y analizar datos tabulares en Python.

Intropython

Nº20Análisis

NumPy

El cimiento numérico de Python: arrays rápidos y vectorizados.

Intropython

Nº27 · Actualizado 2026-06-08