Saltar al contenido

Machine Learning: Entendiendo la matriz de confusión

En machine learning, una matriz de confusión es una herramienta importante que ayuda a evaluar el rendimiento de un modelo de clasificación. Se utiliza para medir el rendimiento de un modelo comparando los valores reales y los predichos. En este artículo, hablaremos sobre qué es una matriz de confusión, cómo funciona y su importancia en machine learning.

¿Qué es una matriz de confusión?

Una matriz de confusión es una tabla que se utiliza para evaluar el rendimiento de un modelo de clasificación. Contiene los valores reales y los predichos de un modelo. Una matriz de confusión se divide en cuatro partes: Verdadero Positivo (TP), Falso Positivo (FP), Verdadero Negativo (TN) y Falso Negativo (FN).

  • Verdadero Positivo (TP): El número de casos en los que la clase real es positiva y el modelo predice correctamente positivo.
  • Falso Positivo (FP): El número de casos en los que la clase real es negativa pero el modelo predice incorrectamente positivo.
  • Verdadero Negativo (TN): El número de casos en los que la clase real es negativa y el modelo predice correctamente negativo.
  • Falso Negativo (FN): El número de casos en los que la clase real es positiva pero el modelo predice incorrectamente negativo.

Una matriz de confusión puede ayudar a identificar las fortalezas y debilidades de un modelo. Al analizar la matriz de confusión, podemos determinar la precisión de un modelo, identificar en qué clases el modelo es bueno prediciendo y en cuáles necesita mejorar.

¿Cómo funciona la matriz de confusión?

Para entender cómo funciona una matriz de confusión, consideremos un ejemplo de un problema de clasificación binaria. En este problema, tenemos dos clases: Positiva y Negativa. Supongamos que tenemos un modelo entrenado para predecir si una persona tiene cáncer o no. La matriz de confusión de este modelo se verá así:

Predicted PositivePredicted Negative
Actual PositiveTrue Positive (TP)False Negative (FN)
Actual NegativeFalse Positive (FP)True Negative (TN)

Los valores en la matriz de confusión representan conteos de resultados específicos de predicción:

  • True Positive (TP): Conteo de instancias en las que la etiqueta real es positiva y la predicción es positiva.
  • False Positive (FP): Conteo de instancias en las que la etiqueta real es negativa pero la predicción es positiva.
  • True Negative (TN): Conteo de instancias en las que la etiqueta real es negativa y la predicción es negativa.
  • False Negative (FN): Conteo de instancias en las que la etiqueta real es positiva pero la predicción es negativa.

Usando estos valores, podemos calcular varias métricas de evaluación:

  • Accuracy: (TP + TN) / (TP + TN + FP + FN)
  • Precision: TP / (TP + FP)
  • Recall: TP / (TP + FN)
  • F1-Score: 2 × (Precision × Recall) / (Precision + Recall)

Ejemplo numérico concreto Supongamos que un modelo evalúa a 100 pacientes para una enfermedad:

  • Positivos reales: 60 | Negativos reales: 40
  • Positivos predichos: 55 | Negativos predichos: 45
  • TP = 50, FP = 5, FN = 10, TN = 35

Cálculos paso a paso:

  • Accuracy = (50 + 35) / 100 = 0.85
  • Precision = 50 / (50 + 5) ≈ 0.91
  • Recall = 50 / (50 + 10) ≈ 0.83
  • F1-Score = 2 × (0.91 × 0.83) / (0.91 + 0.83) ≈ 0.87

Implementación en Python

python
from sklearn.metrics import confusion_matrix, classification_report

y_true = [1, 1, 0, 0, 1, 0, 1, 0, 1, 0]
y_pred = [1, 0, 0, 1, 1, 0, 1, 0, 1, 1]

cm = confusion_matrix(y_true, y_pred)
print("Confusion Matrix:\n", cm)
print("\nMetrics:\n", classification_report(y_true, y_pred, target_names=['Negative', 'Positive']))

Importancia de la matriz de confusión en machine learning

Una matriz de confusión va más allá de una sola puntuación de accuracy al revelar los tipos específicos de errores que comete un modelo. Esto es especialmente crítico en conjuntos de datos desbalanceados, donde la accuracy puede ser engañosa. Por ejemplo, en el diagnóstico médico o la detección de fraude, un Falso Negativo (no detectar un caso positivo) suele ser mucho más costoso que un Falso Positivo. Al examinar la matriz, los científicos de datos pueden elegir la métrica adecuada (por ejemplo, priorizar el recall sobre la precision) y ajustar el modelo en consecuencia.

Conclusión

La matriz de confusión sirve como base para la evaluación de modelos en tareas de clasificación. Transforma las predicciones brutas en información accionable, permitiendo a los profesionales calcular precision, recall y F1-score. Comprender estos componentes garantiza que la selección del modelo se alinee con los requisitos del mundo real en lugar de depender de una sola puntuación agregada.

¿Te resulta útil?

Vista previa dual-run — compárala con las rutas Symfony en producción.