Skip to Content

¿Qué son las métricas de rendimiento del aprendizaje automático?

Las métricas nos ayudan a entender qué funciona, qué no y por qué. Al igual que cualquier otra cosa, podemos medir el rendimiento del aprendizaje automático para medir la efectividad de nuestros modelos de aprendizaje automático. 

Una parte importante de MLOps , las métricas de rendimiento del aprendizaje automático se utilizan para evaluar la precisión de los modelos de aprendizaje automático para ayudar a los científicos de datos y a los profesionales del aprendizaje automático a entender el rendimiento de sus modelos y si cumplen los objetivos deseados. 

Este artículo explica los tipos de métricas de rendimiento del aprendizaje automático y los conceptos clave de métricas de rendimiento del aprendizaje automático, como la precisión, la curva ROC y la puntuación F1. 

¿Por qué son importantes las métricas de rendimiento del aprendizaje automático?

Las métricas de rendimiento del aprendizaje automático ayudan con varios aspectos importantes del aprendizaje automático, incluidos:

Selección de modelos

Las métricas de rendimiento ayudan a comparar diferentes modelos y a seleccionar el que mejor funciona para una tarea o conjunto de datos específicos. Por ejemplo, si un modelo necesita minimizar los falsos positivos, la precisión se convierte en una métrica crítica para la evaluación.

Ajuste del modelo

Las métricas guían el proceso de ajuste y optimización de los hiperparámetros para mejorar el rendimiento del modelo. Al analizar el modo en que los cambios en los hiperparámetros afectan a métricas como la precisión, la precisión o la recuperación, los profesionales pueden ajustar los modelos para obtener mejores resultados.

Impacto empresarial

Las métricas de rendimiento están directamente relacionadas con los objetivos empresariales que el modelo de aprendizaje automático debe abordar. Por ejemplo, en una aplicación sanitaria, un modelo con un alto recuerdo (para minimizar los falsos negativos) puede ser más efectivo que uno con una gran precisión.

Desviación del modelo

Después de la implementación, la supervisión de las métricas de rendimiento ayuda a detectar la degradación o la «derivación» del modelo. Esto es muy importante para mantener la fiabilidad y la eficacia de los sistemas de aprendizaje automático en las aplicaciones del mundo real.

Tipos de métricas de rendimiento del aprendizaje automático

Hay varios tipos de métricas de rendimiento del aprendizaje automático, cada una de las cuales proporciona un punto de vista importante sobre el rendimiento de un modelo de aprendizaje automático. 

Precisión

La precisión es la métrica más sencilla. Es la proporción de instancias predichas correctamente con respecto al total de instancias del conjunto de datos. La precisión es útil para conjuntos de datos equilibrados cuando todas las clases son igual de importantes.

Precisión

La precisión se centra en la fracción de instancias relevantes entre las instancias recuperadas. Es la capacidad del clasificador para no etiquetar una muestra que es negativa como positiva. La precisión es crucial cuando el coste de los falsos positivos es alto, como en el diagnóstico médico o la detección del fraude.

Recuerdo (sensibilidad)

Recall mide la capacidad del clasificador para encontrar todos los casos relevantes dentro de un conjunto de datos. Es la capacidad del clasificador para encontrar todas las muestras positivas. El recuerdo es importante cuando faltan casos positivos (falsos negativos) es más crítico que tener falsos positivos. Por ejemplo, en la detección del cáncer, es crucial detectar todos los casos reales, aunque esto signifique algunas falsas alarmas.

Puntuación F1

La puntuación F1 es la media armónica de la precisión y la recuperación, que proporciona una medida equilibrada que tiene en cuenta tanto los falsos positivos como los falsos negativos. Es especialmente útil cuando se trata de conjuntos de datos desequilibrados. Utilice la puntuación F1 cuando quiera equilibrar la precisión y la memoria y haya una distribución de clase desigual o cuando los falsos positivos y los falsos negativos tengan pesos similares.

Curva ROC y AUC

La curva de la característica operativa del receptor (ROC) traza la tasa de verdaderos positivos (recuperación) frente a la tasa de falsos positivos para diferentes umbrales. El área bajo la curva ROC (AUC) proporciona una medida agregada del rendimiento en todos los umbrales. Las curvas ROC y el AUC son especialmente útiles en las tareas de clasificación binaria para entender las contrapartidas entre los verdaderos positivos y los falsos positivos con diferentes umbrales de decisión. El AUC es útil para el desequilibrio y la selección de umbrales.

Especificidad

La especificidad mide la proporción de casos negativos reales que el clasificador identifica correctamente como negativos. Complementa el recuerdo (sensibilidad) centrándose en los verdaderos negativos. La especificidad es importante en situaciones en las que es crucial identificar correctamente los casos negativos, como en las pruebas de detección de enfermedades, en las que las falsas alarmas pueden generar tratamientos o costes innecesarios.

Error absoluto medio (MAE) y error cuadrado medio de raíz (RMSE)

Estos indicadores se utilizan habitualmente en las tareas de regresión para medir la magnitud media de los errores entre los valores previstos y los reales. Los MAE y el RMSE son adecuados para problemas de regresión en los que la magnitud absoluta de los errores es importante, como la predicción de los precios de la vivienda o las previsiones de ventas.

Entender estas métricas y elegir las adecuadas basándose en el dominio del problema específico y los requisitos empresariales es crucial para desarrollar modelos de aprendizaje automático efectivos y fiables. Cada métrica proporciona información única sobre los diferentes aspectos del rendimiento del modelo, lo que permite que los profesionales tomen decisiones fundamentadas durante el desarrollo, la evaluación y el despliegue del modelo.

Veamos más a fondo cada métrica.  

Precisión 

La precisión es una métrica de rendimiento que se utiliza para evaluar la corrección general de un modelo de aprendizaje automático. Mide la relación de instancias predichas correctamente con el número total de instancias del conjunto de datos. En otras palabras, la precisión cuantifica con qué frecuencia el modelo realiza predicciones correctas a partir de todas las predicciones realizadas.

Matemáticamente, la precisión se calcula de la siguiente manera:

Exactitud = Número de predicciones correctas/Número total de predicciones ×100%

Aquí tiene un ejemplo para ilustrar cómo funciona la precisión:

Supongamos que tenemos un problema de clasificación binaria en el que queremos predecir si un correo electrónico es spam o no spam. Tenemos un conjunto de datos de 100 correos electrónicos, de los cuales 80 no son spam y 20 son spam. Después de entrenar nuestro modelo de aprendizaje automático, clasifica correctamente 70 de los 80 correos electrónicos no basura y 15 de los 20 correos electrónicos no deseados.

Precisión=70+15/100 ×100%=85%

Así que, en este caso, la precisión de nuestro modelo es del 85%, lo que indica que clasifica correctamente 85 de cada 100 correos electrónicos.

La precisión es una métrica adecuada para evaluar el rendimiento del modelo en situaciones en las que todas las clases son igual de importantes y no hay desequilibrio de clase en el conjunto de datos. 

Casos de uso

Los escenarios en los que la precisión es adecuada incluyen:

  • Clasificación del correo electrónico no deseado: Determinar si un correo electrónico es spam o no
  • Análisis de la confianza: Clasificar las opiniones de los clientes como positivas, negativas o neutrales
  • Clasificación de imágenes: Identificar objetos en imágenes como gatos, perros o coches.
  • Diagnóstico de la enfermedad: Predecir si un paciente tiene una determinada enfermedad basándose en los resultados de las pruebas médicas.

Limitaciones

La precisión tiene algunas limitaciones y consideraciones cuando se utiliza como una única métrica de rendimiento, que incluyen:

Desequilibrio de clase: La precisión puede ser engañosa cuando las clases están desequilibradas, lo que significa que una clase es mucho más frecuente que otras. Por ejemplo, en un conjunto de datos con un 95% de ejemplos negativos y un 5% de ejemplos positivos, un modelo que siempre prediga lo negativo lograría una precisión del 95%, pero no sería útil para identificar casos positivos.

Costes desiguales: En algunas aplicaciones, la clasificación errónea de una clase puede tener consecuencias más graves que la clasificación errónea de otra. Por ejemplo, en el diagnóstico médico, un falso negativo (falta una enfermedad) puede ser más crítico que un falso positivo (diagnóstico incorrecto de una enfermedad). La precisión no diferencia entre estos tipos de errores.

No tiene en cuenta la confianza predictiva: La precisión trata todas las predicciones por igual, independientemente de lo seguro que esté el modelo en sus predicciones. Un modelo que confía mucho en las predicciones correctas, pero que confía menos en las predicciones incorrectas, puede seguir teniendo una gran precisión, aunque no tenga un buen rendimiento en general.

No captura el rendimiento del modelo en diferentes grupos: La precisión no revela el rendimiento de un modelo en subgrupos o clases específicos dentro del conjunto de datos. Trata todas las clases por igual, lo que puede no reflejar la importancia real de las diferentes clases.

Para abordar estas limitaciones, es importante tener en cuenta métricas de rendimiento adicionales, como la precisión, la recuperación, la puntuación F1, el área bajo la curva de la característica operativa del receptor (AUC-ROC) y el análisis de la matriz de confusión, basándose en las características específicas del dominio problemático y los requisitos de la empresa. Estas métricas proporcionan información más matizada sobre el rendimiento de los modelos de aprendizaje automático más allá de lo que la precisión por sí sola puede ofrecer.

Precisión y recuperación

La precisión y la recuperación son dos métricas de rendimiento importantes que se utilizan para evaluar la efectividad de los modelos de aprendizaje automático, sobre todo en las tareas de clasificación binaria.

La precisión mide la precisión de las predicciones positivas realizadas por el modelo. Es la relación entre las predicciones realmente positivas y el número total de predicciones positivas realizadas por el modelo.

Precisión=Positivos verdaderos/Positivos verdaderos+Falsos positivos

La precisión es importante porque nos dice cuántas de las instancias previstas como positivas por el modelo son realmente positivas. Una gran precisión indica que el modelo tiene menos falsos positivos, lo que significa que es bueno para evitar falsas alarmas.

Recall=Verdadero positivo/Verdadero positivo+Falso negativo

Recall es importante porque nos dice cuántas de las instancias positivas reales puede capturar el modelo. Un recuerdo alto indica que el modelo puede identificar de manera efectiva la mayoría de los casos positivos, minimizando los falsos negativos.

Compensación entre la precisión y Recall

Normalmente hay una compensación entre la precisión y la recuperación. El aumento de la precisión suele provocar una disminución de la retirada y viceversa. Esta compensación surge porque el ajuste del umbral de decisión de un modelo afecta al número de verdaderos positivos y falsos positivos/negativos.

Alta precisión, bajo recuerdo: El modelo es prudente y conservador a la hora de etiquetar los casos como positivos. Es cuidadoso evitar los falsos positivos, pero puede pasar por alto algunos positivos reales, lo que provoca un bajo recuerdo.

Alta recuperación y baja precisión: El modelo es más liberal para etiquetar instancias como positivas, capturando la mayoría de los positivos reales, pero generando más falsos positivos, lo que da como resultado una baja precisión.

Casos de uso

La precisión y la recuperación son métricas especialmente útiles para:

Diagnóstico médico: En el diagnóstico médico, la recuperación (sensibilidad) suele ser más crítica que la precisión. Es crucial identificar correctamente todos los casos positivos (por ejemplo, los pacientes con una enfermedad), aunque esto signifique algunos falsos positivos (por ejemplo, los pacientes sanos que tienen la enfermedad). Si se pierde un caso positivo, pueden producirse consecuencias graves.

Detección de fraudes: En la detección del fraude, la precisión suele ser más importante, porque las falsas alarmas (falsos positivos) pueden causar molestias a los usuarios. Es mejor tener una gran precisión para minimizar las falsas alarmas y garantizar que se detectan casos de fraude reales (lo que afecta a la retirada).

Recuperación de la información: En los motores de búsqueda o los sistemas de recomendación, la retirada suele priorizarse para evitar que se pierdan los resultados o las recomendaciones relevantes, aunque signifique incluir algunos elementos irrelevantes (menor precisión).

Puntuación F1

La puntuación F1 es una métrica de rendimiento que combina la precisión y la recuperación en un único valor, proporcionando una evaluación equilibrada de la capacidad de un modelo de aprendizaje automático para clasificar correctamente las instancias. Es especialmente útil en situaciones en las que tanto la precisión como el recuerdo son igual de importantes y hay que encontrar un equilibrio entre ellos.

La puntuación F1 se calcula usando la media armónica de precisión, de la siguiente manera:

Puntuación F1=2 × Precisión x Recuerdo/Precisión+Recuerdo

La puntuación de F1 va de 0 a 1, siendo 1 la mejor puntuación posible. Alcanza su valor máximo cuando tanto la precisión como la recuperación están en sus niveles más altos, lo que indica un modelo bien equilibrado que minimiza tanto los falsos positivos como los falsos negativos.

Ventajas de la puntuación F1  

Las ventajas de usar la puntuación de F1 incluyen:

Evaluación equilibrada: El resultado de la F1 tiene en cuenta tanto la precisión como el recuerdo, proporcionando una evaluación equilibrada del rendimiento de un modelo. Esto es especialmente beneficioso en situaciones en las que tanto los falsos positivos como los falsos negativos son igualmente importantes, como en el diagnóstico médico o la detección de anomalías.

Una métrica: En lugar de evaluar por separado la precisión y la recuperación, la puntuación F1 los combina en un único valor, lo que facilita la comparación de diferentes modelos o parámetros de ajuste.

Sensible al desequilibrio: La puntuación de F1 es sensible al desequilibrio de clase porque tiene en cuenta tanto los falsos positivos como los falsos negativos. Sanciona a los modelos que favorecen en gran medida a una clase sobre la otra.

Interpretación de la puntuación F1

La interpretación de los resultados de la puntuación de F1 implica entender el equilibrio entre la precisión y el recuerdo. 

Estos son algunos escenarios e interpretaciones:

Puntuación alta en F1: Una puntuación alta en F1 indica que el modelo ha logrado un buen equilibrio entre precisión y recuerdo. Esto significa que el modelo es efectivo para minimizar los falsos positivos (alta precisión) y capturar la mayoría de los casos positivos (alta memoria).

Puntuación baja en F1: Una puntuación baja en F1 sugiere un desequilibrio entre la precisión y la recuperación. Esto puede ocurrir si el modelo se inclina hacia una clase, lo que provoca muchos falsos positivos (baja precisión) o muchos falsos negativos (baja memoria).

Comparación de modelos: Cuando se comparan diferentes modelos o se ajustan los hiperparámetros, es beneficioso elegir el modelo con la puntuación más alta de F1, sobre todo en situaciones en las que la precisión y la recuperación son igual de importantes.

Ejemplos 

Veamos un modelo de clasificación del correo electrónico no deseado. 

Supongamos que el Modelo A tiene una precisión de 0,85 y un recuerdo de 0,80, lo que da como resultado una puntuación de F1 de 0,85.

Por otro lado, el Modelo B tiene una precisión de 0,75 y un recuerdo de 0,90, lo que da como resultado una puntuación de F1 de 0,818.

Aunque el Modelo B tiene un mayor recuerdo, su menor precisión conduce a una puntuación de F1 ligeramente más baja en comparación con el Modelo A. Esto sugiere que el Modelo A puede estar más equilibrado en términos de precisión y recuerdo, en función de los requisitos específicos de la aplicación.

Curva ROC y AUC

Como se ha descrito anteriormente, la curva ROC y el AUC se utilizan en los problemas de clasificación binaria para evaluar el rendimiento predictivo de los modelos de aprendizaje automático, especialmente en escenarios en los que la distribución de clase está desequilibrada.

Curva ROC

La curva ROC es una representación gráfica de la compensación entre la tasa de verdaderos positivos (TPR), también conocida como recuerdo o sensibilidad, y la tasa de falsos positivos (FPR) de un modelo de clasificación en diferentes umbrales. El TPR mide la proporción de instancias positivas reales identificadas correctamente como positivas por el modelo, mientras que el FPR mide la proporción de instancias negativas reales clasificadas incorrectamente como positivas.

La curva ROC se crea trazando el TPR (eje Y) frente al FPR (eje X) en varios ajustes de umbral. Cada punto de la curva representa un umbral diferente y la curva muestra cómo cambia el rendimiento del modelo a medida que cambia el umbral de clasificación.

Visualización de compensación

La curva ROC visualiza la compensación entre la sensibilidad (recuperación) y la especificidad (1 - FPR), ya que el umbral de decisión del modelo varía. Un modelo con alta sensibilidad (TPR) tiende a tener un FPR más alto y viceversa. La curva muestra el rendimiento del modelo en todos los valores de umbral posibles, lo que permite que los analistas elijan el umbral que mejor se adapte a sus necesidades específicas basándose en el equilibrio que están dispuestos a aceptar entre los verdaderos positivos y los falsos positivos.

AUC 

El AUC es un valor escalar que cuantifica el rendimiento global de un modelo de clasificación basado en su curva ROC. Específicamente, mide el área bajo la curva ROC, que representa la capacidad del modelo para distinguir entre las clases positivas y negativas en todos los ajustes de umbral posibles.

El AUC ayuda a evaluar el rendimiento global de un modelo de aprendizaje automático mediante:

Comparación del rendimiento: Un valor de AUC más alto indica una mejor capacidad de discriminación del modelo, lo que significa que puede distinguir de manera efectiva entre instancias positivas y negativas en una variedad de umbrales. Permite comparar fácilmente los diferentes modelos, con unos valores de AUC más altos que indican un mejor rendimiento global.

Robustez para el desequilibrio de clase: El AUC se ve menos afectado por el desequilibrio de clase en comparación con métricas como la precisión, la precisión y la recuperación. Tiene en cuenta el rendimiento del modelo en todos los umbrales posibles, lo que lo hace adecuado para conjuntos de datos desequilibrados en los que la distribución de clase está sesgada.

Evaluación independiente del umbral: El AUC evalúa el rendimiento del modelo sin especificar un umbral concreto para la clasificación, proporcionando una evaluación más completa de la capacidad discriminatoria del modelo, independientemente del punto operativo elegido.

Conclusión

Las métricas de rendimiento del aprendizaje automático ayudan a evaluar y comparar diferentes modelos de aprendizaje automático al proporcionar medidas cuantitativas de la precisión, la precisión, la recuperación, la puntuación F1 y la curva ROC de un modelo, entre otras. Entender estas métricas es extremadamente importante para los científicos de datos y los profesionales del aprendizaje automático, ya que se enfrentan a las diversas tareas y retos del desarrollo, la optimización y el despliegue de modelos.

En resumen, las métricas de rendimiento del aprendizaje automático proporcionan una visión más profunda de los puntos fuertes y débiles de un modelo, lo que permite tomar decisiones fundamentadas sobre la selección del modelo, el ajuste de los hiperparámetros y la supervisión del rendimiento del modelo con el tiempo. Tanto si se trata de tareas de clasificación en las que la precisión y la recuperación son primordiales, de problemas de regresión en los que el MAE y el RMSE son importantes o de escenarios de clasificación binaria que se benefician de las curvas ROC y el AUC, el uso adecuado de las métricas de rendimiento mejora la solidez y la fiabilidad de las soluciones de aprendizaje automático, lo que en última instancia conduce a unos mejores resultados y a un impacto empresarial positivo.

Dicho esto, aprovechar al máximo sus modelos de aprendizaje automático significa preparar su almacenamiento de datos para el futuro con una infraestructura preparada para la IA. Descubra cómo Pure Storage le ayuda a acelerar la formación y la inferencia de modelos, maximizar la eficiencia operativa y ahorrar costes.

05/2025
Optimize Your AI Data Infrastructure
The Pure Storage platform simplifies and accelerates adoption of AI with the necessary capabilities for early-stage deployments through the evolution to a mature AI production environment.
Infografía
1 página

Explore los recursos y eventos clave

WEBINAR
Una nueva era para la seguridad bancaria: lo esencial para mejorar la resistencia operativa

A la luz de la nueva normativa de la Ley de Resiliencia Operativa Digital (DORA), la resiliencia operativa se ha convertido en una de las cuestiones más importantes del sector financiero.

Ver el Webinar
LIDERAZGO INTELECTUAL
La carrera por la innovación

Las últimas ideas y puntos de vista de los líderes del sector que están a la vanguardia de la innovación en almacenamiento.

Más información
INFORME DE ANALISTA
Planifique su futuro ciberresiliente

Aprenda estrategias de colaboración para aprovechar plenamente las inversiones en ciberseguridad y garantizar una respuesta y una recuperación rápidas.

Lea el informe
RECURSO
Deje de comprar almacenamiento y apueste por las plataformas

Explore las necesidades, los componentes y el proceso de selección de plataformas de almacenamiento empresarial.

Lea el informe
CONTACTAR CON NOSOTROS
Contactar con PureIcono de información
Icono del chat
¿Preguntas, comentarios?

¿Tiene alguna pregunta o comentario sobre los productos o las certificaciones de Pure?  Estamos aquí para ayudarle.

Icono de la llave
Programe una Demostración

Programe una demostración en vivo y vea personalmente cómo Pure puede ayudarle a convertir sus datos en unos resultados potentes. 

Llámenos al: +34 51 889 8963

Medios de comunicaciónpr@purestorage.com

 

Castellana 81

28046 Madrid

Oficinas Pure: 1415 y 1417 (planta 14)

info@purestorage.com

CERRAR
CerrarCerrar icono X
Your Browser Is No Longer Supported!

Older browsers often represent security risks. In order to deliver the best possible experience when using our site, please update to any of these latest browsers.