Las métricas nos ayudan a comprender qué funciona, qué no y por qué. Al igual que cualquier otra cosa, podemos medir el rendimiento del aprendizaje automático para medir la eficacia de nuestros modelos de aprendizaje automático.
Una parte importante de MLOps , las métricas de rendimiento de aprendizaje automático se utilizan para evaluar la precisión de los modelos de aprendizaje automático para ayudar a los científicos de datos y a los profesionales de aprendizaje automático a comprender qué tan bien funcionan sus modelos y si cumplen con los objetivos deseados.
Este artículo explica los tipos de métricas de rendimiento de aprendizaje automático y los conceptos clave de las métricas de rendimiento de aprendizaje automático, como la precisión, la curva ROC y la puntuación F1.
¿Por qué son importantes las métricas de rendimiento del aprendizaje automático?
Las métricas de rendimiento del aprendizaje automático ayudan con varios aspectos importantes del aprendizaje automático, entre ellos:
Selección del modelo
Las métricas de rendimiento ayudan a comparar diferentes modelos y seleccionar el mejor rendimiento para una tarea o conjunto de datos específicos. Por ejemplo, si un modelo necesita minimizar los falsos positivos, la precisión se convierte en una métrica crítica para la evaluación.
Ajuste del modelo
Las métricas guían el proceso de ajuste y optimización de hiperparámetros para mejorar el rendimiento del modelo. Al analizar cómo los cambios en los hiperparámetros afectan métricas como la precisión, la exactitud o la recuperación, los profesionales pueden ajustar los modelos para obtener mejores resultados.
Impacto comercial
Las métricas de rendimiento están directamente vinculadas a los objetivos comerciales que se supone que debe abordar el modelo de aprendizaje automático. Por ejemplo, en una aplicación de atención de la salud, un modelo con alta recuperación (para minimizar los falsos negativos) podría ser más efectivo que uno con alta precisión.
Desviación del modelo
Después de la implementación, el monitoreo de las métricas de rendimiento ayuda a detectar la degradación del modelo o la “desviación”. Esto es muy importante para mantener la confiabilidad y eficacia de los sistemas de aprendizaje automático en aplicaciones del mundo real.
Tipos de métricas de rendimiento del aprendizaje automático
Existen varios tipos de métricas de rendimiento de aprendizaje automático, cada una de las cuales proporciona un ángulo importante sobre el rendimiento de un modelo de aprendizaje automático.
Precisión
La precisión es la métrica más directa. Es la proporción de instancias predichas correctamente con respecto al total de instancias en el conjunto de datos. La precisión es útil para conjuntos de datos equilibrados cuando todas las clases son igualmente importantes.
Precisión
La precisión se centra en la fracción de instancias relevantes entre las instancias recuperadas. Es la capacidad del clasificador de no etiquetar una muestra que sea negativa como positiva. La precisión es crucial cuando el costo de los falsos positivos es alto, como en el diagnóstico médico o la detección de fraude.
Recuerdo (sensibilidad)
Recall mide la capacidad del clasificador para encontrar todos los casos relevantes dentro de un conjunto de datos. Es la capacidad del clasificador de encontrar todas las muestras positivas. Recordar es importante cuando los casos positivos faltantes (negativos falsos) son más críticos que tener falsos positivos. Por ejemplo, en la detección del cáncer, es fundamental detectar todos los casos reales, incluso si esto significa algunas falsas alarmas.
Puntaje F1
La puntuación F1 es la media armónica de precisión y recuperación, que proporciona una medida equilibrada que considera tanto falsos positivos como falsos negativos. Es especialmente útil cuando se trata de conjuntos de datos desequilibrados. Use la puntuación F1 cuando desee equilibrar la precisión y la memoria y haya una distribución de clase desigual o cuando los falsos positivos y los falsos negativos tengan ponderaciones similares.
Curva ROC y AUC
La curva de la característica operativa del receptor (ROC) traza la tasa positiva real (recordatorio) frente a la tasa positiva falsa para diferentes umbrales. El área bajo la curva de ROC (AUC) proporciona una medida agregada del rendimiento en todos los umbrales. Las curvas de ROC y el AUC son particularmente útiles en las tareas de clasificación binaria para comprender las compensaciones entre los verdaderos positivos y los falsos positivos en diferentes umbrales de decisión. El AUC es útil para el desequilibrio y la selección del umbral.
Especificidad
La especificidad mide la proporción de casos negativos reales que el clasificador identifica correctamente como negativos. Complementa el recuerdo (sensibilidad) al enfocarse en los verdaderos negativos. La especificidad es importante en situaciones en las que es crucial identificar correctamente los casos negativos, como en las pruebas de detección de enfermedades en las que las falsas alarmas pueden provocar tratamientos o costos innecesarios.
Error absoluto medio (MAE) y error cuadrado medio raíz (RMSE)
Estas métricas se utilizan comúnmente en las tareas de regresión para medir la magnitud promedio de los errores entre los valores previstos y los reales. MAE y RMSE son adecuados para problemas de regresión en los que la magnitud absoluta de los errores es importante, como predecir precios de vivienda o pronósticos de ventas.
Comprender estas métricas y elegir las adecuadas según el dominio del problema específico y los requisitos comerciales es fundamental para desarrollar modelos de aprendizaje automático efectivos y confiables. Cada métrica proporciona información única sobre diferentes aspectos del rendimiento del modelo, lo que permite a los profesionales tomar decisiones informadas durante el desarrollo, la evaluación y la implementación del modelo.
Analicemos en profundidad cada métrica.
Precisión
La precisión es una métrica de rendimiento utilizada para evaluar la corrección general de un modelo de aprendizaje automático. Mide la proporción de instancias predichas correctamente con respecto al número total de instancias en el conjunto de datos. En otras palabras, la precisión cuantifica con qué frecuencia el modelo hace predicciones correctas de todas las predicciones realizadas.
Matemáticamente, la precisión se calcula de la siguiente manera:
Exactitud = cantidad de predicciones correctas/cantidad total de predicciones ×100 %
Este es un ejemplo para ilustrar cómo funciona la precisión:
Digamos que tenemos un problema de clasificación binaria en el que queremos predecir si un correo electrónico es spam o no. Tenemos un conjunto de datos de 100 correos electrónicos, de los cuales 80 no son correo no deseado y 20 son correo no deseado. Después de entrenar nuestro modelo de aprendizaje automático, clasifica correctamente 70 de los 80 correos electrónicos no basura y 15 de los 20 correos no deseados.
Exactitud=70+15/100 ×100 %=85 %
Por lo tanto, en este caso, la precisión de nuestro modelo es del 85 %, lo que indica que clasificó correctamente 85 de cada 100 correos electrónicos.
La precisión es una métrica adecuada para evaluar el rendimiento del modelo en situaciones en las que todas las clases son igualmente importantes y no hay un desequilibrio de clase en el conjunto de datos.
Casos de uso
Los escenarios en los que la precisión es adecuada incluyen:
- Clasificación de correo electrónico no deseado: Determinar si un correo electrónico es spam o no
- Análisis de sentimientos: Clasificar las reseñas de clientes como positivas, negativas o neutrales
- Clasificación de imágenes: Identificar objetos en imágenes como gatos, perros o automóviles
- Diagnóstico de la enfermedad: Predecir si un paciente tiene una enfermedad determinada según los resultados de las pruebas médicas.
Limitaciones
La precisión tiene algunas limitaciones y consideraciones cuando se utiliza como una única métrica de rendimiento, entre ellas:
Desequilibrio de clase: La precisión puede ser engañosa cuando las clases están desequilibradas, lo que significa que una clase es mucho más frecuente que otras. Por ejemplo, en un conjunto de datos con un 95 % de ejemplos negativos y un 5 % de ejemplos positivos, un modelo que siempre predice negativo lograría un 95 % de precisión, pero no sería útil para identificar casos positivos.
Costos desiguales: En algunas aplicaciones, la clasificación incorrecta de una clase puede tener consecuencias más graves que la clasificación incorrecta de otra. Por ejemplo, en el diagnóstico médico, un falso negativo (falta de una enfermedad) puede ser más crítico que un falso positivo (diagnosticar incorrectamente una enfermedad). La precisión no diferencia entre estos tipos de errores.
No considera la confianza de predicción: La precisión trata todas las predicciones por igual, independientemente de la confianza que tenga el modelo en sus predicciones. Un modelo que tenga mucha confianza en las predicciones correctas, pero menos confianza en las predicciones incorrectas, puede tener una alta precisión incluso si no se desempeña bien en general.
No captura el rendimiento del modelo en diferentes grupos: La precisión no revela qué tan bien funciona un modelo en subgrupos o clases específicos dentro del conjunto de datos. Trata todas las clases por igual, lo que puede no reflejar la importancia del mundo real de las diferentes clases.
Para abordar estas limitaciones, es importante considerar métricas de rendimiento adicionales, como precisión, recuperación, puntuación F1, área bajo la curva de características operativas del receptor (AUC-ROC) y análisis de matriz de confusión basado en las características específicas del dominio del problema y los requisitos comerciales. Estas métricas proporcionan información más matizada sobre el rendimiento de los modelos de aprendizaje automático más allá de lo que la precisión sola puede ofrecer.
Precisión y recuerdo
La precisión y la recuperación son dos métricas de rendimiento importantes que se utilizan para evaluar la eficacia de los modelos de aprendizaje automático, especialmente en las tareas de clasificación binaria.
La precisión mide la precisión de las predicciones positivas realizadas por el modelo. Es la proporción de predicciones positivas reales con respecto a la cantidad total de predicciones positivas realizadas por el modelo.
Precisión = verdaderos positivos/verdaderos positivos+falsos positivos
La precisión es importante porque nos indica cuántas de las instancias previstas como positivas por el modelo son realmente positivas. Una alta precisión indica que el modelo tiene menos falsos positivos, lo que significa que es bueno para evitar falsas alarmas.
Recall=Verdaderos positivos/Verdaderos positivos+Falsos negativos
Recordar es importante porque nos indica cuántas de las instancias positivas reales puede capturar el modelo. Un alto recuerdo indica que el modelo puede identificar de manera efectiva la mayoría de las instancias positivas, minimizando los falsos negativos.
Compensación entre precisión y recuerdo
Por lo general, existe una compensación entre la precisión y la recuperación. El aumento de la precisión a menudo lleva a una disminución en la recuperación, y viceversa. Esta compensación surge porque ajustar el umbral de decisión de un modelo afecta la cantidad de verdaderos positivos y falsos positivos/negativos.
Alta precisión, baja recuperación: El modelo es cauteloso y conservador en el etiquetado de instancias como positivas. Es cuidadoso evitar los falsos positivos, pero es posible que se pierdan algunos positivos reales, lo que lleva a una baja recuperación.
Recuerdo alto, precisión baja: El modelo es más liberal en el etiquetado de instancias como positivas, capturando la mayoría de los positivos reales, pero también generando más falsos positivos, lo que resulta en una baja precisión.
Casos de uso
La precisión y la recuperación son métricas especialmente útiles en:
Diagnóstico médico: En el diagnóstico médico, la memoria (sensibilidad) suele ser más crítica que la precisión. Es fundamental identificar correctamente todos los casos positivos (p. ej., pacientes con una enfermedad), incluso si esto significa algunos falsos positivos (p. ej., pacientes sanos marcados como que tienen la enfermedad). Omitir un caso positivo puede tener consecuencias graves.
Detección de fraude: En la detección de fraude, la precisión suele ser más importante porque las falsas alarmas (falsos positivos) pueden incomodar a los usuarios. Es mejor tener alta precisión para minimizar las falsas alarmas y, al mismo tiempo, garantizar que se detecten casos de fraude reales (lo que afecta el retiro del mercado).
Recuperación de información: En los motores de búsqueda o sistemas de recomendación, a menudo se prioriza la recuperación para evitar que falten resultados o recomendaciones relevantes, incluso si esto significa incluir algunos elementos irrelevantes (menor precisión).
Puntaje F1
El puntaje F1 es una métrica de rendimiento que combina precisión y recuperación en un solo valor, lo que proporciona una evaluación equilibrada de la capacidad de un modelo de aprendizaje automático para clasificar correctamente las instancias. Es especialmente útil en situaciones en las que tanto la precisión como la recuperación son igualmente importantes y existe la necesidad de lograr un equilibrio entre ellas.
La puntuación F1 se calcula usando la media armónica de precisión, de la siguiente manera:
Puntuación F1 = 2 × precisión x recuerdo/precisión + recuerdo
El puntaje F1 varía de 0 a 1, siendo 1 el mejor puntaje posible. Alcanza su valor máximo cuando tanto la precisión como la recuperación están en sus niveles más altos, lo que indica un modelo bien equilibrado que minimiza tanto los falsos positivos como los falsos negativos.
Ventajas del puntaje F1
Las ventajas de usar el puntaje F1 incluyen:
Evaluación equilibrada: El puntaje F1 considera tanto la precisión como la memoria, lo que proporciona una evaluación equilibrada del rendimiento de un modelo. Esto es especialmente beneficioso en situaciones en las que tanto los falsos positivos como los falsos negativos son igualmente importantes, como en el diagnóstico médico o la detección de anomalías.
Métrica única: En lugar de evaluar la precisión y la recuperación por separado, la puntuación F1 los combina en un solo valor, lo que facilita la comparación de diferentes modelos o parámetros de ajuste.
Sensible al desequilibrio: El puntaje F1 es sensible al desequilibrio de clase porque tiene en cuenta tanto falsos positivos como falsos negativos. Penaliza los modelos que favorecen en gran medida una clase sobre la otra.
Interpretación del puntaje F1
La interpretación de los resultados del puntaje F1 implica comprender la compensación entre la precisión y la recuperación.
Estos son algunos escenarios e interpretaciones:
Puntaje alto de F1: Un puntaje alto de F1 indica que el modelo ha logrado un buen equilibrio entre precisión y recuerdo. Significa que el modelo es eficaz para minimizar los falsos positivos (alta precisión) y capturar la mayoría de las instancias positivas (alta memoria).
Puntaje bajo de F1: Una puntuación F1 baja sugiere un desequilibrio entre la precisión y la memoria. Esto podría suceder si el modelo se inclina hacia una clase, lo que lleva a muchos falsos positivos (baja precisión) o a muchos falsos negativos (baja recuperación).
Comparación de modelos: Al comparar diferentes modelos o ajustar hiperparámetros, elegir el modelo con la puntuación F1 más alta es beneficioso, especialmente en situaciones en las que la precisión y la recuperación son igualmente importantes.
Ejemplos
Consideremos un modelo de clasificación de correo electrónico no deseado.
Supongamos que el modelo A tiene una precisión de 0,85 y una recuperación de 0,80, lo que da como resultado un puntaje F1 de 0,85.
Por otro lado, el modelo B tiene una precisión de 0,75 y un recuerdo de 0,90, lo que da como resultado un puntaje F1 de 0,818.
Aunque el modelo B tiene un mayor recuerdo, su menor precisión conduce a un puntaje F1 ligeramente menor en comparación con el modelo A. Esto sugiere que el modelo A puede estar más equilibrado en términos de precisión y recuerdo, dependiendo de los requisitos específicos de la aplicación.
Curva ROC y AUC
Como se describió anteriormente, la curva de ROC y el AUC se utilizan en problemas de clasificación binaria para evaluar el rendimiento predictivo de los modelos de aprendizaje automático, especialmente en situaciones en las que la distribución de clase está desequilibrada.
Curva ROC
La curva ROC es una representación gráfica de la compensación entre la tasa de verdaderos positivos (TPR), también conocida como recuerdo o sensibilidad, y la tasa de falsos positivos (FPR) de un modelo de clasificación en diferentes umbrales. El TPR mide la proporción de instancias positivas reales identificadas correctamente como positivas por el modelo, mientras que el FPR mide la proporción de instancias negativas reales clasificadas incorrectamente como positivas.
La curva de ROC se crea trazando el TPR (eje y) contra el FPR (eje x) en varios ajustes de umbral. Cada punto de la curva representa un umbral diferente, y la curva muestra cómo cambia el rendimiento del modelo a medida que cambia el umbral para la clasificación.
Visualización de compensación
La curva de ROC visualiza la compensación entre sensibilidad (retirada) y especificidad (1 - FPR), ya que el umbral de decisión del modelo varía. Un modelo con alta sensibilidad (TPR) tiende a tener un FPR más alto, y viceversa. La curva muestra el rendimiento del modelo en todos los valores de umbral posibles, lo que permite a los analistas elegir el umbral que mejor se adapte a sus necesidades específicas en función de la compensación que están dispuestos a aceptar entre verdaderos positivos y falsos positivos.
AUC
El AUC es un valor escalar que cuantifica el rendimiento general de un modelo de clasificación basado en su curva ROC. Específicamente, mide el área bajo la curva ROC, que representa la capacidad del modelo para distinguir entre clases positivas y negativas en todos los posibles ajustes de umbral.
El AUC ayuda a evaluar el rendimiento general de un modelo de aprendizaje automático a través de:
Comparación de rendimiento: Un valor de AUC más alto indica una mejor capacidad de discriminación del modelo, lo que significa que puede distinguir eficazmente entre instancias positivas y negativas en una variedad de umbrales. Permite una comparación fácil entre diferentes modelos, con valores de AUC más altos que indican un mejor rendimiento general.
Solidez del desequilibrio de clase: El AUC se ve menos afectado por el desequilibrio de clase en comparación con métricas como exactitud, precisión y recuperación. Considera el rendimiento del modelo en todos los umbrales posibles, lo que lo hace adecuado para conjuntos de datos desequilibrados donde la distribución de clase está sesgada.
Evaluación independiente del umbral: El AUC evalúa el rendimiento del modelo sin especificar un umbral particular para la clasificación, lo que proporciona una evaluación más integral de la capacidad discriminatoria del modelo, independientemente del punto de operación elegido.
Conclusiones
Las métricas de rendimiento del aprendizaje automático ayudan a evaluar y comparar diferentes modelos de aprendizaje automático al proporcionar medidas cuantitativas de la precisión, el recuerdo, el puntaje F1 y la curva ROC de un modelo, entre otros. Comprender estas métricas es extremadamente importante para los científicos de datos y los profesionales del aprendizaje automático a medida que navegan por las diversas tareas y desafíos del desarrollo, la optimización y la implementación de modelos.
En resumen, las métricas de rendimiento de aprendizaje automático proporcionan resultados más profundos sobre las fortalezas y debilidades de un modelo, lo que permite tomar decisiones informadas sobre la selección del modelo, el ajuste de hiperparámetros y el monitoreo del rendimiento del modelo a lo largo del tiempo. Ya sea que se trate de tareas de clasificación en las que la precisión y la recuperación son primordiales, problemas de regresión en los que MAE y RMSE importan, o escenarios de clasificación binaria que se benefician de las curvas de ROC y AUC, el uso adecuado de las métricas de rendimiento mejora la solidez y confiabilidad de las soluciones de aprendizaje automático, lo que en última instancia conduce a mejores resultados y un impacto comercial positivo.
Dicho esto, aprovechar al máximo sus modelos de aprendizaje automático significa preparar su almacenamiento de datos para el futuro con una Infraestructura lista para la AI. Descubra cómo Pure Storage lo ayuda a acelerar la capacitación y la inferencia de modelos, maximizar la eficiencia operativa y ahorrar costos.