Les indicateurs nous aident à comprendre ce qui fonctionne, ce qui ne fonctionne pas et pourquoi. Comme toute autre chose, nous pouvons mesurer les performances de l’apprentissage machine pour évaluer l’efficacité de nos modèles d’apprentissage machine.
Les indicateurs de performance de l’apprentissage machine sont utilisés pour évaluer la précision des modèles d’apprentissage machine afin d’aider les spécialistes des données et les praticiens de l’apprentissage machine à comprendre les performances de leurs modèles et s’ils atteignent les objectifs souhaités.
Cet article explique les différents types d’indicateurs de performance de l’apprentissage machine et les principaux concepts d’indicateurs de performance de l’apprentissage machine, tels que la précision, la courbe ROC et le score de F1.
Pourquoi les indicateurs de performance de l’apprentissage machine sont-ils importants ?
Les indicateurs de performance de l’apprentissage machine contribuent à divers aspects importants de l’apprentissage machine, notamment :
Sélection du modèle
Les indicateurs de performance permettent de comparer différents modèles et de choisir celui qui fonctionne le mieux pour une tâche ou un ensemble de données spécifique. Par exemple, si un modèle doit minimiser les faux positifs, la précision devient un indicateur essentiel pour l’évaluation.
Réglage du modèle
Les indicateurs guident le processus de réglage et d’optimisation des hyperparamètres pour améliorer les performances du modèle. En analysant l’impact des changements dans les hyperparamètres sur des indicateurs tels que l’exactitude, la précision ou le rappel, les praticiens peuvent affiner les modèles pour de meilleurs résultats.
Impact commercial
Les indicateurs de performance sont directement liés aux objectifs commerciaux que le modèle d’apprentissage machine est censé atteindre. Par exemple, dans une application de soins de santé, un modèle avec un rappel élevé (pour minimiser les faux négatifs) peut être plus efficace qu’un modèle avec une haute précision.
Dérive du modèle
Après le déploiement, la surveillance des indicateurs de performance permet de détecter la dégradation du modèle ou la « dérive ». Cela est très important pour maintenir la fiabilité et l’efficacité des systèmes d’apprentissage machine dans des applications réelles.
Types d’indicateurs de performance de l’apprentissage machine
Il existe différents types d’indicateurs de performance de l’apprentissage machine, chacun fournissant un angle important sur les performances d’un modèle d’apprentissage machine.
Précision
La précision est la mesure la plus simple. Il s’agit du rapport entre les instances correctement prédites et le nombre total d’instances dans l’ensemble de données. La précision est utile pour les ensembles de données équilibrés lorsque toutes les classes sont tout aussi importantes.
Précision
La précision se concentre sur la fraction d’instances pertinentes parmi les instances récupérées. Il s’agit de la capacité du classificateur à ne pas étiqueter un échantillon négatif comme positif. La précision est cruciale lorsque le coût des faux positifs est élevé, par exemple dans le diagnostic médical ou la détection de fraudes.
Rappel (Sensibilité)
Recall mesure la capacité du classificateur à trouver tous les cas pertinents dans un ensemble de données. C’est la capacité du classificateur à trouver tous les échantillons positifs. Il est important de se rappeler lorsque le fait de manquer des instances positives (faux négatifs) est plus important que d’avoir des faux positifs. Par exemple, dans la détection du cancer, il est essentiel de détecter tous les cas réels, même s’il s’agit de fausses alarmes.
Score F1
Le score de F1 est la moyenne harmonique de la précision et du rappel, offrant une mesure équilibrée qui tient compte des faux positifs et des faux négatifs. Elle est particulièrement utile pour gérer des ensembles de données déséquilibrés. Utilisez le score de F1 lorsque vous souhaitez équilibrer précision et rappel et qu’il y a une répartition inégale des classes ou lorsque les faux positifs et les faux négatifs ont des poids similaires.
Courbe et ASC du ROC
La courbe des caractéristiques de fonctionnement du récepteur (ROC) compare le taux de vrais positifs (rappel) au taux de faux positifs pour différents seuils. L’aire sous la courbe ROC (AUC) fournit une mesure agrégée des performances sur tous les seuils. Les courbes ROC et l’ASC sont particulièrement utiles dans les tâches de classification binaire pour comprendre les compromis entre les vrais positifs et les faux positifs à différents seuils de décision. L’ASC est utile pour le déséquilibre et la sélection des seuils.
Spécificité
La spécificité mesure la proportion de cas négatifs réels correctement identifiés comme négatifs par le classificateur. Elle complète le rappel (sensibilité) en se concentrant sur les vrais négatifs. La spécificité est importante dans les scénarios où il est essentiel d’identifier correctement les cas négatifs, par exemple dans les tests de dépistage des maladies où de fausses alarmes peuvent entraîner des traitements ou des coûts inutiles.
Erreur absolue moyenne (MAE) et erreur au carré moyenne racine (RMSE)
Ces mesures sont couramment utilisées dans les tâches de régression pour mesurer l’ampleur moyenne des erreurs entre les valeurs prévues et réelles. MAE et RMSE conviennent aux problèmes de régression où l’ampleur absolue des erreurs est importante, comme la prévision des prix du logement ou les prévisions de vente.
Pour développer des modèles d’apprentissage machine efficaces et fiables, il est essentiel de comprendre ces indicateurs et de choisir ceux qui conviennent en fonction du domaine problématique et des exigences métier spécifiques. Chaque indicateur fournit des informations uniques sur différents aspects de la performance du modèle, ce qui permet aux praticiens de prendre des décisions éclairées pendant le développement, l’évaluation et le déploiement du modèle.
Intéressons-nous plus en détail à chaque indicateur.
Précision
La précision est une mesure de performance utilisée pour évaluer l’exactitude globale d’un modèle d’apprentissage machine. Il mesure le rapport entre les instances correctement prédites et le nombre total d’instances dans l’ensemble de données. En d’autres termes, la précision quantifie la fréquence à laquelle le modèle effectue des prédictions correctes sur toutes les prédictions faites.
Mathématiquement, la précision est calculée comme suit :
Précision = Nombre de prédictions correctes/Nombre total de prédictions × 100 %
Voici un exemple illustrant le fonctionnement de la précision :
Imaginons que nous rencontrons un problème de classification binaire où nous voulons prédire si un e-mail est un spam ou non. Nous avons un ensemble de données de 100 e-mails, dont 80 ne sont pas des spams et 20 sont des spams. Après avoir entraîné notre modèle de machine learning, il classe correctement 70 des 80 e-mails non indésirables et 15 des 20 e-mails indésirables.
Précision = 70+15/100 × 100 % = 85 %
Ainsi, dans ce cas, l’exactitude de notre modèle est de 85 %, ce qui indique qu’il a correctement classé 85 e-mails sur 100.
La précision est une mesure appropriée pour évaluer les performances du modèle dans des scénarios où toutes les classes sont tout aussi importantes et où il n’y a pas de déséquilibre de classe dans l’ensemble de données.
Cas d’utilisation
Les scénarios où la précision est adaptée sont les suivants :
- Classification des spams par e-mail : Déterminer si un e-mail est un spam ou non
- Analyse des sentiments : Classer les avis des clients comme positifs, négatifs ou neutres
- Classification des images : Identification d’objets dans des images comme des chats, des chiens ou des voitures
- Diagnostic de la maladie : Prévoir si un patient est atteint d’une certaine maladie en fonction des résultats des tests médicaux
Limites
La précision comporte quelques limites et considérations lorsqu’elle est utilisée comme seule mesure de performance, notamment :
Déséquilibre de classe : La précision peut être trompeuse lorsque les classes sont déséquilibrées, ce qui signifie qu’une classe est beaucoup plus fréquente que d’autres. Par exemple, dans un ensemble de données avec 95 % d’exemples négatifs et 5 % d’exemples positifs, un modèle qui prédit toujours un résultat négatif permettrait d’atteindre une précision de 95 %, mais il ne serait pas utile pour identifier les cas positifs.
Coûts inégaux : Dans certaines applications, une mauvaise classification d’une classe peut avoir des conséquences plus graves qu’une mauvaise classification d’une autre. Par exemple, dans le diagnostic médical, un faux négatif (manquant une maladie) peut être plus critique qu’un faux positif (diagnostic incorrect d’une maladie). La précision ne fait pas la différence entre ces types d’erreurs.
Ne tient pas compte de la confiance en matière de prédiction : La précision traite toutes les prédictions de manière égale, indépendamment de la confiance du modèle dans ses prédictions. Un modèle qui est très confiant dans les prédictions correctes, mais moins confiant dans les prédictions incorrectes, peut toujours avoir une grande précision, même s’il ne fonctionne pas bien globalement.
Ne saisit pas les performances du modèle dans différents groupes : La précision ne révèle pas les performances d’un modèle sur des sous-groupes ou des classes spécifiques au sein de l’ensemble de données. Il traite toutes les classes de manière égale, ce qui peut ne pas refléter l’importance réelle des différentes classes.
Pour répondre à ces limites, il est important de prendre en compte d’autres indicateurs de performance tels que la précision, le rappel, le score F1, l’aire sous la courbe des caractéristiques d’exploitation du récepteur (AUC-ROC) et l’analyse de la matrice de confusion en fonction des caractéristiques spécifiques du domaine problématique et des exigences métier. Ces indicateurs fournissent des informations plus nuancées sur les performances des modèles d’apprentissage machine, au-delà de ce que la précision seule peut offrir.
Précision et rappel
La précision et le rappel sont deux indicateurs de performance importants utilisés pour évaluer l’efficacité des modèles d’apprentissage machine, en particulier dans les tâches de classification binaire.
La précision mesure la précision des prédictions positives faites par le modèle. Il s’agit du rapport entre les prédictions positives réelles et le nombre total de prédictions positives faites par le modèle.
Précision=Vrai positifs / Vrais positifs + Faux positifs
La précision est importante, car elle nous indique combien d’instances considérées comme positives par le modèle sont réellement positives. Une haute précision indique que le modèle a moins de faux positifs, ce qui signifie qu’il est efficace pour éviter les fausses alarmes.
Rappel=Vrai positifs/Vrai positifs+Faux négatifs
Le rappel est important, car il nous indique le nombre d’instances positives réelles que le modèle est capable de capturer. Un rappel élevé indique que le modèle peut identifier efficacement la plupart des instances positives, ce qui limite les faux négatifs.
Un compromis entre précision et rappel
Il existe généralement un compromis entre précision et rappel. L’augmentation de la précision entraîne souvent une diminution du rappel, et inversement. Ce compromis est dû au fait que l’ajustement du seuil de décision d’un modèle affecte le nombre de vrais positifs et de faux positifs/négatifs.
Haute précision, faible rappel : Le modèle est prudent et prudent dans l’étiquetage des instances comme positives. Il est prudent d’éviter les faux positifs, mais il peut manquer certains vrais positifs, ce qui entraîne un faible rappel.
Rappel élevé, faible précision : Le modèle est plus libéral dans l’étiquetage des instances comme positives, capturant la plupart des vrais positifs, mais générant également davantage de faux positifs, ce qui entraîne une faible précision.
Cas d’utilisation
La précision et le rappel sont des indicateurs particulièrement utiles dans les domaines suivants :
Diagnostic médical : Dans le diagnostic médical, le rappel (sensibilité) est souvent plus essentiel que la précision. Il est essentiel d’identifier correctement tous les cas positifs (par exemple, les patients atteints d’une maladie), même s’il s’agit de faux positifs (par exemple, les patients en bonne santé signalés comme atteints de la maladie). Le fait de manquer un cas positif peut avoir de graves conséquences.
Détection des fraudes : Dans la détection des fraudes, la précision est généralement plus importante, car les fausses alarmes (faux positifs) peuvent incommoder les utilisateurs. Il est préférable d’avoir une haute précision pour minimiser les fausses alarmes tout en s’assurant que les cas de fraude réels sont détectés (ce qui a un impact sur le rappel).
Récupération d’informations : Dans les moteurs de recherche ou les systèmes de recommandation, le rappel est souvent priorisé pour éviter de manquer des résultats ou des recommandations pertinents, même si cela implique d’inclure certains éléments non pertinents (moins de précision).
Score F1
Le score de F1 est une mesure de performance qui combine précision et rappel en une seule valeur, fournissant une évaluation équilibrée de la capacité d’un modèle d’apprentissage machine à classifier correctement les instances. Elle est particulièrement utile dans les scénarios où la précision et le rappel sont tout aussi importants et où il est nécessaire de trouver un équilibre entre eux.
Le score de F1 est calculé à l’aide de la moyenne harmonique de précision, comme suit :
Score F1 = 2 x Précision x Rappel/Précision + Rappel
Le score de F1 varie de 0 à 1, 1 étant le meilleur score possible. Il atteint sa valeur maximale lorsque la précision et le rappel atteignent leurs plus hauts niveaux, ce qui indique un modèle bien équilibré qui minimise à la fois les faux positifs et les faux négatifs.
Avantages du score F1
Voici quelques-uns des avantages du score de F1 :
Évaluation équilibrée : Le score de F1 tient compte à la fois de la précision et du rappel, fournissant une évaluation équilibrée des performances d’un modèle. Cela est particulièrement avantageux dans les scénarios où les faux positifs et les faux négatifs sont tout aussi importants, comme dans le diagnostic médical ou la détection d’anomalies.
Mesure unique : Au lieu d’évaluer séparément la précision et le rappel, le score de F1 les combine en une seule valeur, ce qui facilite la comparaison de différents modèles ou paramètres de réglage.
Sensible au déséquilibre : Le score de F1 est sensible au déséquilibre de classe, car il tient compte à la fois des faux positifs et des faux négatifs. Elle pénalise les modèles qui privilégient fortement une classe plutôt que l’autre.
Interprétation du score F1
L’interprétation des résultats du score de F1 implique de comprendre le compromis entre précision et rappel.
Voici quelques scénarios et interprétations :
Score de F1 élevé : Un score de F1 élevé indique que le modèle a atteint un bon équilibre entre précision et rappel. Cela signifie que le modèle est efficace pour minimiser les faux positifs (haute précision) et capturer la plupart des instances positives (haut rappel).
Faible score de F1 : Un score de F1 bas suggère un déséquilibre entre précision et rappel. Cela peut se produire si le modèle est biaisé vers une classe, ce qui entraîne de nombreux faux positifs (faible précision) ou de nombreux faux négatifs (faible rappel).
Comparaison des modèles : Lorsque l’on compare différents modèles ou que l’on règle des hyperparamètres, il est avantageux de choisir le modèle qui affiche le score de F1 le plus élevé, en particulier dans les scénarios où la précision et le rappel sont tout aussi importants.
Exemples
Prenons un modèle de classification des e-mails indésirables.
Supposons que le modèle A ait une précision de 0,85 et un rappel de 0,80, ce qui donne un score de F1 de 0,85
En revanche, le modèle B a une précision de 0,75 et un rappel de 0,90, ce qui donne un score de F1 de 0,818.
Bien que le modèle B ait un rappel plus élevé, sa précision inférieure conduit à un score de F1 légèrement inférieur à celui du modèle A. Cela suggère que le modèle A peut être plus équilibré en termes de précision et de rappel, en fonction des exigences spécifiques de l’application.
Courbe et ASC du ROC
Comme décrit précédemment, la courbe ROC et l’ASC sont utilisées dans les problèmes de classification binaire pour évaluer les performances prédictives des modèles d’apprentissage machine, en particulier dans les scénarios où la répartition des classes est déséquilibrée.
Courbe ROC
La courbe ROC est une représentation graphique du compromis entre le taux de vrais positifs (TPR), également appelé rappel ou sensibilité, et le taux de faux positifs (FPR) d’un modèle de classification sur différents seuils. Le TPR mesure la proportion d’instances positives réelles correctement identifiées comme positives par le modèle, tandis que le FPR mesure la proportion d’instances négatives réelles mal classées comme positives.
La courbe ROC est créée en traçant le TPR (axe des y) par rapport au FPR (axe des x) à différents paramètres de seuil. Chaque point de la courbe représente un seuil différent, et la courbe montre comment les performances du modèle changent en tant que seuil de classification.
Visualisation du compromis
La courbe ROC permet de visualiser le compromis entre la sensibilité (rappel) et la spécificité (1 - FPR) lorsque le seuil de décision du modèle varie. Un modèle à haute sensibilité (TPR) a tendance à avoir un FPR plus élevé, et inversement. La courbe montre les performances du modèle sur toutes les valeurs de seuil possibles, ce qui permet aux analystes de choisir le seuil qui correspond le mieux à leurs besoins spécifiques en fonction du compromis qu’ils sont prêts à accepter entre les vrais positifs et les faux positifs.
ASC
L’ASC est une valeur scalaire qui quantifie les performances globales d’un modèle de classification en fonction de sa courbe ROC. Plus précisément, il mesure l’aire sous la courbe ROC, ce qui représente la capacité du modèle à distinguer les classes positives et négatives de tous les paramètres de seuil possibles.
L’ASC permet d’évaluer les performances globales d’un modèle d’apprentissage machine en :
Comparaison des performances : Une valeur d’ASC plus élevée indique une meilleure capacité de discrimination du modèle, ce qui signifie qu’il peut distinguer efficacement les instances positives et négatives sur une plage de seuils. Il permet de comparer facilement différents modèles, avec des valeurs d’ASC plus élevées indiquant de meilleures performances globales.
Solidité par rapport au déséquilibre de classe : L’ASC est moins affectée par le déséquilibre de classe que par des indicateurs tels que l’exactitude, la précision et le rappel. Il tient compte des performances du modèle sur tous les seuils possibles, ce qui le rend adapté aux ensembles de données déséquilibrés où la répartition des classes est biaisée.
Évaluation indépendante du seuil : L’ASC évalue les performances du modèle sans spécifier de seuil de classification particulier, ce qui permet d’évaluer plus précisément la capacité discriminative du modèle, quel que soit le point d’exploitation choisi.
Conclusion
Les indicateurs de performance de l’apprentissage machine permettent d’évaluer et de comparer différents modèles d’apprentissage machine en fournissant des mesures quantitatives de l’exactitude, de la précision, du rappel, du score de F1 et de la courbe ROC d’un modèle, entre autres. La compréhension de ces indicateurs est extrêmement importante pour les scientifiques des données et les spécialistes de l’apprentissage machine lorsqu’ils s’attaquent aux différentes tâches et défis liés au développement, à l’optimisation et au déploiement de modèles.
En résumé, les indicateurs de performance de l’apprentissage machine fournissent des informations plus approfondies sur les points forts et les faiblesses d’un modèle, ce qui permet de prendre des décisions éclairées sur la sélection du modèle, le réglage des hyperparamètres et la surveillance des performances du modèle au fil du temps. Qu’il s’agisse de tâches de classification pour lesquelles la précision et le rappel sont essentiels, de problèmes de régression pour lesquelles le MAE et le RMSE sont importants, ou de scénarios de classification binaires bénéficiant des courbes ROC et de l’ASC, l’utilisation appropriée des indicateurs de performance améliore la robustesse et la fiabilité des solutions d’apprentissage machine, ce qui aboutit à de meilleurs résultats et à un impact commercial positif.
Cela dit, tirer pleinement parti de vos modèles d’apprentissage machine signifie pérenniser votre stockage de données grâce AIRI – AI-Ready Infrastructure. Découvrez comment Pure Storage vous aide à accélérer l’entraînement et l’inférence des modèles, à optimiser l’efficacité opérationnelle et à réaliser des économies.