Techniques d’évaluation des modèles de classification

En apprentissage automatique, nous utilisons souvent les modèles de classification pour obtenir un résultat prédit des données de la population. La classification qui est l’une des deux sections de l’apprentissage supervisé, traite des données de différentes catégories. L’ensemble de données de formation entraîne le modèle à prédire les étiquettes inconnues des données de population. Il existe de nombreux algorithmes, à savoir la régression logistique, le K-voisin le plus proche, l’arbre de décision, Naive Bayes, etc. Tous ces algorithmes ont leur propre style d’exécution et différentes techniques de prédiction. Tous ces algorithmes ont leur propre style d’exécution et différentes techniques de prédiction. Mais, en fin de compte, nous devons trouver l’efficacité d’un algorithme. Pour trouver l’algorithme le plus approprié pour un problème commercial particulier, il existe quelques techniques d’évaluation de modèles. Dans cet article, différentes techniques d’évaluation de modèle seront discutées.

Probablement, il a obtenu son nom de l’état de confusion qu’il traite. Si vous vous souvenez des tests d’hypothèses, vous vous rappelez peut-être des deux erreurs que nous avons définies comme type-I et type-II. As depicted in Fig.1, type-I error occurs when null hypothesis is rejected which should not be in actual. And type-II error occurs when although alternate hypothesis is true, you are failing to reject null hypothesis.

Fig.1: Type-I and Type-II errors

In figure 1 it is depicted clearly that the choice of confidence interval affects the probabilities of these errors to occur. But the fun is that if you try to reduce either if these errors, that will result the increase of the other one.

So, what is confusion matrix?

Fig.2: Confusion Matrix

Confusion matrix is the image given above. Il s’agit d’une représentation matricielle des résultats de tout test binaire. Par exemple, prenons le cas de la prédiction d’une maladie. Vous avez effectué des tests médicaux et, à l’aide des résultats de ces tests, vous allez prédire si la personne est atteinte d’une maladie. Donc, en fait, vous allez valider si l’hypothèse de déclarer qu’une personne a une maladie est acceptable ou non. Disons que, sur 100 personnes, vous prévoyez que 20 personnes seront atteintes de la maladie. En réalité, seulement 15 personnes ont la maladie et parmi ces 15 personnes, vous avez diagnostiqué 12 personnes correctement. Donc, si je mets le résultat dans une matrice de confusion, cela ressemblera à ce qui suit –

Fig.3Matrice de confusion de la prédiction d’une maladie

Si nous comparons la fig.3 avec la fig.2, nous trouverons –

  1. Vraiment positif : 12 (Vous avez prédit correctement le cas positif !)
  2. Vraiment négatif : 77 (Vous avez prédit correctement le cas négatif !)

  3. Faux positif : 8 (Oh ! Vous avez prédit que ces personnes avaient une maladie, mais en réalité elles n’en ont pas. Mais ne vous inquiétez pas, cela peut être rectifié dans une analyse médicale plus poussée. Il s’agit donc d’une erreur à faible risque. C’est une erreur de type II dans ce cas).
  4. Faux négatif : 3 (Oh ho ! Vous avez prédit que ces trois pauvres types étaient aptes. Mais en réalité, ils sont atteints de la maladie. C’est dangereux ! Faites attention ! C’est l’erreur de type I dans ce cas).

Maintenant si je demande quelle est la précision du modèle de prédiction que j’ai suivi pour obtenir ces résultats, la réponse devrait être le rapport entre le nombre prédit avec précision et le nombre total de personnes qui est de (12+77)/100 = 0,89. Si vous étudiez attentivement la matrice de confusion, vous trouverez les choses suivantes –

  1. La ligne supérieure représente le nombre total de prédictions que vous avez faites comme ayant la maladie. Parmi ces prédictions, vous avez prédit correctement 12 personnes comme ayant la maladie en réalité. Ainsi, le rapport, 12/(12+8) = 0,6 est la mesure de la précision de votre modèle pour détecter une personne comme ayant la maladie. C’est ce qu’on appelle la précision du modèle.
  2. Maintenant, prenez la première colonne. Cette colonne représente le nombre total de personnes qui ont la maladie en réel. Et vous avez prédit correctement pour 12 d’entre elles. Donc, le rapport, 12/(12+3) = 0,8 est la mesure de la précision de votre modèle pour détecter une personne ayant la maladie parmi toutes les personnes qui ont la maladie dans le réel. C’est ce qu’on appelle le rappel.

Maintenant, vous pouvez vous poser la question de savoir pourquoi nous avons besoin de mesurer la précision ou le rappel pour évaluer le modèle ?

La réponse est que c’est fortement recommandé lorsqu’un résultat particulier est très sensible. Par exemple, vous allez construire un modèle pour une banque afin de prédire les transactions frauduleuses. Il n’est pas très fréquent d’avoir une transaction frauduleuse. Sur 1000 transactions, il peut y avoir une transaction frauduleuse. Il est donc certain que votre modèle prédit très précisément une transaction non frauduleuse. Ainsi, dans ce cas, la précision globale n’a pas d’importance car elle sera toujours très élevée, quelle que soit la précision de la prédiction des transactions frauduleuses, car leur pourcentage est très faible dans l’ensemble de la population. Mais la prédiction d’une transaction frauduleuse comme non frauduleuse n’est pas souhaitable. Ainsi, dans ce cas, la mesure de la précision jouera un rôle essentiel pour évaluer le modèle. Elle aidera à comprendre combien de transactions frauduleuses réelles il prédit parmi toutes les transactions. Si elle est faible, même si la précision globale est élevée, le modèle n’est pas acceptable.

Courbe ROC (Receiver Operating Characteristics)

La mesure de l’aire sous la courbe ROC est également une méthode très utile pour évaluer un modèle. La courbe ROC est le rapport entre le taux de vrais positifs (TPR) et le taux de faux positifs (FPR) (voir fig.2). Dans notre exemple de détection de maladies, le TPR est la mesure du rapport entre le nombre de prédictions exactes de personnes malades et le nombre total de personnes malades en réalité. Le FPR est le rapport entre le nombre de personnes qui ont été correctement prédites comme n’ayant pas la maladie et le nombre total de personnes qui n’ont pas la maladie dans la réalité. Ainsi, si nous traçons la courbe, elle se présente comme suit –

Fig.4 : Courbe ROC (source : https://www.medcalc.org/manual/roc-curves.php)

La ligne bleue dénote la variation du TPR avec différents FPR pour un modèle. Plus le rapport entre la surface sous la courbe et la surface totale (100 x 100 dans ce cas) définit plus la précision du modèle. S’il devient 1, le modèle sera surajusté et s’il est égal à moins de 0,5 (c’est-à-dire lorsque la courbe est le long de la ligne diagonale en pointillés), le modèle sera trop imprécis pour être utilisé.

Pour les modèles de classification, il existe de nombreuses autres méthodes d’évaluation comme les graphiques Gain et Lift, le coefficient de Gini, etc. Mais la connaissance approfondie de la matrice de confusion peut aider à évaluer tout modèle de classification très efficacement. Ainsi, dans cet article, j’ai essayé de démystifier les confusions autour de la matrice de confusion pour aider les lecteurs.

Bonne modélisation !

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *