Beoordelingstechnieken voor Classificatiemodellen

In machine learning gebruiken we vaak de classificatiemodellen om een voorspeld resultaat van bevolkingsgegevens te krijgen. Classificatie, een van de twee onderdelen van supervised learning, gaat om met gegevens uit verschillende categorieën. De trainingsdataset traint het model om de onbekende labels van populatiegegevens te voorspellen. Er zijn verschillende algoritmen, namelijk: logistische regressie, K-nearest neighbour, beslisboom, Naive Bayes enz. Al deze algoritmen hebben hun eigen stijl van uitvoering en verschillende technieken om voorspellingen te doen. Maar uiteindelijk gaat het erom de doeltreffendheid van een algoritme te bepalen. Om het meest geschikte algoritme voor een bepaald zakelijk probleem te vinden, zijn er enkele technieken voor modelevaluatie. In dit artikel zullen verschillende technieken voor de evaluatie van modellen worden besproken.

Waarschijnlijk dankt het zijn naam aan de staat van verwarring waarmee het zich bezighoudt. Als u zich de hypothese-tests herinnert, herinnert u zich wellicht de twee fouten die we hebben gedefinieerd als type-I en type-II. As depicted in Fig.1, type-I error occurs when null hypothesis is rejected which should not be in actual. And type-II error occurs when although alternate hypothesis is true, you are failing to reject null hypothesis.

Fig.1: Type-I and Type-II errors

In figure 1 it is depicted clearly that the choice of confidence interval affects the probabilities of these errors to occur. But the fun is that if you try to reduce either if these errors, that will result the increase of the other one.

So, what is confusion matrix?

Fig.2: Confusion Matrix

Confusion matrix is the image given above. Het is een matrixweergave van de resultaten van een binaire test. Laten we bijvoorbeeld het geval nemen van het voorspellen van een ziekte. U hebt een aantal medische tests uitgevoerd en met behulp van de resultaten van die tests gaat u voorspellen of de persoon een ziekte heeft. In feite gaat u dus valideren of de hypothese dat een persoon een ziekte heeft, aanvaardbaar is of niet. Stel, van 100 mensen voorspelt u dat 20 mensen de ziekte hebben. In werkelijkheid hebben slechts 15 mensen de ziekte en van die 15 mensen heeft u 12 mensen juist gediagnosticeerd. Als ik het resultaat in een verwarringsmatrix zet, ziet die er als volgt uit –

Fig.3: Verwarringsmatrix van de voorspelling van een ziekte

Als we fig.3 dus vergelijken met fig. 2 vinden we –

  1. Waar positief: 12 (U hebt het positieve geval correct voorspeld!)
  2. Waar negatief: 77 (U hebt het negatieve geval correct voorspeld!)
  3. Vals positief: 8 (Oh! U hebt voorspeld dat deze mensen een ziekte hebben, maar in werkelijkheid hebben ze die niet. Maar maak je geen zorgen, kan dit worden gecorrigeerd in verdere medische analyse. Dus, dit is een laag risico fout. Dit is in dit geval een type-II-fout).
  4. Valse Negatief: 3 (Oh ho! Je hebt voorspeld deze drie arme kerels als fit. Maar in werkelijkheid hebben ze de ziekte. Dit is gevaarlijk! Wees voorzichtig! Dit is in dit geval een type-I-fout).

Als ik nu vraag wat de nauwkeurigheid is van het voorspellingsmodel dat ik heb gevolgd om deze resultaten te krijgen, dan moet het antwoord de verhouding zijn tussen het nauwkeurig voorspelde aantal en het totale aantal mensen, dat is (12+77)/100 = 0,89. Als u de verwarringsmatrix grondig bestudeert, zult u het volgende vinden –

  1. De bovenste rij geeft het totale aantal voorspellingen weer dat u hebt gedaan over het hebben van de ziekte. Van deze voorspellingen hebt u 12 mensen correct voorspeld dat ze de ziekte daadwerkelijk hadden. De verhouding, 12/(12+8) = 0,6 is dus de maatstaf voor de nauwkeurigheid van uw model bij het opsporen van een persoon met de ziekte. Dit wordt de precisie van het model genoemd.
  2. Nu, neem de eerste kolom. Deze kolom geeft het totale aantal mensen weer dat de ziekte in werkelijkheid heeft. En u hebt 12 van hen juist voorspeld. Dus, de verhouding, 12/(12+3) = 0,8 is de maat voor de nauwkeurigheid van uw model om een persoon met ziekte te detecteren van alle mensen die de ziekte in werkelijkheid hebben. Dit wordt Recall genoemd.

Nu zult u zich misschien afvragen waarom we precisie of recall moeten meten om het model te evalueren?

Het antwoord is dat het zeer aan te bevelen is wanneer een bepaald resultaat zeer gevoelig is. U gaat bijvoorbeeld een model bouwen voor een bank om frauduleuze transacties te voorspellen. Het komt niet vaak voor dat een transactie frauduleus is. In 1000 transacties, kan er 1 transactie zijn die fraude is. Ongetwijfeld zal uw model dus zeer nauwkeurig een transactie als niet-frauduleus voorspellen. In dit geval doet de nauwkeurigheid er dus niet toe, omdat die altijd zeer hoog zal zijn, ongeacht de nauwkeurigheid van de voorspelling van frauduleuze transacties, aangezien het percentage daarvan in de gehele populatie zeer laag is. Maar het voorspellen van een frauduleuze transactie als niet-frauduleus is niet wenselijk. In dit geval speelt de meting van de precisie dus een essentiële rol bij de evaluatie van het model. Het zal helpen te begrijpen hoeveel van alle werkelijke frauduleuze transacties het model voorspelt. Als de precisie laag is, is het model onaanvaardbaar, ook al is de algemene nauwkeurigheid hoog.

Recurve van de Operationele Kenmerken (ROC)

Het meten van het gebied onder de ROC-curve is ook een zeer nuttige methode om een model te evalueren. ROC is de verhouding tussen True Positive Rate (TPR) en False Positive Rate (FPR) (zie fig. 2). In ons voorbeeld van ziektedetectie is TPR de verhouding tussen het aantal accurate voorspellingen van mensen met een ziekte en het totale aantal mensen met een ziekte in werkelijkheid. FPR is de verhouding tussen het aantal mensen dat correct voorspeld heeft geen ziekte te hebben en het totale aantal mensen dat de ziekte in werkelijkheid niet heeft. Als we de curve uitzetten, ziet deze er dus als volgt uit –

Fig.4: ROC-curve (bron: https://www.medcalc.org/manual/roc-curves.php)

De blauwe lijn geeft de verandering aan van de TPR bij verschillende FPR voor een model. De verhouding tussen het gebied onder de curve en het totale gebied (100 x 100 in dit geval) bepaalt de nauwkeurigheid van het model. Als het 1 wordt, is het model overfit en als het kleiner is dan 0,5 (d.w.z. als de curve langs de gestippelde diagonale lijn loopt), is het model te onnauwkeurig om te gebruiken.

Voor classificatiemodellen zijn er veel andere evaluatiemethoden, zoals Gain and Lift-diagrammen, Gini-coëfficiënt enz. Maar een grondige kennis van de verwarringsmatrix kan helpen om elk classificatiemodel zeer effectief te evalueren. Daarom heb ik in dit artikel geprobeerd de verwarring rond de verwarringsmatrix te ontrafelen om de lezers te helpen.

Happy modelling!

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *