Modellutvärderingstekniker för klassificeringsmodeller

I maskininlärning använder vi ofta klassificeringsmodeller för att få fram ett förutsagt resultat av befolkningsdata. Klassificering, som är en av de två delarna av övervakad inlärning, behandlar data från olika kategorier. Träningsdatasetet tränar modellen för att förutsäga de okända etiketterna för befolkningsdata. Det finns flera algoritmer, nämligen logistisk regression, K-närmaste granne, beslutsträd, Naive Bayes osv. Alla dessa algoritmer har sin egen stil för genomförande och olika tekniker för förutsägelser. Men i slutändan måste vi ta reda på hur effektiv en algoritm är. För att hitta den lämpligaste algoritmen för ett visst affärsproblem finns det några modellutvärderingstekniker. I den här artikeln kommer olika tekniker för modellutvärdering att diskuteras.

Sannolikt har den fått sitt namn från det tillstånd av förvirring som den behandlar. Om du minns hypotesprövning kommer du kanske ihåg de två fel som vi definierade som typ-I och typ-II. As depicted in Fig.1, type-I error occurs when null hypothesis is rejected which should not be in actual. And type-II error occurs when although alternate hypothesis is true, you are failing to reject null hypothesis.

In figure 1 it is depicted clearly that the choice of confidence interval affects the probabilities of these errors to occur. But the fun is that if you try to reduce either if these errors, that will result the increase of the other one.

So, what is confusion matrix?

Confusion matrix is the image given above. Det är en matrisrepresentation av resultaten av en binär testning. Låt oss till exempel ta fallet med att förutsäga en sjukdom. Du har gjort några medicinska tester och med hjälp av resultaten av dessa tester ska du förutsäga om personen har en sjukdom. Du ska alltså validera om hypotesen att en person har en sjukdom är godtagbar eller inte. Säg att du bland 100 personer förutspår att 20 personer kommer att ha en sjukdom. I verkligheten är det bara 15 personer som har sjukdomen och bland dessa 15 personer har du diagnostiserat 12 personer korrekt. Om jag lägger in resultatet i en förvirringsmatris kommer det att se ut på följande sätt –

Modellutvärderingstekniker för klassificeringsmodeller

Receiver Operating Characteristics (ROC) Curve

Lämna ett svar Avbryt svar