Modellértékelési technikák osztályozási modellekhez

A gépi tanulásban gyakran használjuk az osztályozási modelleket, hogy a populációs adatokból előrejelzett eredményt kapjunk. Az osztályozás, amely a felügyelt tanulás két részének egyike, különböző kategóriákból származó adatokkal foglalkozik. A képzési adatkészlet képzi a modellt a populációs adatok ismeretlen címkéinek előrejelzésére. Több algoritmus létezik, nevezetesen a logisztikus regresszió, a K-közelebbi szomszéd, a döntési fa, a Naive Bayes stb. Mindegyik algoritmusnak megvan a maga végrehajtási stílusa és különböző előrejelzési technikái. De a végén meg kell találnunk egy algoritmus hatékonyságát. Ahhoz, hogy megtaláljuk a legmegfelelőbb algoritmust egy adott üzleti problémához, van néhány modellértékelési technika. Ebben a cikkben különböző modellértékelési technikákat tárgyalunk.

Vélhetően a nevét a zavaros állapotról kapta, amellyel foglalkozik. Ha emlékszik a hipotézisvizsgálatra, akkor emlékezhet a két hibára, amelyet I. és II. típusúként definiáltunk. As depicted in Fig.1, type-I error occurs when null hypothesis is rejected which should not be in actual. And type-II error occurs when although alternate hypothesis is true, you are failing to reject null hypothesis.

Fig.1: Type-I and Type-II errors

In figure 1 it is depicted clearly that the choice of confidence interval affects the probabilities of these errors to occur. But the fun is that if you try to reduce either if these errors, that will result the increase of the other one.

So, what is confusion matrix?

Fig.2: Confusion Matrix

Confusion matrix is the image given above. Ez egy mátrix, amely bármely bináris tesztelés eredményeit ábrázolja. Vegyük például egy betegség előrejelzésének esetét. Elvégeztél néhány orvosi vizsgálatot, és a vizsgálatok eredményeinek segítségével megjósolod, hogy az adott személynek van-e valamilyen betegsége. Tehát valójában azt fogja igazolni, hogy az a hipotézis, miszerint egy személyt betegségben szenvedőnek nyilvánít, elfogadható-e vagy sem. Tegyük fel, hogy 100 ember közül 20 emberre jósolunk betegséget. Valójában csak 15 embernek van betegsége, és ebből a 15 emberből 12 embert diagnosztizáltál helyesen. Ha tehát az eredményt egy zavarmátrixba helyezem, az a következőképpen néz ki –

Fig.3: Confusion Matrix of prediction a disease

Szóval, ha összehasonlítjuk a 3. ábrát. a 2. ábrával, akkor azt találjuk, hogy –

  1. Igaz pozitív: 12 (Helyesen jósolta meg a pozitív esetet!)
  2. Igaz negatív: 77 (Helyesen jósolta meg a negatív esetet!)
  3. Hamis pozitív: 8 (Ó! Megjósolta, hogy ezek az emberek betegségben szenvednek, de valójában nem. De ne aggódjon, ez a további orvosi elemzés során korrigálható. Tehát ez egy alacsony kockázatú hiba. Ebben az esetben II. típusú hibáról van szó).
  4. Hamis negatív: 3 (Oh ho! Ezt a három szerencsétlent alkalmasnak jósolta. De valójában ők a betegségben szenvednek. Ez veszélyes! Légy óvatos! Ez ebben az esetben I. típusú hiba).

Ha most azt kérdezem, hogy mi a pontossága annak az előrejelzési modellnek, amit követtem, hogy ezeket az eredményeket kapjam, akkor a válasz a pontosan megjósolt szám és az összes ember számának aránya kell, hogy legyen, ami (12+77)/100 = 0,89. Ha alaposan tanulmányozza a zavarmátrixot, a következő dolgokat fogja találni –

  1. A felső sor a betegséggel rendelkezők teljes számát ábrázolja. Ezek közül a jóslatok közül 12 emberre jósolta meg helyesen, hogy ténylegesen rendelkezik a betegséggel. Tehát a 12/(12+8) = 0,6 arány a modelled pontosságának a mérőszáma a betegséggel rendelkező személy felismerésében. Ezt nevezzük a modell pontosságának.
  2. Most vegyük az első oszlopot. Ez az oszlop a betegségben ténylegesen szenvedő személyek teljes számát jelöli. És közülük 12 esetében helyesen jósolta meg a betegséget. Tehát a 12/(12+3) = 0,8 arány a modell pontosságának a mértéke a betegségben szenvedő személy észlelésére a betegségben szenvedő személyek közül. Ezt nevezzük visszahívásnak.

Most felteheti a kérdést, hogy miért kell mérni a pontosságot vagy a visszahívást a modell értékeléséhez?

A válasz az, hogy nagyon ajánlott, ha egy adott eredmény nagyon érzékeny. Például egy bank számára fog modellt készíteni a csalárd tranzakciók előrejelzésére. Nem túl gyakori a csalárd tranzakció. 1000 tranzakcióból 1 lehet olyan tranzakció, amely csalás. Tehát kétségtelen, hogy a modellje nagyon pontosan meg fogja jósolni a nem csalárd tranzakciókat. Ebben az esetben tehát a teljes pontosság nem számít, mivel az mindig nagyon magas lesz, függetlenül a csalárd tranzakciók előrejelzésének pontosságától, mivel ezek aránya a teljes populációban nagyon alacsony. A csalárd tranzakció nem csalárdként való előrejelzése azonban nem kívánatos. Ebben az esetben tehát a pontosság mérése létfontosságú szerepet játszik a modell értékelésében. Segít megérteni, hogy az összes tényleges csalárd tranzakció közül hányat jósol meg. Ha ez alacsony, még ha az általános pontosság magas is, a modell nem elfogadható.

Receiver Operating Characteristics (ROC) Curve

A ROC-görbe alatti terület mérése szintén nagyon hasznos módszer a modell értékelésére. A ROC a True Positive Rate (TPR) és a False Positive Rate (FPR) aránya (lásd a 2. ábrát). Betegségfelismerési példánkban a TPR a betegségben szenvedő emberek pontos előrejelzéseinek száma és a ténylegesen betegségben szenvedő emberek teljes száma közötti arány. Az FPR a betegségben nem szenvedőnek helyesen megjósolt emberek száma és a betegségben ténylegesen nem szenvedő emberek teljes száma közötti arány. Ha tehát felrajzoljuk a görbét, akkor az így néz ki –

4. ábra: ROC-görbe (forrás: https://www.medcalc.org/manual/roc-curves.php)

A kék vonal a TPR változását jelzi különböző FPR esetén egy modell esetében. A görbe alatti terület és a teljes terület (ebben az esetben 100 x 100) nagyobb aránya jobban meghatározza a modell pontosságát. Ha ez az arány 1, akkor a modell túlillesztett, ha pedig 0,5 alatt van (azaz ha a görbe a szaggatott átlós vonal mentén van), akkor a modell túlságosan pontatlan a használathoz.

Az osztályozási modellek esetében számos más értékelési módszer is létezik, mint például a Gain és Lift diagramok, a Gini-együttható stb. De a zavarmátrix mélyreható ismerete nagyon hatékonyan segíthet bármely osztályozási modell értékelésében. Ezért ebben a cikkben megpróbáltam megfejteni a zavarmátrix körüli félreértéseket, hogy segítsek az olvasóknak.

Boldog modellezést!

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük