A gépi tanulásban gyakran használjuk az osztályozási modelleket, hogy a populációs adatokból előrejelzett eredményt kapjunk. Az osztályozás, amely a felügyelt tanulás két részének egyike, különböző kategóriákból származó adatokkal foglalkozik. A képzési adatkészlet képzi a modellt a populációs adatok ismeretlen címkéinek előrejelzésére. Több algoritmus létezik, nevezetesen a logisztikus regresszió, a K-közelebbi szomszéd, a döntési fa, a Naive Bayes stb. Mindegyik algoritmusnak megvan a maga végrehajtási stílusa és különböző előrejelzési technikái. De a végén meg kell találnunk egy algoritmus hatékonyságát. Ahhoz, hogy megtaláljuk a legmegfelelőbb algoritmust egy adott üzleti problémához, van néhány modellértékelési technika. Ebben a cikkben különböző modellértékelési technikákat tárgyalunk.
Vélhetően a nevét a zavaros állapotról kapta, amellyel foglalkozik. Ha emlékszik a hipotézisvizsgálatra, akkor emlékezhet a két hibára, amelyet I. és II. típusúként definiáltunk. As depicted in Fig.1, type-I error occurs when null hypothesis is rejected which should not be in actual. And type-II error occurs when although alternate hypothesis is true, you are failing to reject null hypothesis.
In figure 1 it is depicted clearly that the choice of confidence interval affects the probabilities of these errors to occur. But the fun is that if you try to reduce either if these errors, that will result the increase of the other one.
So, what is confusion matrix?
Confusion matrix is the image given above. Ez egy mátrix, amely bármely bináris tesztelés eredményeit ábrázolja. Vegyük például egy betegség előrejelzésének esetét. Elvégeztél néhány orvosi vizsgálatot, és a vizsgálatok eredményeinek segítségével megjósolod, hogy az adott személynek van-e valamilyen betegsége. Tehát valójában azt fogja igazolni, hogy az a hipotézis, miszerint egy személyt betegségben szenvedőnek nyilvánít, elfogadható-e vagy sem. Tegyük fel, hogy 100 ember közül 20 emberre jósolunk betegséget. Valójában csak 15 embernek van betegsége, és ebből a 15 emberből 12 embert diagnosztizáltál helyesen. Ha tehát az eredményt egy zavarmátrixba helyezem, az a következőképpen néz ki –