W uczeniu maszynowym, często używamy modeli klasyfikacyjnych, aby uzyskać przewidywany wynik dla danych z populacji. Klasyfikacja, która jest jednym z dwóch działów uczenia nadzorowanego, zajmuje się danymi z różnych kategorii. Zbiór danych szkoleniowych trenuje model, aby przewidzieć nieznane etykiety danych populacji. Istnieje wiele algorytmów, mianowicie, regresja logistyczna, K-najbliższy sąsiad, drzewo decyzyjne, Naive Bayes itp. Wszystkie te algorytmy mają swój własny styl wykonania i różne techniki predykcji. Ale na końcu, musimy znaleźć skuteczność algorytmu. Aby znaleźć najbardziej odpowiedni algorytm dla konkretnego problemu biznesowego, istnieje kilka technik oceny modelu. W tym artykule zostaną omówione różne techniki oceny modelu.
Prawdopodobnie dostał swoją nazwę od stanu zamieszania, z którym ma do czynienia. Jeśli pamiętasz testowanie hipotez, możesz przypomnieć sobie dwa błędy, które zdefiniowaliśmy jako typ-I i typ-II. As depicted in Fig.1, type-I error occurs when null hypothesis is rejected which should not be in actual. And type-II error occurs when although alternate hypothesis is true, you are failing to reject null hypothesis.
In figure 1 it is depicted clearly that the choice of confidence interval affects the probabilities of these errors to occur. But the fun is that if you try to reduce either if these errors, that will result the increase of the other one.
So, what is confusion matrix?
Confusion matrix is the image given above. Jest to macierzowa reprezentacja wyników dowolnego testu binarnego. Dla przykładu weźmy przypadek przewidywania choroby. Przeprowadziłeś pewne testy medyczne i z pomocą wyników tych testów zamierzasz przewidzieć, czy dana osoba ma chorobę. Więc tak naprawdę zamierzasz sprawdzić, czy hipoteza o uznaniu danej osoby za chorą jest możliwa do przyjęcia, czy nie. Powiedzmy, że wśród 100 osób przewidujesz, że 20 osób będzie miało chorobę. W rzeczywistości tylko 15 osób ma chorobę, a wśród tych 15 osób poprawnie zdiagnozowałeś 12 osób. Jeśli więc umieszczę wynik w macierzy konfuzji, będzie ona wyglądać następująco –
Więc, jeśli porównamy rys.3 z rys.2 znajdziemy –
- True Positive: 12 (Przewidziałeś pozytywny przypadek poprawnie!)
- True Negative: 77 (Przewidziałeś negatywny przypadek poprawnie!)
- False Positive: 8 (Oh! Przewidziałeś tych ludzi jako mających chorobę, ale w rzeczywistości nie mają. Ale nie martw się, to może być skorygowane w dalszej analizie medycznej. Tak więc, jest to błąd niskiego ryzyka. Jest to błąd typu II w tym przypadku).
- Fałszywy Negatywny: 3 (Oh ho! Przewidziałeś tych trzech biednych facetów jako sprawnych. Ale faktycznie mają chorobę. To jest niebezpieczne! Bądź ostrożny! To jest błąd typu I w tym przypadku).
Teraz, jeśli zapytam, jaka jest dokładność modelu przewidywania, co zrobiłem, aby uzyskać te wyniki, odpowiedź powinna być stosunkiem dokładnie przewidzianej liczby i całkowitej liczby osób, która jest (12+77)/100 = 0,89. Jeśli dokładnie przestudiujesz matrycę konfuzji, znajdziesz następujące rzeczy –
- Górny rząd przedstawia całkowitą liczbę przewidywań, które zrobiłeś jako posiadające chorobę. Wśród tych przewidywań przewidziałeś 12 osób poprawnie, aby mieć chorobę w rzeczywistości. Tak więc stosunek, 12/(12+8) = 0.6 jest miarą dokładności twojego modelu w wykrywaniu osoby, która ma chorobę. To się nazywa Precyzja modelu.
- Teraz weź pierwszą kolumnę. Ta kolumna reprezentuje całkowitą liczbę osób, które mają chorobę w rzeczywistości. I przewidziałeś poprawnie dla 12 z nich. Tak więc stosunek, 12/(12+3) = 0,8 jest miarą dokładności twojego modelu do wykrycia osoby mającej chorobę ze wszystkich ludzi, którzy mają chorobę w rzeczywistości. Jest to określane jako Recall.
Teraz możesz zadać pytanie, dlaczego musimy mierzyć precyzję lub recall, aby ocenić model?
Odpowiedź jest bardzo zalecana, gdy konkretny wynik jest bardzo wrażliwy. Na przykład, zamierzasz zbudować model dla banku, aby przewidzieć nieuczciwe transakcje. Nie jest to bardzo częste, aby mieć oszukańczą transakcję. W 1000 transakcji, może być 1 transakcja, która jest oszustwem. Tak więc, niewątpliwie twój model będzie przewidywał transakcję jako niefraudalną bardzo dokładnie. Tak więc w tym przypadku cała dokładność nie ma znaczenia, ponieważ będzie ona zawsze bardzo wysoka, niezależnie od dokładności przewidywania oszukańczych transakcji, ponieważ ich odsetek w całej populacji jest bardzo niski. Ale przewidywanie oszukańczej transakcji jako nie oszukańczej nie jest pożądane. Tak więc, w tym przypadku pomiar precyzji będzie odgrywał istotną rolę w ocenie modelu. Pomoże on zrozumieć, jak wiele spośród wszystkich rzeczywistych oszukańczych transakcji jest przewidywanych przez model. Jeśli jest ona niska, nawet jeśli ogólna dokładność jest wysoka, model jest nie do zaakceptowania.
Krzywa ROC (Receiver Operating Characteristics)
Mierzenie obszaru pod krzywą ROC jest również bardzo użyteczną metodą oceny modelu. ROC jest stosunkiem TPR (ang. True Positive Rate) i FPR (ang. False Positive Rate) (patrz rys.2). W naszym przykładzie wykrywania choroby, TPR jest miarą stosunku pomiędzy liczbą dokładnych przewidywań osób mających chorobę a całkowitą liczbą osób mających chorobę w rzeczywistości. FPR jest stosunkiem pomiędzy liczbą osób, które są przewidywane jako nie mające choroby prawidłowo i całkowitą liczbą osób, które nie mają choroby w rzeczywistości. Jeśli więc wykreślimy krzywą, to wygląda ona następująco –
Niebieska linia oznacza zmianę TPR przy różnym FPR dla danego modelu. Większy stosunek powierzchni pod krzywą do powierzchni całkowitej (w tym przypadku 100 x 100) określa dokładność modelu. Jeśli wynosi on 1, model będzie nadmiernie dopasowany, a jeśli jest równy poniżej 0,5 (tj. gdy krzywa znajduje się wzdłuż kropkowanej linii ukośnej), model będzie zbyt niedokładny, aby go używać.
Dla modeli klasyfikacyjnych istnieje wiele innych metod oceny, takich jak wykresy Gain i Lift, współczynnik Giniego itp. Ale dogłębna wiedza na temat macierzy konfuzji może pomóc w ocenie każdego modelu klasyfikacyjnego bardzo skutecznie. Jednak dogłębna wiedza na temat macierzy konfuzji może pomóc w skutecznej ocenie każdego modelu klasyfikacyjnego. W tym artykule starałem się więc rozwiać wątpliwości dotyczące macierzy konfuzji, aby pomóc czytelnikom.
Szczęśliwe modelowanie!