Modell-Evaluierungstechniken für Klassifizierungsmodelle

Beim maschinellen Lernen verwenden wir häufig Klassifizierungsmodelle, um ein vorhergesagtes Ergebnis von Bevölkerungsdaten zu erhalten. Die Klassifizierung, einer der beiden Bereiche des überwachten Lernens, befasst sich mit Daten aus verschiedenen Kategorien. Der Trainingsdatensatz trainiert das Modell, um die unbekannten Bezeichnungen der Populationsdaten vorherzusagen. Es gibt mehrere Algorithmen, nämlich die logistische Regression, K-nearest neighbour, Entscheidungsbaum, Naive Bayes usw. Alle diese Algorithmen haben ihre eigene Art der Ausführung und verschiedene Techniken der Vorhersage. Letztendlich müssen wir aber die Effektivität eines Algorithmus herausfinden. Um den am besten geeigneten Algorithmus für ein bestimmtes Geschäftsproblem zu finden, gibt es einige Techniken zur Modellbewertung. In diesem Artikel werden verschiedene Modellevaluierungstechniken besprochen.

Wahrscheinlich hat sie ihren Namen von dem Zustand der Verwirrung, mit dem sie zu tun hat. Wenn Sie sich an die Hypothesentests erinnern, werden Sie sich vielleicht an die beiden Fehler erinnern, die wir als Typ-I und Typ-II definiert haben. As depicted in Fig.1, type-I error occurs when null hypothesis is rejected which should not be in actual. And type-II error occurs when although alternate hypothesis is true, you are failing to reject null hypothesis.

Fig.1: Type-I and Type-II errors

In figure 1 it is depicted clearly that the choice of confidence interval affects the probabilities of these errors to occur. But the fun is that if you try to reduce either if these errors, that will result the increase of the other one.

So, what is confusion matrix?

Fig.2: Confusion Matrix

Confusion matrix is the image given above. Es handelt sich um eine Matrixdarstellung der Ergebnisse eines beliebigen binären Tests. Nehmen wir zum Beispiel den Fall der Vorhersage einer Krankheit. Sie haben einige medizinische Tests durchgeführt und mit Hilfe der Ergebnisse dieser Tests werden Sie vorhersagen, ob die Person eine Krankheit hat. Sie werden also überprüfen, ob die Hypothese, eine Person als krank zu erklären, akzeptabel ist oder nicht. Nehmen wir an, Sie sagen von 100 Personen 20 Personen mit einer Krankheit voraus. Tatsächlich haben aber nur 15 Personen die Krankheit und von diesen 15 Personen haben Sie 12 Personen richtig diagnostiziert. Wenn ich also das Ergebnis in eine Konfusionsmatrix eintrage, sieht sie wie folgt aus

Abbildung.3Konfusionsmatrix der Vorhersage einer Krankheit

Wenn wir also Abb.3 mit Abb.2 vergleichen, finden wir –

  1. True Positive: 12 (Sie haben den positiven Fall richtig vorhergesagt!)
  2. True Negative: 77 (Sie haben den negativen Fall richtig vorhergesagt!)
  3. False Positive: 8 (Oh! Sie haben diese Personen als krank vorhergesagt, aber in Wirklichkeit haben sie es nicht. Aber keine Sorge, das kann in einer weiteren medizinischen Analyse korrigiert werden. Dies ist also ein Fehler mit geringem Risiko. In diesem Fall handelt es sich um einen Fehler vom Typ II).
  4. Falsch Negativ: 3 (Oh ho! Sie haben diese drei armen Kerle als gesund vorhergesagt. Aber in Wirklichkeit haben sie die Krankheit. Das ist gefährlich! Seien Sie vorsichtig! Das ist in diesem Fall ein Fehler vom Typ I.)

Wenn ich nun frage, wie genau das Vorhersagemodell ist, mit dem ich diese Ergebnisse erhalten habe, sollte die Antwort das Verhältnis zwischen der genau vorhergesagten Zahl und der Gesamtzahl der Personen sein, das (12+77)/100 = 0,89 beträgt. Wenn Sie die Konfusionsmatrix gründlich studieren, werden Sie Folgendes feststellen –

  1. Die oberste Zeile zeigt die Gesamtzahl der Vorhersagen, die Sie gemacht haben, als hätten Sie die Krankheit. Von diesen Vorhersagen haben Sie 12 Personen richtig vorhergesagt, die die Krankheit tatsächlich haben. Das Verhältnis 12/(12+8) = 0,6 ist also das Maß für die Genauigkeit Ihres Modells bei der Erkennung einer Person mit der Krankheit. Dies wird als Präzision des Modells bezeichnet.
  2. Nehmen wir nun die erste Spalte. Diese Spalte gibt die Gesamtzahl der Personen an, die tatsächlich erkrankt sind. Und Sie haben für 12 von ihnen eine korrekte Vorhersage getroffen. Das Verhältnis 12/(12+3) = 0,8 ist also das Maß für die Genauigkeit Ihres Modells bei der Erkennung einer erkrankten Person unter allen Personen, die tatsächlich erkrankt sind. Dies wird als Recall bezeichnet.

Nun können Sie sich die Frage stellen, warum wir die Präzision oder den Recall messen müssen, um das Modell zu bewerten?

Die Antwort ist, dass dies sehr empfehlenswert ist, wenn ein bestimmtes Ergebnis sehr empfindlich ist. Sie wollen zum Beispiel ein Modell für eine Bank erstellen, um betrügerische Transaktionen vorherzusagen. Eine betrügerische Transaktion kommt nicht sehr häufig vor. Von 1000 Transaktionen ist vielleicht 1 Transaktion ein Betrug. Ihr Modell wird also zweifellos eine Transaktion sehr genau als nicht betrügerisch vorhersagen. In diesem Fall spielt die Gesamtgenauigkeit keine Rolle, da sie unabhängig von der Genauigkeit der Vorhersage der betrügerischen Transaktionen immer sehr hoch sein wird, da der Prozentsatz der betrügerischen Transaktionen in der Gesamtpopulation sehr gering ist. Aber die Vorhersage einer betrügerischen Transaktion als nicht betrügerisch ist nicht wünschenswert. In diesem Fall spielt also die Messung der Genauigkeit eine entscheidende Rolle bei der Bewertung des Modells. Sie hilft zu verstehen, wie viele der tatsächlichen betrügerischen Transaktionen das Modell vorhersagt. Wenn sie niedrig ist, ist das Modell nicht akzeptabel, auch wenn die Gesamtgenauigkeit hoch ist.

Receiver Operating Characteristics (ROC) Curve

Die Messung der Fläche unter der ROC-Kurve ist ebenfalls eine sehr nützliche Methode zur Bewertung eines Modells. Die ROC-Kurve ist das Verhältnis zwischen wahrer Positivrate (TPR) und Falsch-Positiv-Rate (FPR) (siehe Abb. 2). In unserem Beispiel zur Erkennung von Krankheiten ist die TPR das Maß für das Verhältnis zwischen der Anzahl der richtigen Vorhersagen von Personen mit Krankheiten und der Gesamtzahl der Personen mit Krankheiten in der Realität. FPR ist das Verhältnis zwischen der Anzahl der Personen, für die korrekt vorhergesagt wurde, dass sie keine Krankheit haben, und der Gesamtzahl der Personen, die tatsächlich nicht erkrankt sind. Wenn wir also die Kurve aufzeichnen, sieht sie wie folgt aus –

Abbildung 4: ROC-Kurve (Quelle: https://www.medcalc.org/manual/roc-curves.php)

Die blaue Linie kennzeichnet die Veränderung der TPR bei unterschiedlichen FPR für ein Modell. Je größer das Verhältnis zwischen der Fläche unter der Kurve und der Gesamtfläche (in diesem Fall 100 x 100) ist, desto genauer ist das Modell. Wenn es 1 wird, ist das Modell überangepasst, und wenn es unter 0,5 liegt (d.h. wenn die Kurve entlang der gestrichelten diagonalen Linie verläuft), ist das Modell zu ungenau, um verwendet zu werden.

Für Klassifizierungsmodelle gibt es viele andere Bewertungsmethoden wie Gain- und Lift-Diagramme, Gini-Koeffizient usw. Aber die genaue Kenntnis der Konfusionsmatrix kann helfen, jedes Klassifizierungsmodell sehr effektiv zu bewerten. Deshalb habe ich in diesem Artikel versucht, die Verwirrungen rund um die Konfusionsmatrix zu entmystifizieren, um den Lesern zu helfen.

Viel Spaß beim Modellieren!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.