Nell’apprendimento automatico, usiamo spesso i modelli di classificazione per ottenere un risultato previsto dei dati della popolazione. La classificazione, che è una delle due sezioni dell’apprendimento supervisionato, si occupa di dati di diverse categorie. Il set di dati di addestramento allena il modello per predire le etichette sconosciute dei dati della popolazione. Ci sono più algoritmi, vale a dire, regressione logistica, K-nearest neighbour, albero di decisione, Naive Bayes ecc. Tutti questi algoritmi hanno il loro stile di esecuzione e diverse tecniche di predizione. Ma, alla fine, dobbiamo trovare l’efficacia di un algoritmo. Per trovare l’algoritmo più adatto per un particolare problema di business, ci sono alcune tecniche di valutazione del modello. In questo articolo verranno discusse diverse tecniche di valutazione dei modelli.
Probabilmente ha preso il nome dallo stato di confusione di cui si occupa. Se vi ricordate i test d’ipotesi, potreste ricordare i due errori che abbiamo definito come tipo-I e tipo-II. As depicted in Fig.1, type-I error occurs when null hypothesis is rejected which should not be in actual. And type-II error occurs when although alternate hypothesis is true, you are failing to reject null hypothesis.
In figure 1 it is depicted clearly that the choice of confidence interval affects the probabilities of these errors to occur. But the fun is that if you try to reduce either if these errors, that will result the increase of the other one.
So, what is confusion matrix?
Confusion matrix is the image given above. È una rappresentazione a matrice dei risultati di qualsiasi test binario. Per esempio, prendiamo il caso della previsione di una malattia. Avete fatto alcuni test medici e con l’aiuto dei risultati di questi test, state per predire se la persona ha una malattia. Quindi, in realtà state per convalidare se l’ipotesi di dichiarare che una persona ha una malattia è accettabile o no. Diciamo che su 100 persone si prevede che 20 persone abbiano la malattia. In realtà solo 15 persone hanno la malattia e tra queste 15 persone avete diagnosticato correttamente 12 persone. Quindi, se metto il risultato in una matrice di confusione, avrà il seguente aspetto –
Quindi, se confrontiamo la fig.3 con la fig.2 troveremo –
- Vero positivo: 12 (Hai previsto correttamente il caso positivo!)
- Vero negativo: 77 (Hai previsto correttamente il caso negativo!)
- Falso positivo: 8 (Oh! Hai previsto queste persone come aventi la malattia, ma in realtà non l’hanno. Ma non preoccupatevi, questo può essere corretto in ulteriori analisi mediche. Quindi, questo è un errore a basso rischio. Questo è un errore di tipo II in questo caso).
- Falso negativo: 3 (Oh ho! Avete predetto questi tre poveretti come idonei. Ma in realtà hanno la malattia. Questo è pericoloso! Fate attenzione! Questo è un errore di tipo I in questo caso).
Ora se chiedo qual è l’accuratezza del modello di predizione che ho seguito per ottenere questi risultati, la risposta dovrebbe essere il rapporto tra il numero accuratamente previsto e il numero totale di persone che è (12+77)/100 = 0,89. Se studi attentamente la matrice di confusione troverai le seguenti cose –
- La riga superiore rappresenta il numero totale di predizioni che hai fatto come aventi la malattia. Tra queste previsioni hai predetto correttamente 12 persone che hanno la malattia in realtà. Quindi, il rapporto, 12/(12+8) = 0,6 è la misura della precisione del tuo modello nel rilevare una persona che ha la malattia. Questo è chiamato precisione del modello.
- Ora, prendete la prima colonna. Questa colonna rappresenta il numero totale di persone che hanno la malattia in realtà. E voi avete predetto correttamente per 12 di loro. Quindi, il rapporto, 12/(12+3) = 0.8 è la misura della precisione del vostro modello per rilevare una persona che ha la malattia su tutte le persone che hanno la malattia in realtà. Questo è chiamato Recall.
Ora, si può chiedere perché abbiamo bisogno di misurare la precisione o il richiamo per valutare il modello?
La risposta è altamente raccomandata quando un particolare risultato è molto sensibile. Per esempio state per costruire un modello per una banca per prevedere le transazioni fraudolente. Non è molto comune avere una transazione fraudolenta. In 1000 transazioni, ci può essere 1 transazione che è una frode. Quindi, senza dubbio il vostro modello predirà una transazione come non fraudolenta in modo molto accurato. Quindi, in questo caso l’accuratezza complessiva non ha importanza, perché sarà sempre molto alta, indipendentemente dall’accuratezza della previsione delle transazioni fraudolente, perché la percentuale è molto bassa in tutta la popolazione. Ma la previsione di una transazione fraudolenta come non fraudolenta non è auspicabile. Quindi, in questo caso la misurazione della precisione avrà un ruolo vitale per valutare il modello. Essa aiuterà a capire su tutte le transazioni fraudolente effettive quante ne sta predicendo. Se è bassa, anche se la precisione complessiva è alta, il modello non è accettabile.
Curva delle caratteristiche operative del ricevitore (ROC)
Misurare l’area sotto la curva ROC è anche un metodo molto utile per valutare un modello. ROC è il rapporto tra il tasso di vero positivo (TPR) e il tasso di falso positivo (FPR) (vedi fig.2). Nel nostro esempio di rilevamento della malattia, il TPR è la misura del rapporto tra il numero di previsioni accurate di persone con malattia e il numero totale di persone con malattia in realtà. FPR è il rapporto tra il numero di persone che sono previste come non aventi la malattia correttamente e il numero totale di persone che non hanno la malattia in realtà. Quindi, se tracciamo la curva, viene così –
La linea blu denota il cambiamento del TPR con diversi FPR per un modello. Più il rapporto tra l’area sotto la curva e l’area totale (100 x 100 in questo caso) definisce più la precisione del modello. Se diventa 1, il modello sarà overfit e se è uguale sotto 0,5 (cioè quando la curva è lungo la linea diagonale tratteggiata), il modello sarà troppo impreciso per essere usato.
Per i modelli di classificazione, ci sono molti altri metodi di valutazione come i grafici Gain e Lift, il coefficiente Gini ecc. Ma la conoscenza approfondita della matrice di confusione può aiutare a valutare qualsiasi modello di classificazione in modo molto efficace. Quindi, in questo articolo ho cercato di demistificare le confusioni intorno alla matrice di confusione per aiutare i lettori.
Felice modellazione!