Classificazione delle molecole di droga considerando i loro valori IC50 usando il metodo hyper-boxes basato sulla programmazione lineare mista-integrale

In questo articolo, presentiamo un approccio integrato che combina l’analisi statistica e il metodo di classificazione hyper-boxes basato su MILP per la predizione anticipata del comportamento dei farmaci che hanno come target Ache, BZR, COX-2, DHFR_TG, DHFR_RL, DHFR_PC, e infine il citocromo P450 C17.

L’approccio utilizzato in questo documento è composto da cinque passi principali. Nel primo passo, le strutture molecolari dei candidati farmaci sono costruite e ottimizzate da Marvin Sketch. Poi, i descrittori molecolari di questi candidati farmaci sono ottenuti utilizzando il server web E-Dragon. Il secondo passo consiste nel costruire il modello di regressione usando PLS, che porterà a selezionare i descrittori più significativi. Poi i candidati al farmaco sono classificati in base ai descrittori più significativi che sono ottenuti dal passo precedente, usando il metodo MILP basato su hyper-boxes. Questa classificazione primaria può risultare in un’accuratezza di classificazione relativamente più bassa a causa dell’esistenza di alcuni descrittori insignificanti nel modello; quindi, viene condotta un’analisi di test di significatività per determinare i descrittori insignificanti che potrebbero interferire con la nostra accuratezza di classificazione nel quarto passo. Se ci sono descrittori insignificanti nel modello, sostituiamo i descrittori insignificanti con altri più significativi; poi torniamo al terzo passo dove classifichiamo nuovamente le attività dei farmaci con il nuovo modello ottenuto nel quinto passo. Dopo i test di significatività, se tutti i descrittori sono significativi, costruiamo il nostro modello con quelli più significativi, e riportiamo i risultati della classificazione.

Utilizziamo un algoritmo iterativo tale che, alcuni dei passi possono essere ripetuti quando i test di significatività danno risultati insoddisfacenti per i descrittori selezionati di un particolare modello. I descrittori meno significativi sono sostituiti con quelli più significativi che influenzano la classificazione finale dei farmaci ad ogni iterazione, migliorando così il successo dello studio. Lo schema del nostro metodo è riportato nella Figura 1.

Figura 1
figura1

Schema dell’approccio di classificazione.

Set di dati

Abbiamo applicato il nostro algoritmo a set di dati QSAR ampiamente conosciuti e disponibili in letteratura. I set di inibitori della diidrofolato reduttasi (DHFR), dell’acetilcolinesterasi (AchE), del recettore delle benzodiazepine (BZR) e della cicloossigenasi-2 (COX-2) sono utilizzati per la classificazione. Introduciamo anche un nuovo set di dati di inibitori del citocromo P450 C17, che abbiamo derivato dalla letteratura e calcolato le loro strutture 3D.

Sette set di dati sono stati utilizzati per la convalida della nostra metodologia applicando l’algoritmo su questi grandi e noti set di dati e confrontando la nostra precisione di classificazione su questi set di dati con gli altri classificatori ampiamente utilizzati disponibili nel pacchetto di data mining WEKA. I composti rappresentativi di ciascun set di dati sono mostrati nella Figura 2. I valori sperimentali IC50 per il set di inibitori della diidrofolato reduttasi (DHFR) sono stati calcolati e riportati per l’enzima DHFR di tre specie diverse: P. carinii (PC), T. gondii (TG) e fegato di ratto (RL), dove l’attività degli inibitori DHFR agli enzimi delle diverse specie differisce. Pertanto, le attività degli inibitori verso gli enzimi di queste tre specie per gli inibitori DHFR sono studiate separatamente nel nostro studio. Una serie di 397 inibitori della diidrofolato reduttasi (DHFR) sono stati usati per il DHFR di P. carinii con valori IC50 da 0,31 nM a 3700 μM, una serie di 378 inibitori sono stati usati per il DHFR di T. gondii con valori da 0,88 nM a 392 μM e 397 inibitori sono stati usati per il DHFR del fegato di ratto con valori da 0,156 nM a 7470 μM. Una serie di 111 inibitori dell’acetilcolinesterasi (AchE) sono stati utilizzati con valori di IC50 calcolati sperimentalmente, riportati da entro l’intervallo di 0,3 nM a 100 μM . Il set di dati degli inibitori del recettore delle benzodiazepine (BZR) consisteva di 163 inibitori, i cui valori IC50 sono stati calcolati sperimentalmente da 1,2 nM a 5 μM. Le 322 molecole del set di inibitori della cicloossigenasi-2 (COX2) sono state derivate in modo tale che i valori IC50 da 1 nM a 100 μM . I set QSAR utilizzati in questo studio sono stati utilizzati anche in uno studio di confronto dei metodi QSAR di Sutherland et al. Abbiamo anche confrontato i valori R2 dei nostri modelli di descrittori 3D, che sono stati calcolati dalle corse PLS di Minitab nella prima fase del nostro algoritmo, con i valori R2 riportati da Sutherland et al per diversi modelli PLS sugli stessi set di dati.

Figura 2
figura2

Composti rappresentativi di ogni dato QSAR.

Costruzione della struttura e ottenimento del modello descrittore

Come descritto sopra, nel nostro studio il primo passo è trovare descrittori molecolari per i candidati farmaci. Pertanto, Marvin Sketch è stato utilizzato per calcolare le strutture molecolari di ogni candidato farmaco dovrebbe essere costruito costruendo la loro struttura e ottimizzare la loro energia di minimizzazione per determinare la loro conferma nello spazio 3-D. Successivamente, le strutture 3-D ottimizzate sono caricate in E-Dragon e i descrittori molecolari sono calcolati utilizzando il server web.

E-Dragon suggerisce molti blocchi di descrittori, ognuno dei quali contiene parametri che descrivono la caratterizzazione delle molecole, e quelli utilizzati in questo studio possono essere elencati come segue: descrittori costituzionali (48), descrittori topologici (119), indici di connettività (33), indici di informazione (47), indici di adiacenza dei bordi (107), indici di carica topologica (21), descrittori geometrici (74), descrittori 3D-MoRSE (160), conteggi di gruppi funzionali (154), frammenti atomocentrici (120), proprietà molecolari (29). Pertanto, il numero totale di descrittori considerati è 912 durante la costruzione del nostro modello di descrittore QSAR. PLS è selezionato per l’analisi di regressione perché il numero di istanze è molto più piccolo del numero di attributi (descrittori) utilizzando MINITAB. Come abbiamo detto prima, PLS è ampiamente utilizzato per sviluppare modelli QSAR riducendo il numero di attributi nel set di descrittori a un piccolo numero di attributi correlati con la proprietà definita che viene modellata, che è valori IC50 sperimentali nel nostro studio.

Costruzione del modello con PLS per la selezione dei descrittori più informativi

Lo scopo principale dell’analisi di regressione è di determinare il modello che predice l’attività (IC50) dei candidati farmaci in termini di descrittori. PLS può essere indicato come un metodo MLR strettamente legato alla regressione a componenti principali. Fondamentalmente, conducendo uno studio PLS possiamo prevedere un insieme di variabili dipendenti Y sulla base di un insieme di variabili indipendenti X da MINITAB, che ci ha dato le corse PLS automaticamente in base al limite superiore che abbiamo determinato sul numero di descrittori più significativi. Ogni esecuzione PLS fornisce un modello lineare della variabile dipendente (valori IC50) rispetto alle variabili indipendenti (descrittori più significativi). A questo punto, viene costruito il modello pertinente e vengono determinati i descrittori più significativi. Il passo successivo sarebbe la classificazione iniziale dei farmaci in base ai descrittori. La scelta dei descrittori significativi dalle prime corse PLS potrebbe non essere quella più efficace nella classificazione. Pertanto, eseguiamo test di significatività sui descrittori selezionati dall’analisi di regressione per aumentare l’accuratezza della classificazione.

Classificazione dei candidati farmaci con il metodo MILP basato su hyper-boxes

Il terzo passo è dedicato alla classificazione dei farmaci; applichiamo il metodo MILP basato su hyper-boxes usando i descrittori selezionati dal passo precedente.

L’obiettivo nei problemi di classificazione dei dati è di assegnare punti di dati, che sono descritti con un certo numero di attributi, in classi predefinite. The strength of hyper-boxes classification method is from its ability to use more than one hyper-box when defining a class as shown in Figure 3, and this ability prevents overlapping in the classes, which would not be prevented if the classes were defined with a single hyper-box only.

Figure 3
figure3

Schematic representation of multi-class data classification using hyper-boxes.

The data classification problem is solved in two steps: training step and testing step. Nella fase di addestramento, i confini delle classi sono formati dalla costruzione di hyper-box, mentre l’efficacia delle classi costruite sono testate nella fase di test.

Il problema MILP per la classificazione è costruito in modo che la funzione obiettivo sia la minimizzazione degli errori di classificazione nel set di dati con il numero minimo di hyper-box nella fase di addestramento. La minimizzazione del numero di iper-scatole, cioè l’eliminazione dell’uso inutile di iper-scatole, è applicata penalizzando l’esistenza di una scatola con un piccolo scalare nella funzione obiettivo. Nella parte di addestramento, il limite superiore e inferiore di ogni hyper-box è calcolato anche dai punti dati racchiusi in quell’hyper-box.

Nella fase di test, i punti dati sono assegnati alle classi calcolando la distanza tra il punto dati e ogni box, e determinando il box che è più vicino al punto dati. Infine, le classi originali e quelle assegnate ai punti dati di prova sono confrontate e l’efficacia della classificazione è ottenuta per mezzo di istanze correttamente classificate.

La soluzione del problema MILP proposto all’ottimalità è computazionalmente impegnativa per grandi insiemi di dati a causa del gran numero di variabili binarie. Quindi, viene sviluppato un metodo di decomposizione a tre stadi per ottenere soluzioni ottimali di problemi di classificazione di grandi dati. Le istanze che sono difficili da classificare sono identificate nella prima fase che chiamiamo pre-elaborazione. Inoltre, i semi sono determinati per ogni classe per migliorare l’efficienza computazionale. Con una maggiore enfasi data a queste osservazioni, una soluzione al problema è ottenuta nella seconda fase con il modello modificato. Infine, le assegnazioni finali e le eliminazioni di intersezione sono effettuate nella terza fase.

In questo articolo, applichiamo questo metodo sopra descritto nella classificazione delle attività delle molecole di farmaci per i set di dati considerati. Eseguiamo 10 volte la convalida incrociata mentre scegliamo i set di allenamento e di test, dove partizioniamo i set di dati in modo casuale in 10 sottocampioni con lo stesso numero di membri. Da questi 10 sottocampioni, 9 di essi vengono combinati e utilizzati come set di allenamento, e il restante 1 sottocampione viene utilizzato come set di test. Poi la classificazione viene eseguita 10 volte con ciascuno dei 10 sottocampioni usato esattamente una volta come set di test. Infine, l’accuratezza della classificazione è riportata come la media di queste 10 classificazioni.

Classifichiamo ciascuno dei candidati farmaci nel set di test come aventi un valore basso o alto di IC50. In questo studio iterativo, questo passo di classificazione viene eseguito più volte: prima con il set iniziale di descrittori poi usando il set migliorato di descrittori derivati dall’analisi di significatività.

Analisi di significatività

Nel quarto passo, vengono eseguiti i test di significatività. Dopo l’esecuzione del PLS è possibile concludere un descrittore come significativo mentre in realtà non lo è e questo problema viene risolto conducendo test di significatività dopo la classificazione primaria. L’idea principale dietro il test di significatività è la seguente: Se Z è l’intero insieme di farmaci candidati, supponiamo che dopo la classificazione sia diviso in due classi, A e B. Per una classificazione di successo, le varianze dei valori dei descrittori dovrebbero essere più piccole all’interno delle classi A e B di quanto lo siano per l’intera popolazione, Z.

L’equazione data sotto in Eq. 2.1 mostra la distribuzione F.

S i j 2 / σ i 2 S k 2 / σ i 2 = S i j 2 / S i k 2 = f ν η MathType@MTEF@5@5@+=feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaqcfa4aaSaaaeaacqWGtbWudaqhaaqaaiabdMgaPjabdQgaQbqaaiabikdaYaaacqGGVaWlcqaHdpWCdaqhaaqaaiabdMgaPbqaaiabikdaYaaaaeaacqWGtbWudaqhaaqaaiabdUgaRbqaaiabikdaYaaacqGGVaWlcqaHdpWCdaqhaaqaaiabdMgaPbqaaiabikdaYaaaaaGccqGH9aqpcqWGtbWudaqhaaWcbaGaemyAaKMaemOAaOgabaGaeGOmaidaaOGaei4la8Iaem4uam1aa0baaSqaaiabdMgaPjabdUgaRbqaaiabikdaYaaakiabg2da9iabdAgaMnaaBaaaleaacqaH9oGBcqaH3oaAaeqaaaaa@5191@
(2.1)

dove, S i j 2 MathType@MTEF@5@5@+=feaagaart1ev2aqatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4uam1aa0baaSqaaiabdMgaPjabdQgaQbqaaiabikdaYaaaaaa@30DC@ è la varianza campionaria dei valori del descrittore i per il set di farmaci j, ν = n-1 e η = m-1 sono gradi di libertà, e n è il numero di valori del descrittore i per il set di farmaci j, e m è il numero di valori del descrittore i per il set di farmaci k.

Poi il test d’ipotesi è eseguito dall’ipotesi nulla S i j 2 = S i k 2 MathType@MTEF@5@5@+=feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4uam1aa0baaSqaaiabdMgaPjabdQgaQbqaaiabikdaYaaakiabg2da9iabdofatnaaDaaaleaacqWGPbqAcqWGRbWAaeaacqaIYaGmaaaaaa@36F3@ , il che suggerisce che la varianza dell’intero set di farmaci candidati è uguale alla varianza dei farmaci all’interno della stessa classe. Poiché la varianza dell’intero insieme di farmaci dovrebbe essere più grande della varianza all’interno della classe, definiamo la nostra ipotesi alternativa come: H a = S i j 2 ≻ S i k 2 MathType@MTEF@5@5@+=feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemisaG0aaSbaaSqaaiabdggaHbqabaGccqGH9aqpcqWGtbWudaqhaaWcbaGaemyAaKMaemOAaOgabaGaeGOmaidaaOGaeS4EIyMaem4uam1aa0baaSqaaiabdMgaPjabdUgaRbqaaiabikdaYaaaaaa@3B21@ , dove j è un membro di un intero set di dati e k è un membro della classe. Si noti che il p-value di fvη nel corrente dovrebbe essere più piccolo del p-value di fvη nel modello precedente per accettare l’ipotesi alternativa.

Costruire il nuovo modello di classificazione

Questo ultimo passo viene eseguito quando concludiamo che ci sono descrittori sopravvalutati nel modello durante il quarto passo.

Perciò, un numero totale di 3 modelli vengono costruiti attraverso l’analisi di regressione selezionando 7, 10 e 15 descrittori rispettivamente come variabili rappresentative di ogni modello, e l’analisi di significatività viene applicata a tutti i descrittori in questi 3 modelli. Se concludiamo l’esistenza di una variabile non significativa in uno di questi modelli, la sostituiamo con quelle che sono significative negli altri modelli. Questo aggiustamento ha dimostrato di migliorare la nostra precisione di classificazione. Quando sostituiamo quelli meno significativi, i restanti 880 descrittori che vengono eliminati durante l’analisi PLS vengono ignorati, poiché questi 7, 10 e 15 attributi sono stati scelti dall’analisi di regressione PLS e hanno una forza dimostrata nel descrivere i valori IC50. Lo scopo principale dello studio di regressione PLS infatti è quello di eliminare le caratteristiche statisticamente insignificanti, e fornirci lo spazio campione più significativo con cui lavorare ulteriormente.

I risultati ottenuti dal nostro metodo sono confrontati con tutti i 63 metodi di classificazione disponibili in WEKA, e 16 migliori classificatori WEKA riportati con i risultati ottenuti dal nostro algoritmo nella tabella 3, con la corrispondente precisione di classificazione. Gli attributi utilizzati nei classificatori WEKA sono gli stessi descrittori che si trovano dopo i test di significatività, e la convalida incrociata di 10 volte è stata applicata ad ogni classificatore, incluso il nostro metodo di classificazione.

WEKA è un potente strumento di data mining da utilizzare per il confronto, poiché include tutti gli algoritmi di apprendimento automatico ampiamente conosciuti tra i suoi 63 classificatori. Il successo di questi algoritmi di apprendimento automatico esistenti nella classificazione binaria di composti attivi e inattivi basati sui loro valori descrittori è stato anche precedentemente riportato. Di seguito è riportata una breve panoramica dei metodi di classificazione dei dati più performanti disponibili in WEKA. Una rete BayesianaB = <N, A, Φ > è un grafo aciclico diretto <N, A> con una distribuzione di probabilità condizionata collegata a ogni nodo, rappresentata collettivamente da Φ. Ogni nodo n ∈ N rappresenta un attributo del dataset, e ogni arco a ∈ A tra i nodi rappresenta una dipendenza probabilistica. Il classificatore Naive Bayes assume che tutte le variabili siano indipendenti l’una dall’altra, dove il nodo di classificazione è rappresentato come il nodo padre di tutti gli altri nodi. Naive Bayes Simple usa la distribuzione normale per la modellazione degli attributi e gestisce gli attributi numerici usando la discretizzazione di supervisione, mentre Naive Bayes Updateable è una versione incrementale, che processa un’istanza alla volta, e usa uno stimatore kernel invece della discretizzazione.

Il classificatore Logistic costruisce un modello di regressione logistica a due classi. È un modello di regressione statistica, dove la regressione logistica assume che il rapporto di verosimiglianza log della distribuzione delle classi sia lineare nelle osservazioni. Il classificatore logistico semplice costruisce modelli di regressione logistica lineare basati su un singolo attributo. Il modello è un modello generalizzato del modello di regressione ordinaria dei minimi quadrati. Il perceptron multistrato è una rete neurale che utilizza la back propagation. Il perceptron, che è un elemento di elaborazione, calcola un singolo output, una funzione di attivazione non lineare di combinazione lineare di più ingressi, i cui parametri sono appresi attraverso la fase di formazione. SMO (ottimizzazione minima sequenziale), chiamato anche WEKA SVM (support vector machine), è un metodo per addestrare un classificatore vettoriale di supporto usando kernel polinomiali rompendo un grande problema di ottimizzazione di programmazione quadratica in problemi di ottimizzazione QP più piccoli.

IB1 è elencato come un classificatore pigro, nel senso che memorizza le istanze di formazione e non fa realmente alcun lavoro fino al momento della classificazione. IB1 è un discente basato sull’istanza. Trova l’istanza di addestramento più vicina in distanza euclidea all’istanza di test data. IBk è un classificatore k-nearest-neighbor che usa la stessa idea.

Logit Boost usa la regressione logistica additiva. L’algoritmo può essere accelerato assegnando una soglia specifica per i pesi. Multi Classifier usa quattro distinti metodi di classificazione a due classi per problemi multiclasse. Il Threshold Selector, che è un meta-learner ottimizza la misura F selezionando una soglia di probabilità sull’output del classificatore.

Random forest e LMT sono metodi ad albero decisionale. Random Forest genera alberi casuali raccogliendo insiemi di alberi casuali, mentre LMT costruisce alberi di modelli logistici e usa la validazione incrociata per determinare il numero di iterazioni mentre adatta le funzioni di regressione logistica ad ogni nodo. OneR (una regola) costruisce un albero decisionale a un livello e impara una regola da ogni attributo e seleziona la regola che ha il minor tasso di errore come regola unica.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *