Clasificarea moleculelor de medicamente având în vedere valorile lor IC50 utilizând metoda hyper-boxes bazată pe programare liniară cu numere întregi mixte

În această lucrare, prezentăm o abordare integrată care combină analiza statistică și metoda de clasificare hyper-boxes bazată pe MILP pentru predicția timpurie a comportamentului medicamentelor care vizează Ache, BZR, COX-2, DHFR_TG, DHFR_RL, DHFR_PC și, în cele din urmă, citocromul P450 C17.

Abordarea utilizată în această lucrare este compusă din cinci etape principale. În prima etapă, structurile moleculare ale medicamentelor candidate sunt construite și optimizate de Marvin Sketch. Apoi, descriptorii moleculari ai acestor medicamente candidate sunt obținuți cu ajutorul serverului web E-Dragon . A doua etapă constă în construirea modelului de regresie cu ajutorul PLS, care va duce la selectarea celor mai semnificativi descriptori. Apoi, candidații la medicamente sunt clasificați pe baza celor mai semnificativi descriptori care sunt obținuți la etapa anterioară, utilizând metoda hyper-boxes bazată pe MILP. Această clasificare primară poate avea ca rezultat o precizie de clasificare relativ mai scăzută din cauza existenței câtorva descriptori nesemnificativi în model; prin urmare, se efectuează o analiză de testare a semnificației pentru a determina descriptorii nesemnificativi care ar putea interfera cu precizia clasificării noastre în etapa a patra. În cazul în care există descriptori nesemnificativi în model, înlocuim descriptorii nesemnificativi cu descriptori mai semnificativi; apoi revenim la etapa a treia, în care clasificăm din nou activitățile medicamentoase cu noul model obținut în etapa a cincea. După testele de semnificație, dacă toți descriptorii sunt semnificativi, construim modelul nostru cu cei mai semnificativi și raportăm rezultatele clasificării.

Utilizăm un algoritm iterativ, astfel încât, unii dintre pași pot fi repetați atunci când testele de semnificație dau rezultate nesatisfăcătoare pentru descriptorii selectați ai unui anumit model. Descriptorii mai puțin semnificativi sunt înlocuiți cu unii mai semnificativi care afectează clasificarea finală a medicamentelor la fiecare iterație, îmbunătățind astfel succesul studiului. Schema metodei noastre este prezentată în figura 1.

Figura 1
figura1

Schema abordării de clasificare.

Seturi de date

Am aplicat algoritmul nostru la seturi de date QSAR cunoscute pe scară largă, disponibile în literatura de specialitate. Seturile de inhibitori ai dihidrofolat reductazei (DHFR), acetilcolinesterazei (AchE), receptorului de benzodiazepină (BZR) și ciclooxigenazei-2 (COX-2) sunt utilizate pentru clasificare. De asemenea, introducem un nou set de date de inhibitori ai citocromului P450 C17, pe care l-am derivat din literatura de specialitate și am calculat structurile 3D ale acestora.

Sapte seturi de date au fost utilizate pentru validarea metodologiei noastre prin aplicarea algoritmului pe aceste seturi de date mari și cunoscute și prin compararea acurateței noastre de clasificare pe aceste seturi de date cu alți clasificatori utilizați pe scară largă, disponibili în pachetul de minerit de date WEKA. Compușii reprezentativi din fiecare set de date sunt prezentați în figura 2. Valorile experimentale IC50 pentru setul de inhibitori ai dihidrofolat reductazei (DHFR) au fost calculate și raportate pentru enzima DHFR din trei specii diferite: P. carinii (PC), T. gondii (TG) și ficatul de șobolan (RL), în cazul în care activitatea inhibitorilor DHFR pentru enzimele din diferite specii diferă. Prin urmare, activitățile inhibitorilor față de enzimele din aceste trei specii pentru inhibitorii DHFR sunt studiate separat în studiul nostru. Un set de 397 de inhibitori ai dihidrofolat reductazei (DHFR) a fost utilizat pentru DHFR din P. carinii cu valori IC50 cuprinse între 0,31 nM și 3700 μM, un set de 378 de inhibitori a fost utilizat pentru DHFR din T. gondii cu valori cuprinse între 0,88 nM și 392 μM și 397 de inhibitori au fost utilizați pentru DHFR din ficatul de șobolan cu valori cuprinse între 0,156 nM și 7470 μM. A fost utilizat un set de 111 inhibitori ai acetilcolinesterazei (AchE) cu valori IC50 calculate experimental, raportate în intervalul de la 0,3 nM la 100 μM . Setul de date al inhibitorilor receptorilor de benzodiazepină (BZR) a constat din 163 de inhibitori, ale căror valori IC50 au fost calculate experimental în intervalul de la 1,2 nM la 5 μM. Cele 322 de molecule din setul de inhibitori ai ciclooxigenazei-2 (COX2) au fost obținute astfel încât valorile IC50 de la 1 nM la 100 μM . Seturile QSAR utilizate în acest studiu au fost, de asemenea, utilizate într-un studiu de comparare a metodelor QSAR de către Sutherland et al. Am comparat, de asemenea, valorile R2 ale modelelor noastre de descriptori 3D, care au fost calculate prin rulările PLS din Minitab în prima fază a algoritmului nostru, cu valorile R2 raportate de Sutherland et al pentru mai multe modele PLS pe aceleași seturi de date.

Figura 2
figure2

Compuși reprezentativi din fiecare date QSAR.

Construirea structurii și obținerea modelului descriptor

După cum am subliniat mai sus, în studiul nostru, primul pas este găsirea descriptorilor moleculari pentru candidații la medicamente. Prin urmare, Marvin Sketch a fost utilizat pentru a calcula structurile moleculare ale fiecărui medicament candidat trebuie să fie construit prin construirea structurii lor și optimizarea energiei lor prin minimizare pentru a determina confirmarea lor în spațiul 3D. Apoi, structurile 3-D optimizate sunt încărcate în E-Dragon și descriptorii moleculari sunt calculați cu ajutorul serverului web.

E-Dragon sugerează multe blocuri de descriptori, fiecare dintre acestea conținând parametri care descriu caracterizarea moleculelor, iar cei care sunt utilizați în acest studiu pot fi enumerați după cum urmează: descriptori constituționali (48), descriptori topologici (119), indici de conectivitate (33), indici de informație (47), indici de adiacență a marginilor (107), indici de sarcină topologică (21), descriptori geometrici (74), descriptori 3D-MoRSE (160), număr de grupuri funcționale (154), fragmente centrate pe atom (120), proprietăți moleculare (29). Prin urmare, numărul total de descriptori luați în considerare este de 912 în timpul construirii modelului nostru de descriptori QSAR. PLS este selectat pentru analiza de regresie deoarece numărul de instanțe este mult mai mic decât numărul de atribute (descriptori) prin utilizarea MINITAB. După cum am menționat anterior, PLS este utilizat pe scară largă pentru a dezvolta modele QSAR prin reducerea numărului de atribute din setul de descriptori la un număr mic de atribute corelate cu proprietatea definită care este modelată, care este reprezentată de valorile experimentale IC50 în studiul nostru.

Construirea modelului cu PLS pentru selectarea celor mai informativi descriptori

Scopul principal al analizei de regresie este de a determina modelul care prezice activitatea (IC50) a candidaților medicamentoși în funcție de descriptori. PLS poate fi menționată ca o metodă MLR strâns legată de regresia componentelor principale. Practic, prin efectuarea unui studiu PLS, putem prezice un set de variabile dependente Y pe baza unui set de variabile independente X cu ajutorul MINITAB, care ne-a oferit automat cursele PLS pe baza limitei superioare pe care am determinat-o cu privire la numărul celor mai semnificativi descriptori. Fiecare rulare PLS oferă un model liniar al variabilei dependente (valorile IC50) în raport cu variabilele independente (cei mai semnificativi descriptori). În acest moment, se construiește modelul relevant și se determină cei mai semnificativi descriptori. Următoarea etapă ar fi clasificarea inițială a medicamentelor pe baza descriptorilor. Este posibil ca alegerea descriptorilor semnificativi de către primele rulări PLS să nu fie cei mai eficienți în clasificare. Prin urmare, efectuăm teste de semnificație asupra descriptorilor selectați prin analiza de regresie pentru a crește precizia clasificării.

Clasificarea medicamentelor candidate cu metoda hyper-boxes bazată pe MILP

Al treilea pas este dedicat clasificării medicamentelor; aplicăm metoda hyper-boxes bazată pe MILP utilizând descriptorii selectați la pasul anterior.

Obiectivul în problemele de clasificare a datelor este de a atribui punctele de date, care sunt descrise cu un anumit număr de atribute, în clase predefinite. The strength of hyper-boxes classification method is from its ability to use more than one hyper-box when defining a class as shown in Figure 3, and this ability prevents overlapping in the classes, which would not be prevented if the classes were defined with a single hyper-box only.

Figure 3
figure3

Schematic representation of multi-class data classification using hyper-boxes.

The data classification problem is solved in two steps: training step and testing step. În etapa de instruire, limitele claselor sunt formate prin construirea de hiper-cutii, în timp ce eficiența claselor construite este testată în etapa de testare.

Problema MILP pentru clasificare este construită astfel încât funcția obiectiv să fie minimizarea erorilor de clasificare în setul de date cu numărul minim de hiper-cutii în etapa de instruire. Minimizarea numărului de hiper-cutii, adică eliminarea utilizării inutile a hiper-cutiilor, este impusă prin penalizarea existenței unei cutii cu un scalar mic în funcția obiectiv. În partea de instruire, limita superioară și inferioară a fiecărei hiper-cutii se calculează, de asemenea, prin punctele de date incluse în acea hiper-cutie.

În etapa de testare, punctele de date sunt atribuite claselor prin calcularea distanței dintre punctul de date și fiecare cutie și prin determinarea cutiei care este cea mai apropiată de punctul de date. În cele din urmă, clasele originale și clasele atribuite punctelor de date de testare sunt comparate, iar eficacitatea clasificării este obținută prin intermediul instanțelor clasificate corect.

Soluționarea problemei MILP propuse până la optimalitate este dificilă din punct de vedere computațional pentru seturi mari de date din cauza numărului mare de variabile binare. Prin urmare, se dezvoltă o metodă de descompunere în trei etape pentru obținerea soluțiilor optime ale problemelor de clasificare a datelor mari. Instanțele care sunt dificil de clasificat sunt identificate în prima etapă, pe care o numim preprocesare. În plus, se determină semințele pentru fiecare clasă pentru a îmbunătăți eficiența computațională. Acordând o mai mare importanță acestor observații, în cea de-a doua etapă se obține o soluție la problemă cu ajutorul modelului modificat. În cele din urmă, atribuirile finale și eliminările de intersecții sunt efectuate în cea de-a treia etapă.

În această lucrare, aplicăm această metodă descrisă mai sus în clasificarea activităților moleculelor de medicamente pentru seturile de date considerate. Efectuăm o validare încrucișată de 10 ori în timp ce alegem seturile de instruire și de testare, unde partiționăm aleatoriu seturile de date în 10 subeșantioane cu un număr egal de membri. Din aceste 10 subeșantioane, 9 dintre ele sunt combinate și utilizate ca set de instruire, iar restul de 1 subeșantion este utilizat ca set de testare. Apoi, clasificarea se realizează de 10 ori, fiecare dintre cele 10 subeșantioane fiind utilizat exact o dată ca set de testare. În cele din urmă, acuratețea clasificării este raportată ca medie a acestor 10 clasificări.

Clasificăm fiecare dintre medicamentele candidate din setul de testare ca având o valoare IC50 mică sau mare. În acest studiu iterativ, această etapă de clasificare este efectuată de mai multe ori: mai întâi cu setul inițial de descriptori, apoi utilizând setul îmbunătățit de descriptori derivat din analiza semnificației.

Analiza semnificației

În a patra etapă, se efectuează teste de semnificație. După rularea PLS este posibil să se concluzioneze că un descriptor este semnificativ în timp ce în realitate nu este, iar această problemă este rezolvată prin efectuarea testelor de semnificație după clasificarea primară. Ideea principală care stă la baza testului de semnificație este următoarea: Dacă Z este întregul set de medicamente candidate, să presupunem că după clasificare acesta este împărțit în două clase, A și B. Pentru o clasificare reușită, varianțele valorilor descriptorilor ar trebui să fie mai mici în cadrul claselor A și B decât pentru întreaga populație, Z.

Ecuația prezentată mai jos în Ecuația 2.1 prezintă distribuția F.

S i j 2 / σ i 2 S k 2 / σ i 2 = S i j 2 / S i k 2 = f ν η MathType@MTEF@5@5@+=feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaqcfa4aaSaaaeaacqWGtbWudaqhaaqaaiabdMgaPjabdQgaQbqaaiabikdaYaaacqGGVaWlcqaHdpWCdaqhaaqaaiabdMgaPbqaaiabikdaYaaaaeaacqWGtbWudaqhaaqaaiabdUgaRbqaaiabikdaYaaacqGGVaWlcqaHdpWCdaqhaaqaaiabdMgaPbqaaiabikdaYaaaaaGccqGH9aqpcqWGtbWudaqhaaWcbaGaemyAaKMaemOAaOgabaGaeGOmaidaaOGaei4la8Iaem4uam1aa0baaSqaaiabdMgaPjabdUgaRbqaaiabikdaYaaakiabg2da9iabdAgaMnaaBaaaleaacqaH9oGBcqaH3oaAaeqaaaaa@5191@
(2.1)

unde, S i j 2 MathType@MTEF@5@5@+=feaagaart1ev2aqatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4uam1aa0baaSqaaiabdMgaPjabdQgaQbqaaiabikdaYaaaaaa@30DC@ este varianța eșantionului de valori pentru descriptorul i pentru setul de medicamente j, ν = n-1 și η = m-1 sunt gradele de libertate, iar n este numărul de valori ale descriptorului i pentru setul de medicamente j, iar m este numărul de valori ale descriptorului i pentru setul de medicamente k.

Apoi, testarea ipotezei se realizează prin ipoteza nulă S i j 2 = S i k 2 MathType@MTEF@5@5@+=feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4uam1aa0baaSqaaiabdMgaPjabdQgaQbqaaiabikdaYaaakiabg2da9iabdofatnaaDaaaleaacqWGPbqAcqWGRbWAaeaacqaIYaGmaaaaaa@36F3@ , ceea ce sugerează că varianța întregului set de medicamente candidate este egală cu varianța medicamentelor din cadrul aceleiași clase. Având în vedere că varianța întregului set de medicamente ar trebui să fie mai mare decât varianța în cadrul clasei, definim ipoteza noastră alternativă după cum urmează: H a = S i j 2 ≻ S i k 2 MathType@MTEF@5@5@+=feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemisaG0aaSbaaSqaaiabdggaHbqabaGccqGH9aqpcqWGtbWudaqhaaWcbaGaemyAaKMaemOAaOgabaGaeGOmaidaaOGaeS4EIyMaem4uam1aa0baaSqaaiabdMgaPjabdUgaRbqaaiabikdaYaaaaaa@3B21@ , unde j este un membru al unui set complet de date, iar k este un membru al clasei. Rețineți că valoarea p a lui fvη din modelul actual trebuie să fie mai mică decât valoarea p a lui fvη din modelul anterior pentru a accepta ipoteza alternativă.

Construirea noului model de clasificare

Acest ultim pas se realizează atunci când ajungem la concluzia că există descriptori supraevaluați în model în timpul pasului patru.

Prin urmare, un număr total de 3 modele sunt construite prin analiza de regresie prin selectarea a 7, 10 și, respectiv, 15 descriptori ca variabile reprezentative ale fiecărui model, iar analiza de semnificație este aplicată tuturor descriptorilor din aceste 3 modele. În cazul în care se concluzionează existența unei variabile nesemnificative în unul dintre aceste modele, le înlocuim cu cele care sunt semnificative în celelalte modele. S-a dovedit că această ajustare îmbunătățește acuratețea clasificării noastre. Atunci când le înlocuim pe cele mai puțin semnificative, restul de 880 de descriptori care sunt eliminați în timpul analizei PLS sunt ignorați, deoarece aceste 7, 10 și 15 atribute au fost alese de analiza de regresie PLS și au o putere dovedită în descrierea valorilor IC50. Principalul scop al studiului de regresie PLS este, de fapt, eliminarea caracteristicilor lipsite de semnificație statistică și ne oferă cel mai semnificativ spațiu de eșantionare cu care să lucrăm în continuare.

Rezultatele obținute prin metoda noastră sunt comparate cu toate cele 63 de metode de clasificare disponibile în WEKA, iar 16 dintre cei mai buni clasificatori WEKA sunt raportate cu rezultatele obținute de algoritmul nostru în tabelul 3, cu precizia de clasificare corespunzătoare. Atributele utilizate în clasificatorii WEKA sunt aceiași descriptori care se regăsesc în urma testelor de semnificație, iar validarea încrucișată de 10 ori a fost aplicată fiecărui clasificator, inclusiv metodei noastre de clasificare.

WEKA este un instrument puternic de minerit de date care poate fi utilizat în scopuri de comparare, deoarece include toți algoritmii de învățare automată cunoscuți pe scară largă printre cei 63 de clasificatori ai săi. Succesul acestor algoritmi de învățare automată existenți în clasificarea binară a compușilor activi și inactivi pe baza valorilor descriptorilor lor a fost, de asemenea, raportat anterior. În continuare este prezentată o scurtă prezentare generală a celor mai performante metode de clasificare a datelor disponibile în WEKA. O rețea BayesianăB = <N, A, Φ > este un graf aciclic direcționat <N, A> cu o distribuție de probabilitate condiționată atașată fiecărui nod, reprezentată colectiv prin Φ. Fiecare nod n ∈ N reprezintă un atribut al setului de date, iar fiecare arc a ∈ A între noduri reprezintă o dependență probabilistică. Clasificatorul Naive Bayes presupune că toate variabilele sunt independente unele de altele, unde nodul de clasificare este reprezentat ca nod părinte al tuturor celorlalte noduri. Naive Bayes Simple utilizează distribuția normală pentru modelarea atributelor și tratează atributele numerice utilizând discretizarea supervizată, în timp ce Naive Bayes Updateable este o versiune incrementală, care procesează câte o instanță la un moment dat și utilizează un estimator kernel în loc de discretizare.

Clasificatorul Logistic construiește un model de regresie logistică cu două clase. Este un model de regresie statistică, în care regresia logistică presupune că raportul de verosimilitate logaritmică a distribuțiilor de clasă este liniar în observații. Clasificatorul Logistic simplu construiește modele de regresie logistică liniară bazate pe un singur atribut. Modelul este un model generalizat al modelului de regresie prin metoda celor mai mici pătrate ordinare. Perceptronul multistrat este o rețea neuronală care utilizează propagarea înapoi. Perceptronul, care este un element de procesare, calculează o singură ieșire, o funcție de activare neliniară de combinație liniară a mai multor intrări, ai cărei parametri sunt învățați prin faza de instruire. SMO (optimizare minimă secvențială), denumită și WEKA SVM (mașină cu vectori de suport), este o metodă de instruire a unui clasificator cu vectori de suport care utilizează nuclee polinomiale prin ruperea unei probleme mari de optimizare a programării pătratice în probleme mai mici de optimizare QP.

IB1 este catalogat ca fiind un clasificator leneș, în sensul că stochează instanțele de instruire și nu face cu adevărat nicio activitate până în momentul clasificării. IB1 este un învățător bazat pe instanțe. Acesta găsește instanța de instruire cea mai apropiată ca distanță euclidiană de instanța de testare dată. IBk este un clasificator k-nearest-neighbor care utilizează aceeași idee.

Logit Boost utilizează regresia logistică aditivă. Algoritmul poate fi accelerat prin atribuirea unui prag specific pentru ponderi. Multi Class Classifier utilizează patru metode distincte de clasificare în două clase pentru probleme multiclasă. Threshold Selector, care este un metaînvățător, optimizează măsura F prin selectarea unui prag de probabilitate la ieșirea clasificatorilor.

Random forest și LMT sunt metode de arbore de decizie. Random Forest generează arbori aleatori prin colectarea unor ansambluri de arbori aleatori, în timp ce LMT construiește arbori de model logistic și utilizează validarea încrucișată pentru a determina numărul de iterații în timp ce ajustează funcțiile de regresie logistică la fiecare nod. OneR (one rule) construiește un arbore de decizie cu un singur nivel și învață o regulă din fiecare atribut și selectează regula care are cea mai mică rată de eroare ca regulă unică.

.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *