Klassificering av läkemedelsmolekyler med hänsyn till deras IC50-värden med hjälp av mixed-integer linear programming based hyper-boxes method

I detta dokument, presenterar vi ett integrerat tillvägagångssätt som kombinerar statistisk analys och MILP-baserad hyperboxes-klassificeringsmetod för tidig förutsägelse av läkemedelsbeteende med inriktning på Ache, BZR, COX-2, DHFR_TG, DHFR_RL, DHFR_PC och slutligen Cytokrom P450 C17.

Den metod som används i detta dokument består av fem huvudsteg. I det första steget byggs molekylära strukturer för läkemedelskandidaterna upp och optimeras av Marvin Sketch. Därefter erhålls molekylära deskriptorer för dessa läkemedelskandidater med hjälp av webbservern E-Dragon . I det andra steget byggs regressionsmodellen upp med hjälp av PLS, vilket leder till att de mest betydelsefulla deskriptorerna väljs ut. Därefter klassificeras läkemedelskandidaterna utifrån de mest betydelsefulla deskriptorerna som erhållits i föregående steg med hjälp av en MILP-baserad hyperboxes-metod. Denna primära klassificering kan resultera i en relativt lägre klassificeringsnoggrannhet på grund av att det finns några få obetydliga deskriptorer i modellen; därför utförs en signifikanstestanalys för att fastställa de obetydliga deskriptorer som kan påverka vår klassificeringsnoggrannhet i det fjärde steget. Om det finns obetydliga deskriptorer i modellen byter vi ut de obetydliga deskriptorerna mot mer betydelsefulla. Sedan återgår vi till det tredje steget där vi klassificerar läkemedelsverksamheterna igen med den nya modell som erhålls i steg fem. Om alla deskriptorer är signifikanta efter signifikanstesterna bygger vi vår modell med de mest signifikanta och rapporterar klassificeringsresultaten.

Vi använder en iterativ algoritm som innebär att vissa steg kan upprepas när signifikanstesterna ger otillfredsställande resultat för de utvalda deskriptorerna i en viss modell. Mindre betydelsefulla deskriptorer ersätts med mer betydelsefulla som påverkar den slutliga klassificeringen av läkemedlen vid varje iteration, vilket förbättrar studiens framgång. Översikten över vår metod ges i figur 1.

Figur 1
figure1

Översikt över klassificeringsmetoden.

Datauppsättningar

Vi tillämpade vår algoritm på allmänt kända QSAR-datauppsättningar som finns i litteraturen. För klassificering används uppsättningar av dihydrofolatreduktas (DHFR), acetylkolinesteras (AchE), bensodiazepinreceptor (BZR) och cyklooxygenas-2 (COX-2)-hämmare. Vi introducerar också ett nytt dataset med Cytokrom P450 C17-hämmare, som vi har hämtat från litteraturen och beräknat deras 3D-strukturer.

Sju dataset användes för validering av vår metodik genom att tillämpa algoritmen på dessa stora och kända dataset och jämföra vår klassificeringsnoggrannhet på dessa dataset med andra allmänt använda klassificerare som finns tillgängliga i WEKA-paketet för datautvinning. Representativa föreningar från varje datamängd visas i figur 2. De experimentella IC50-värdena för dihydrofolatreduktas (DHFR)-inhibitoruppsättningen beräknades och rapporterades för DHFR-enzymet från tre olika arter: P. carinii (PC), T. gondii (TG) och råttlever (RL), där DHFR-hämmarnas aktivitet för enzymerna från olika arter skiljer sig åt. Därför studeras hämmarnas aktivitet mot enzymerna från dessa tre arter för DHFR-hämmare separat i vår studie. En uppsättning av 397 dihydrofolatreduktashämmare (DHFR) användes för P. carinii DHFR med IC50-värden från 0,31 nM till 3700 μM, en uppsättning av 378 hämmare användes för T. gondii DHFR med värden från 0,88 nM till 392 μM och 397 hämmare användes för DHFR från råttlever med värden från 0,156 nM till 7470 μM. En uppsättning av 111 acetylkolinesterashämmare (AchE) användes med experimentellt beräknade IC50-värden, rapporterade inom intervallet 0,3 nM till 100 μM . Datamängden för bensodiazepinreceptorhämmare (BZR) bestod av 163 hämmare vars IC50-värden beräknades experimentellt från 1,2 nM till 5 μM. De 322 molekylerna i uppsättningen av cyklooxygenas-2 (COX2)-hämmare härleddes så att IC50-värdena varierade från 1 nM till 100 μM . De QSAR-uppsättningar som användes i den här studien användes också i en jämförelsestudie av QSAR-metoder av Sutherland et al. Vi jämförde också R2-värdena för våra 3D-deskriptormodeller, som beräknades genom Minitab PLS-körningar i den första fasen av vår algoritm, med de rapporterade R2-värdena av Sutherland et al. för flera PLS-modeller på samma datamängder.

Figure 2
figure2

Representativa föreningar från varje QSAR-data.

Strukturbyggande och erhållande av deskriptormodellen

Som beskrivits ovan är det första steget i vår studie att hitta molekylära deskriptorer för läkemedelskandidaterna. Därför användes Marvin Sketch för att beräkna de molekylära strukturerna för varje läkemedelskandidat bör konstrueras genom att bygga deras struktur och optimera deras energi genom minimering för att bestämma deras bekräftelse i 3D-rummet. Därefter laddas de optimerade 3D-strukturerna in i E-Dragon och molekylära deskriptorer beräknas med hjälp av webbservern.

E-Dragon föreslår många deskriptorblock, som vart och ett innehåller parametrar som beskriver molekylers karaktärisering, och de som används i denna studie kan listas enligt följande: De som här nämns är följande: konstitutionella deskriptorer (48), topologiska deskriptorer (119), konnektivitetsindex (33), informationsindex (47), kanttillhörighetsindex (107), topologiska laddningsindex (21), geometriska deskriptorer (74), 3D-MoRSE-deskriptorer (160), funktionella gruppräkningar (154), atomcentrerade fragment (120), molekylära egenskaper (29). Det totala antalet deskriptorer som beaktades var därför 912 när vi byggde upp vår QSAR-deskriptormodell. PLS väljs för regressionsanalys eftersom antalet instanser är mycket mindre än antalet attribut (deskriptorer) med hjälp av Minitab. Som vi nämnde tidigare används PLS i stor utsträckning för att utveckla QSAR-modeller genom att minska antalet attribut i deskriptoruppsättningen till ett litet antal attribut som är korrelerade med den definierade egenskapen som modelleras, vilket är experimentella IC50-värden i vår studie.

Modellbygge med PLS för val av de mest informativa deskriptorerna

Det huvudsakliga syftet med regressionsanalysen är att bestämma den modell som förutspår läkemedels kandidaternas aktivitet (IC50) i termer av deskriptorer. PLS kan hänvisas till som en MLR-metod som är nära besläktad med huvudkomponentregression. Genom att genomföra en PLS-studie kan vi i princip förutsäga en uppsättning beroende variabler Y baserat på en uppsättning oberoende variabler X med hjälp av Minitab, som gav oss PLS-körningarna automatiskt baserat på den övre gräns som vi fastställt för antalet mest signifikanta deskriptorer. Varje PLS-körning ger en linjär modell av den beroende variabeln (IC50-värden) med avseende på de oberoende variablerna (mest signifikanta deskriptorer). Vid denna tidpunkt byggs den relevanta modellen upp och de mest betydelsefulla deskriptorerna bestäms. Nästa steg är en första klassificering av läkemedlen på grundval av deskriptorerna. Valet av de viktigaste deskriptorerna vid de första PLS-körningarna kanske inte är de mest effektiva för klassificering. Därför utför vi signifikanstester på de valda deskriptorerna genom regressionsanalysen för att öka klassificeringsnoggrannheten.

Klassificering av läkemedelskandidater med MILP-baserad hyperboxes-metod

Det tredje steget ägnas åt klassificering av läkemedel; vi tillämpar den MILP-baserade hyperboxes-metoden med hjälp av de utvalda deskriptorerna från det föregående steget.

Målet i dataklassificeringsproblem är att tilldela datapunkter, som beskrivs med ett visst antal attribut, i fördefinierade klasser. The strength of hyper-boxes classification method is from its ability to use more than one hyper-box when defining a class as shown in Figure 3, and this ability prevents overlapping in the classes, which would not be prevented if the classes were defined with a single hyper-box only.

Figure 3
figure3

Schematic representation of multi-class data classification using hyper-boxes.

The data classification problem is solved in two steps: training step and testing step. I träningssteget bildas gränserna för klasserna genom konstruktion av hyperlådor, medan effektiviteten hos de konstruerade klasserna testas i teststeget.

MILP-problemet för klassificeringen konstrueras så att målfunktionen är minimering av felklassificeringarna i datamängden med minsta möjliga antal hyperlådor i träningssteget. Minimeringen av antalet hyperlådor, dvs. eliminering av onödig användning av hyperlådor, verkställs genom att bestraffa förekomsten av en låda med en liten skalär i målfunktionen. I träningsdelen beräknas den övre och undre gränsen för varje hyperbox också av de datapunkter som ingår i hyperboxen.

I teststeget tilldelas datapunkterna klasser genom att beräkna avståndet mellan datapunkten och varje box och bestämma vilken box som ligger närmast datapunkten. Slutligen jämförs de ursprungliga och tilldelade klasserna för testdatapunkterna och klassificeringens effektivitet erhålls med hjälp av korrekt klassificerade instanser.

Det är en beräkningsteknisk utmaning att lösa det föreslagna MILP-problemet optimalt för stora datamängder på grund av det stora antalet binära variabler. Därför utvecklas en tre-stegs dekomponeringsmetod för att få fram optimala lösningar på stora dataklassificeringsproblem. De instanser som är svåra att klassificera identifieras i det första steget, som vi kallar förbehandling. Dessutom bestäms frön för varje klass för att förbättra beräkningseffektiviteten. Med större vikt vid dessa observationer erhålls en lösning på problemet i det andra steget med den modifierade modellen. Slutligen utförs slutliga tilldelningar och elimineringar av korsningar i det tredje steget.

I det här dokumentet tillämpar vi denna metod som beskrivs ovan för att klassificera läkemedelsmolekylers aktiviteter för de datamängder som beaktas. Vi utför 10-faldig korsvalidering när vi väljer tränings- och testuppsättningar, där vi delar upp datamängderna slumpmässigt i 10 delprov med lika många medlemmar. Av dessa 10 delprov kombineras 9 av dem och används som träningsuppsättning, och det återstående 1 delprovet används som testuppsättning. Klassificeringen utförs sedan 10 gånger där vart och ett av de 10 delproven används exakt en gång som testuppsättning. Slutligen rapporteras klassificeringens noggrannhet som genomsnittet av dessa 10 klassificeringar.

Vi klassificerar varje läkemedelskandidat i testuppsättningen som ett läkemedel med lågt eller högt IC50-värde. I denna iterativa studie utförs detta klassificeringssteg flera gånger: först med den ursprungliga uppsättningen deskriptorer och sedan med den förbättrade uppsättningen deskriptorer som härrör från signifikansanalysen.

Signifikansanalys

I det fjärde steget utförs signifikanstester. Efter PLS-körningarna är det möjligt att dra slutsatsen att en deskriptor är signifikant medan den i verkligheten inte är det, och detta problem löses genom att utföra signifikanstester efter den primära klassificeringen. Huvudidén bakom signifikanstestet är följande: Om Z är hela uppsättningen läkemedelskandidater, antar vi att den efter klassificeringen delas in i två klasser, A och B. För en lyckad klassificering bör varianserna för deskriptorvärdena vara mindre inom klasserna A och B än de är för hela populationen, Z.

Ekvationen nedan i ekvation 2.1 visar F-fördelningen.

S i j 2 / σ i 2 S k 2 / σ i 2 = S i j 2 / S i k 2 = f ν η η MathType@MTEF@5@5@+=feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaqcfa4aaSaaaeaacqWGtbWudaqhaaqaaiabdMgaPjabdQgaQbqaaiabikdaYaaacqGGVaWlcqaHdpWCdaqhaaqaaiabdMgaPbqaaiabikdaYaaaaeaacqWGtbWudaqhaaqaaiabdUgaRbqaaiabikdaYaaacqGGVaWlcqaHdpWCdaqhaaqaaiabdMgaPbqaaiabikdaYaaaaaGccqGH9aqpcqWGtbWudaqhaaWcbaGaemyAaKMaemOAaOgabaGaeGOmaidaaOGaei4la8Iaem4uam1aa0baaSqaaiabdMgaPjabdUgaRbqaaiabikdaYaaakiabg2da9iabdAgaMnaaBaaaleaacqaH9oGBcqaH3oaAaeqaaaaa@5191@
(2.1)

var, S i j 2 MathType@MTEF@5@5@+=feaagaart1ev2aqatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4uam1aa0baaSqaaiabdMgaPjabdQgaQbqaaiabikdaYaaaaaa@30DC@ är urvalets varians av värden för deskriptor i för läkemedelsuppsättning j, ν = n-1 och η = m-1 är frihetsgrader, n är antalet värden för deskriptor i för läkemedelsuppsättningen j och m är antalet värden för deskriptor i för läkemedelsuppsättningen k.

Därefter utförs hypotesprövningen med nollhypotesen S i j 2 = S i k 2 MathType@MTEF@5@5@+=feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4uam1aa0baaSqaaiabdMgaPjabdQgaQbqaaiabikdaYaaakiabg2da9iabdofatnaaDaaaleaacqWGPbqAcqWGRbWAaeaacqaIYaGmaaaaaa@36F3@ , vilket tyder på att variansen för hela uppsättningen läkemedelskandidater är lika stor som variansen för läkemedlen inom samma klass. Eftersom variansen för hela uppsättningen av läkemedel bör vara större än variansen inom klassen, definierar vi vår alternativa hypotes som: H a = S i j 2 ≻ S i k 2 MathType@MTEF@5@5@+=feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemisaG0aaSbaaSqaaiabdggaHbqabaGccqGH9aqpcqWGtbWudaqhaaWcbaGaemyAaKMaemOAaOgabaGaeGOmaidaaOGaeS4EIyMaem4uam1aa0baaSqaaiabdMgaPjabdUgaRbqaaiabikdaYaaaaaa@3B21@ , där j är en medlem av hela datamängden och k är en medlem av klassen. Observera att p-värdet för fvη i den aktuella modellen bör vara mindre än p-värdet för fvη i den föregående modellen för att acceptera den alternativa hypotesen.

Byggandet av den nya klassificeringsmodellen

Detta sista steg utförs när vi drar slutsatsen att det finns överskattade deskriptorer i modellen under steg fyra.

Därmed konstrueras totalt tre modeller genom regressionsanalys genom att välja 7, 10 respektive 15 deskriptorer som representativa variabler för varje modell, och signifikansanalysen tillämpas på alla deskriptorer i dessa tre modeller. Om vi konstaterar att det finns en icke-signifikant variabel i en av dessa modeller, ersätter vi den med de variabler som är signifikanta i de andra modellerna. Det har visat sig att denna justering förbättrar vår klassificeringsnoggrannhet. När vi ersätter de mindre betydelsefulla variablerna ignoreras de återstående 880 deskriptorerna som elimineras under PLS-analysen, eftersom dessa 7, 10 och 15 attribut valdes ut genom PLS-regressionsanalysen och har en bevisad styrka när det gäller att beskriva IC50-värdena. Huvudsyftet med PLS-regressionsstudien är i själva verket att eliminera de statistiskt meningslösa egenskaperna och ge oss det mest meningsfulla provutrymmet att arbeta vidare med.

De resultat som erhålls med vår metod jämförs med alla de 63 klassificeringsmetoder som finns tillgängliga i WEKA, och 16 bästa WEKA-klassificerare rapporteras med de resultat som erhålls med vår algoritm i tabell 3, med motsvarande klassificeringsnoggrannhet. De attribut som används i WEKA-klassificerare är samma deskriptorer som hittas efter signifikanstesterna, och 10-faldig korsvalidering tillämpades på varje klassificerare, inklusive vår klassificeringsmetod.

WEKA är ett kraftfullt datautvinningsverktyg att använda för jämförelser, eftersom det innehåller alla allmänt kända maskininlärningsalgoritmer bland sina 63 klassificerare. Framgången för dessa befintliga maskininlärningsalgoritmer vid binär klassificering av aktiva och inaktiva föreningar baserat på deras deskriptorvärden har också tidigare rapporterats. Nedan följer en kort översikt över de bäst presterande dataklassificeringsmetoderna som finns tillgängliga i WEKA. Ett Bayesianskt nätverkB = <N, A, Φ > är en riktad acyklisk graf <N, A> med en villkorlig sannolikhetsfördelning knuten till varje nod, kollektivt representerad av Φ. Varje nod n ∈ N representerar ett datamängdsattribut och varje båge a ∈ A mellan noder representerar ett sannolikhetsberoende. Naive Bayes-klassificatorn antar att alla variabler är oberoende av varandra, där klassificeringsnoden representeras som en överordnad nod för alla andra noder. Naive Bayes Simple använder normalfördelningen för modellering av attributen och hanterar numeriska attribut med hjälp av superviserad diskretisering, medan Naive Bayes Updateable är en inkrementell version som behandlar en instans i taget och använder en kärnskattare i stället för diskretisering.

Den logistiska klassificeraren bygger en logistisk regressionsmodell i två klasser. Det är en statistisk regressionsmodell, där logistisk regression utgår från att loglikelihoodförhållandet mellan klassfördelningarna är linjärt i observationerna. Den enkla logistiska klassificeraren bygger linjära logistiska regressionsmodeller baserade på ett enda attribut. Modellen är en generaliserad modell av regressionsmodellen för vanliga minsta kvadraters regressionsmodell. Multilayer perceptron är ett neuralt nätverk som använder sig av back propagation. Perceptronen, som är ett bearbetningselement, beräknar en enda utgång, en icke-linjär aktiveringsfunktion av en linjär kombination av flera ingångar, vars parametrar lärs in genom träningsfasen. SMO (sequential minimal optimization), även kallad WEKA SVM (support vector machine), är en metod för att träna en supportvektorklassificator med hjälp av polynomkärnor genom att bryta upp ett stort optimeringsproblem med kvadratisk programmering i mindre QP-optimeringsproblem.

IB1 listas som en lat klassificerare, i den bemärkelsen att den lagrar träningsinstanserna och egentligen inte gör något arbete förrän vid klassificeringen. IB1 är en instansbaserad inlärare. Den hittar den träningsinstans som ligger närmast i euklidiskt avstånd till den givna testinstansen. IBk är en k-nearest-neighbor-klassificerare som använder sig av samma idé.

Logit Boost använder sig av additiv logistisk regression. Algoritmen kan påskyndas genom att tilldela ett visst tröskelvärde för vikterna. Multi Class Classifier använder fyra olika tvåklassiga klassificeringsmetoder för flerklassiga problem. Threshold Selector, som är en metalärare, optimerar F-måttet genom att välja ett sannolikhetströskelvärde för klassificerarens resultat.

Random forest och LMT är beslutsträdsmetoder. Random Forest genererar slumpmässiga träd genom att samla ensembler av slumpmässiga träd, medan LMT bygger logistiska modellträd och använder korsvalidering för att bestämma antalet iterationer samtidigt som de logistiska regressionsfunktionerna anpassas vid varje nod. OneR (one rule) bygger ett beslutsträd på en nivå och lär sig en regel från varje attribut och väljer den regel som har den minsta felprocenten som den enda regeln.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *