Klasifikace molekul léčiv s ohledem na jejich hodnoty IC50 pomocí metody hyperboxů založené na smíšeném celočíselném lineárním programování

V tomto článku, představujeme integrovaný přístup kombinující statistickou analýzu a metodu klasifikace hyper-boxů založenou na MILP pro včasnou predikci chování léčiv zaměřených na Ache, BZR, COX-2, DHFR_TG, DHFR_RL, DHFR_PC a konečně cytochrom P450 C17.

Přístup použitý v tomto článku se skládá z pěti hlavních kroků. V prvním kroku jsou sestaveny molekulární struktury kandidátů na léčiva, které jsou optimalizovány pomocí nástroje Marvin Sketch. Poté jsou molekulární deskriptory těchto kandidátů na léčiva získány pomocí webového serveru E-Dragon . Druhý krok spočívá v sestavení regresního modelu pomocí PLS, jehož výsledkem bude výběr nejvýznamnějších deskriptorů. Poté jsou kandidáti na léčiva klasifikováni na základě nejvýznamnějších deskriptorů, které byly získány v předchozím kroku, pomocí metody hyperboxů založené na MILP. Tato primární klasifikace může vést k relativně nižší přesnosti klasifikace v důsledku existence několika nevýznamných deskriptorů v modelu; proto je provedena analýza testování významnosti s cílem určit nevýznamné deskriptory, které by mohly narušit přesnost naší klasifikace ve čtvrtém kroku. Pokud se v modelu vyskytují nevýznamné deskriptory, nahradíme nevýznamné deskriptory významnějšími; poté se vrátíme ke třetímu kroku, kde znovu klasifikujeme aktivity léčiv pomocí nového modelu, který jsme získali v pátém kroku. Pokud jsou po testech významnosti všechny deskriptory významné, sestavíme náš model s těmi nejvýznamnějšími a oznámíme výsledky klasifikace.

Používáme iterační algoritmus, takže některé kroky lze opakovat, pokud testy významnosti poskytnou neuspokojivé výsledky pro vybrané deskriptory určitého modelu. Méně významné deskriptory jsou při každé iteraci nahrazeny významnějšími, které ovlivňují konečnou klasifikaci léčiv, čímž se zvyšuje úspěšnost studie. Nástin naší metody je uveden na obrázku 1.

Obrázek 1
obrázek1

Nástin klasifikačního přístupu.

Soubory dat

Náš algoritmus jsme aplikovali na široce známé soubory dat QSAR dostupné v literatuře. Pro klasifikaci byly použity soubory inhibitorů dihydrofolátreduktázy (DHFR), acetylcholinesterázy (AchE), benzodiazepinového receptoru (BZR) a cyklooxygenázy-2 (COX-2). Uvádíme také novou sadu dat inhibitorů cytochromu P450 C17, kterou jsme získali z literatury a vypočítali jejich 3D struktury.

K validaci naší metodiky bylo použito sedm sad dat, přičemž algoritmus byl aplikován na tyto velké a známé sady dat a přesnost naší klasifikace na těchto sadách dat byla porovnána s jinými široce používanými klasifikátory dostupnými v balíku WEKA pro dolování dat. Reprezentativní sloučeniny z každé datové sady jsou uvedeny na obrázku 2. Experimentální hodnoty IC50 pro soubor inhibitorů dihydrofolátreduktázy (DHFR) byly vypočteny a uvedeny pro enzym DHFR ze tří různých druhů: P. carinii (PC), T. gondii (TG) a jater potkanů (RL), kde se aktivita inhibitorů DHFR vůči enzymům z různých druhů liší. Proto jsou v naší studii aktivity inhibitorů vůči enzymům z těchto tří druhů pro inhibitory DHFR studovány odděleně. Pro DHFR z P. carinii byl použit soubor 397 inhibitorů dihydrofolátreduktázy (DHFR) s hodnotami IC50 od 0,31 nM do 3700 μM, pro DHFR z T. gondii soubor 378 inhibitorů s hodnotami od 0,88 nM do 392 μM a pro DHFR z jater potkanů 397 inhibitorů s hodnotami od 0,156 nM do 7470 μM. Byla použita sada 111 inhibitorů acetylcholinesterázy (AchE) s experimentálně vypočtenými hodnotami IC50, které byly uvedeny v rozmezí od 0,3 nM do 100 μM . Soubor dat inhibitorů benzodiazepinových receptorů (BZR) se skládal ze 163 inhibitorů, jejichž hodnoty IC50 byly vypočteny experimentálně v rozmezí od 1,2 nM do 5 μM. Soubor 322 molekul inhibitorů cyklooxygenázy-2 (COX2) byl odvozen tak, že hodnoty IC50 byly od 1 nM do 100 μM . Soubory QSAR použité v této studii byly také použity ve srovnávací studii metod QSAR Sutherlanda et al. Porovnali jsme také hodnoty R2 našich 3D deskriptorových modelů, které byly vypočteny pomocí běhů PLS v programu Minitab v první fázi našeho algoritmu, s hodnotami R2, které uvádí Sutherland et al. pro několik modelů PLS na stejných souborech dat.

Obrázek 2
obrázek2

Reprezentativní sloučeniny z jednotlivých dat QSAR.

Structure building and obtaining the descriptor model

Jak bylo uvedeno výše, v naší studii je prvním krokem nalezení molekulárních deskriptorů pro kandidáty na léčiva. Proto byl pro výpočet molekulových struktur jednotlivých kandidátů na léčiva použit program Marvin Sketch, který by měl být sestaven tak, že se sestaví jejich struktura a optimalizuje se jejich energie minimalizací, aby se určila jejich konfirmace v 3-D prostoru. Poté se optimalizované 3-D struktury načtou do programu E-Dragon a pomocí webového serveru se vypočítají molekulární deskriptory.

E-Dragon nabízí mnoho deskriptorových bloků, z nichž každý obsahuje parametry, které popisují charakteristiku molekul, a ty, které jsou použity v této studii, lze uvést následovně: konstituční deskriptory (48), topologické deskriptory (119), indexy konektivity (33), informační indexy (47), indexy přiléhavosti hran (107), topologické indexy náboje (21), geometrické deskriptory (74), deskriptory 3D-MoRSE (160), počty funkčních skupin (154), fragmenty zaměřené na atom (120), molekulové vlastnosti (29). Celkový počet deskriptorů uvažovaných při sestavování našeho deskriptorového modelu QSAR je tedy 912. Pro regresní analýzu byla zvolena metoda PLS, protože počet instancí je mnohem menší než počet atributů (deskriptorů) pomocí programu MINITAB. Jak jsme již zmínili, PLS se široce používá k vývoji modelů QSAR tím, že snižuje počet atributů v souboru deskriptorů na malý počet atributů korelujících s definovanou modelovanou vlastností, kterou jsou v naší studii experimentální hodnoty IC50.

Tvorba modelu pomocí PLS pro výběr nejinformativnějších deskriptorů

Hlavním účelem regresní analýzy je určit model, který předpovídá aktivitu (IC50) kandidátů na léčiva z hlediska deskriptorů. PLS lze označit za metodu MLR úzce související s regresí hlavních komponent. Provedením studie PLS můžeme v podstatě předpovědět soubor závislých proměnných Y na základě souboru nezávislých proměnných X pomocí programu MINITAB, který nám automaticky poskytl průběhy PLS na základě námi stanovené horní hranice počtu nejvýznamnějších deskriptorů. Každý běh PLS poskytuje lineární model závislé proměnné (hodnoty IC50) vzhledem k nezávislým proměnným (nejvýznamnějším deskriptorům). V tomto okamžiku se sestaví příslušný model a určí se nejvýznamnější deskriptory. Dalším krokem bude počáteční klasifikace léčiv na základě deskriptorů. Výběr významných deskriptorů podle prvních běhů PLS nemusí být při klasifikaci nejefektivnější. Proto provedeme testy významnosti vybraných deskriptorů pomocí regresní analýzy, abychom zvýšili přesnost klasifikace.

Klasifikace kandidátů na léčiva metodou hyper-boxů na bázi MILP

Třetí krok je věnován klasifikaci léčiv; pomocí vybraných deskriptorů z předchozího kroku použijeme metodu hyper-boxů na bázi MILP.

Cílem v problémech klasifikace dat je přiřadit datové body, které jsou popsány určitým počtem atributů, do předem definovaných tříd. The strength of hyper-boxes classification method is from its ability to use more than one hyper-box when defining a class as shown in Figure 3, and this ability prevents overlapping in the classes, which would not be prevented if the classes were defined with a single hyper-box only.

Figure 3
figure3

Schematic representation of multi-class data classification using hyper-boxes.

The data classification problem is solved in two steps: training step and testing step. V tréninkovém kroku se hranice tříd vytvářejí konstrukcí hyperboxů, přičemž v testovacím kroku se testuje účinnost zkonstruovaných tříd.

Problém MILP pro klasifikaci je konstruován tak, že účelovou funkcí je minimalizace chybných klasifikací v souboru dat s minimálním počtem hyperboxů v tréninkovém kroku. Minimalizace počtu hyperboxů, tj. eliminace zbytečného používání hyperboxů, je vynucena penalizací existence boxu malým skalárem v objektivní funkci. V tréninkové části se horní a dolní hranice každého hyper-boxu vypočítá také podle datových bodů uzavřených v daném hyper-boxu.

V kroku testování se datové body přiřadí do tříd výpočtem vzdálenosti mezi datovým bodem a každým boxem a určením boxu, který je datovému bodu nejblíže. Nakonec se porovnají původní a přiřazené třídy testovacích datových bodů a pomocí správně klasifikovaných instancí se zjistí účinnost klasifikace.

Řešení navrženého problému MILP do optimality je pro velké soubory dat výpočetně náročné kvůli velkému počtu binárních proměnných. Proto je vyvinuta třístupňová dekompoziční metoda pro získání optimálního řešení klasifikačních problémů velkých dat. V první fázi, kterou označujeme jako předzpracování, jsou identifikovány případy, které je obtížné klasifikovat. Kromě toho jsou pro každou třídu určena semena, aby se zlepšila výpočetní efektivita. S větším důrazem kladeným na tato pozorování se ve druhé fázi získá řešení problému pomocí upraveného modelu. Nakonec se ve třetím kroku provede konečné přiřazení a eliminace průniků.

V tomto článku použijeme tuto výše popsanou metodu při klasifikaci aktivit molekul léčiv pro uvažované soubory dat. Při výběru trénovací a testovací sady provádíme desetinásobné křížové ověření, přičemž sady dat náhodně rozdělíme na 10 dílčích vzorků se stejným počtem členů. Z těchto 10 dílčích vzorků se 9 z nich spojí a použije jako trénovací soubor a zbývající 1 dílčí vzorek se použije jako testovací soubor. Poté se klasifikace provede 10krát, přičemž každý z 10 podvzorků se použije přesně jednou jako testovací soubor. Nakonec je přesnost klasifikace uvedena jako průměr těchto 10 klasifikací.

Každý z kandidátů na léčivo v testovacím souboru klasifikujeme jako léčivo s nízkou nebo vysokou hodnotou IC50. V této iterační studii je tento krok klasifikace proveden několikrát: nejprve s počáteční sadou deskriptorů a poté s použitím rozšířené sady deskriptorů odvozené z analýzy významnosti.

Analýza významnosti

Ve čtvrtém kroku jsou provedeny testy významnosti. Po provedení PLS je možné uzavřít deskriptor jako významný, zatímco ve skutečnosti významný není, a tento problém se řeší provedením testů významnosti po primární klasifikaci. Hlavní myšlenka testu významnosti je následující: Pokud je Z celý soubor kandidátů na léčiva, předpokládejme, že po klasifikaci je rozdělen do dvou tříd, A a B. Pro úspěšnou klasifikaci by měly být rozptyly hodnot deskriptorů v rámci tříd A a B menší, než je tomu u celé populace, Z.

Rovnice uvedená níže v rovnici 2.1 vykazuje rozdělení F.

Rovnice uvedená níže v rovnici 2.1 vykazuje rozdělení F.

S i j 2 / σ i 2 S k 2 / σ i 2 = S i j 2 / S i k 2 = f ν η MathType@MTEF@5@5@+=feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaqcfa4aaSaaaeaacqWGtbWudaqhaaqaaiabdMgaPjabdQgaQbqaaiabikdaYaaacqGGVaWlcqaHdpWCdaqhaaqaaiabdMgaPbqaaiabikdaYaaaaeaacqWGtbWudaqhaaqaaiabdUgaRbqaaiabikdaYaaacqGGVaWlcqaHdpWCdaqhaaqaaiabdMgaPbqaaiabikdaYaaaaaGccqGH9aqpcqWGtbWudaqhaaWcbaGaemyAaKMaemOAaOgabaGaeGOmaidaaOGaei4la8Iaem4uam1aa0baaSqaaiabdMgaPjabdUgaRbqaaiabikdaYaaakiabg2da9iabdAgaMnaaBaaaleaacqaH9oGBcqaH3oaAaeqaaaaa@5191@
(2.1)

kde, S i j 2 MathType@MTEF@5@5@+=feaagaart1ev2aqatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4uam1aa0baaSqaaiabdMgaPjabdQgaQbqaaiabikdaYaaaaaa@30DC@ je výběrový rozptyl hodnot deskriptoru i pro soubor léčiv j, ν = n-1 a η = m-1 jsou stupně volnosti a n je počet hodnot deskriptoru i pro soubor léčiv j a m je počet hodnot deskriptoru i pro soubor léčiv k.

Poté se testování hypotézy provede pomocí nulové hypotézy S i j 2 = S i k 2 MathType@MTEF@5@5@+=feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4uam1aa0baaSqaaiabdMgaPjabdQgaQbqaaiabikdaYaaakiabg2da9iabdofatnaaDaaaleaacqWGPbqAcqWGRbWAaeaacqaIYaGmaaaaaa@36F3@ , což naznačuje, že rozptyl celého souboru kandidátních léčiv se rovná rozptylu léčiv v rámci stejné třídy. Protože rozptyl celého souboru léčiv by měl být větší než rozptyl v rámci třídy, definujeme naši alternativní hypotézu takto: H a = S i j 2 ≻ S i k 2 MathType@MTEF@5@5@+=feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemisaG0aaSbaaSqaaiabdggaHbqabaGccqGH9aqpcqWGtbWudaqhaaWcbaGaemyAaKMaemOAaOgabaGaeGOmaidaaOGaeS4EIyMaem4uam1aa0baaSqaaiabdMgaPjabdUgaRbqaaiabikdaYaaaaaa@3B21@ , Kde j je člen celého souboru dat a k je člen třídy. Všimněte si, že p-hodnota fvη v současném modelu by měla být menší než p-hodnota fvη v předchozím modelu, aby byla přijata alternativní hypotéza.

Sestavení nového klasifikačního modelu

Tento poslední krok se provede, pokud během čtvrtého kroku dojdeme k závěru, že v modelu jsou nadhodnocené deskriptory.

Proto se pomocí regresní analýzy sestaví celkem 3 modely, přičemž se vybere 7, 10 a 15 deskriptorů jako reprezentativní proměnné každého modelu, a na všechny deskriptory v těchto 3 modelech se použije analýza významnosti. Pokud dojdeme k závěru o existenci nevýznamné proměnné v jednom z těchto modelů, nahradíme je proměnnými, které jsou významné v ostatních modelech. Tato úprava prokazatelně zlepšuje naši klasifikační přesnost. Když nahrazujeme méně významné, zbývajících 880 deskriptorů, které jsou během analýzy PLS vyřazeny, ignorujeme, protože těchto 7, 10 a 15 atributů bylo vybráno regresní analýzou PLS a mají prokázanou sílu při popisu hodnot IC50. Hlavním účelem regresní studie PLS je ve skutečnosti eliminovat statisticky bezvýznamné rysy a poskytnout nám co nejvýznamnější výběrový prostor pro další práci.

Výsledky získané naší metodou jsou porovnány se všemi 63 klasifikačními metodami dostupnými v programu WEKA a v tabulce 3 je uvedeno 16 nejlepších klasifikátorů WEKA s výsledky získanými naším algoritmem a odpovídající klasifikační přesností. Atributy použité v klasifikátorech WEKA jsou stejné deskriptory, které byly zjištěny po testech významnosti, a na každý klasifikátor včetně naší klasifikační metody byla použita 10násobná křížová validace.

WEKA je výkonný nástroj pro dolování dat, který lze použít pro účely srovnání, protože mezi svými 63 klasifikátory obsahuje všechny široce známé algoritmy strojového učení. Úspěšnost těchto existujících algoritmů strojového učení při binární klasifikaci aktivních a neaktivních sloučenin na základě hodnot jejich deskriptorů byla rovněž dříve zaznamenána. Následuje stručný přehled nejvýkonnějších metod klasifikace dat dostupných v programu WEKA. Bayesovská síťB = <N, A, Φ > je směrovaný acyklický graf <N, A> s podmíněným rozdělením pravděpodobnosti přiřazeným každému uzlu, souhrnně reprezentovaným Φ. Každý uzel n ∈ N představuje atribut datové sady a každý oblouk a ∈ A mezi uzly představuje pravděpodobnostní závislost. Klasifikátor Naive Bayes předpokládá, že všechny proměnné jsou na sobě nezávislé, přičemž klasifikační uzel je reprezentován jako nadřazený uzel všech ostatních uzlů. Naive Bayes Simple používá pro modelování atributů normální rozdělení a zpracovává číselné atributy pomocí diskretizace supervizí, kdežto Naive Bayes Updateable je inkrementální verze, která zpracovává jednu instanci po druhé a místo diskretizace používá jádrový odhad.

Logistický klasifikátor sestavuje model logistické regrese dvou tříd. Jedná se o statistický regresní model, přičemž logistická regrese předpokládá, že poměr logaritmických pravděpodobností rozdělení tříd je lineární v pozorování. Jednoduchý logistický klasifikátor sestavuje lineární logistické regresní modely na základě jediného atributu. Jedná se o zobecněný model obyčejného regresního modelu nejmenších čtverců. Vícevrstvý perceptron je neuronová síť, která využívá zpětné šíření. Perceptron, který je zpracovatelským prvkem, počítá jediný výstup, nelineární aktivační funkci lineární kombinace více vstupů, jejíž parametry se učí prostřednictvím tréninkové fáze. SMO (sekvenční minimální optimalizace), nazývaná také WEKA SVM (support vector machine), je metoda pro trénování klasifikátoru podpůrných vektorů pomocí polynomiálních jader rozdělením velkého optimalizačního problému kvadratického programování na menší optimalizační problémy QP.

IB1 je uveden jako líný klasifikátor v tom smyslu, že ukládá trénovací instance a ve skutečnosti neprovádí žádnou práci až do doby klasifikace. IB1 je učící se prvek založený na instancích. Najde trénovací instanci, která je v euklidovské vzdálenosti nejblíže dané testovací instanci. IBk je klasifikátor založený na principu k nejbližších sousedů, který využívá stejnou myšlenku.

Logit Boost používá aditivní logistickou regresi. Algoritmus lze urychlit přiřazením určitého prahu pro váhy. Klasifikátor více tříd používá čtyři různé metody klasifikace dvou tříd pro problémy více tříd. Threshold Selector, což je metavyučující, optimalizuje míru F výběrem prahu pravděpodobnosti na výstupu klasifikátorů.

Random forest a LMT jsou metody rozhodovacích stromů. Náhodný les vytváří náhodné stromy shromažďováním souborů náhodných stromů, kdežto LMT vytváří stromy logistického modelu a používá křížovou validaci k určení počtu iterací při fitování logistických regresních funkcí v každém uzlu. OneR (jedno pravidlo) sestavuje jednoúrovňový rozhodovací strom a učí se pravidlo z každého atributu a vybírá pravidlo s nejmenší chybovostí jako jedno pravidlo.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *