Ez a cikk, egy integrált megközelítést mutatunk be, amely a statisztikai elemzést és a MILP-alapú hiper-boxok osztályozási módszert kombinálja az Ache, BZR, COX-2, DHFR_TG, DHFR_RL, DHFR_PC és végül a Cytochrome P450 C17 célpontokat célzó gyógyszerek viselkedésének korai előrejelzésére.
A jelen tanulmányban alkalmazott megközelítés öt fő lépésből áll. Az első lépésben a gyógyszerjelöltek molekulaszerkezetét a Marvin Sketch segítségével építjük fel és optimalizáljuk. Ezután ezeknek a gyógyszerjelölteknek a molekuláris leíróit az E-Dragon webszerver segítségével kapjuk meg. A második lépés a PLS segítségével történő regressziós modell felépítéséből áll, amely a legjelentősebb leírók kiválasztását eredményezi. Ezután a gyógyszerjelölteket az előző lépésben kapott legjelentősebb leírók alapján, MILP-alapú hiperdobozos módszerrel osztályozzuk. Ez az elsődleges osztályozás viszonylag alacsonyabb osztályozási pontosságot eredményezhet, mivel a modellben néhány jelentéktelen leíró létezik; ezért szignifikanciateszt-elemzést végzünk annak érdekében, hogy meghatározzuk azokat a jelentéktelen leírókat, amelyek a negyedik lépésben zavarhatják az osztályozási pontosságunkat. Ha vannak jelentéktelen leírók a modellben, akkor a jelentéktelen leírókat jelentősebbekkel helyettesítjük; ezután visszatérünk a harmadik lépéshez, ahol az ötödik lépésben kapott új modellel újra osztályozzuk a gyógyszeraktivitásokat. A szignifikancia-tesztek után, ha minden leíró szignifikáns, akkor a legjelentősebbekből építjük fel a modellünket, és közöljük az osztályozási eredményeket.
Egy iteratív algoritmust használunk, így egyes lépések megismételhetők, ha a szignifikancia-tesztek nem adnak kielégítő eredményt egy adott modell kiválasztott leíróira. A kevésbé jelentős leírókat minden egyes iterációnál a gyógyszerek végső osztályozását befolyásoló jelentősebbekkel helyettesítjük, így javítva a vizsgálat sikerességét. Módszerünk vázlata az 1. ábrán látható.
Adatkészletek
Algoritmusunkat az irodalomban elérhető, széles körben ismert QSAR-adatkészletekre alkalmaztuk. A dihidrofolát reduktáz (DHFR), acetilkolinészteráz (AchE), benzodiazepin receptor (BZR) és ciklooxigenáz-2 (COX-2) inhibitor készleteket használtuk az osztályozáshoz. Bemutatunk egy új, a citokróm P450 C17 inhibitorokat tartalmazó adathalmazt is, amelyet az irodalomból származtattunk, és kiszámítottuk a 3D szerkezetüket.
Módszerünk validálásához hét adathalmazt használtunk, az algoritmust ezekre a nagy és ismert adathalmazokra alkalmazva, és összehasonlítva az osztályozási pontosságunkat ezeken az adathalmazokon a WEKA adatbányászati csomagban elérhető más, széles körben használt osztályozókkal. Az egyes adathalmazok reprezentatív vegyületei a 2. ábrán láthatók. A dihidrofolát-reduktáz (DHFR) inhibitorhalmaz kísérleti IC50-értékeit három különböző fajból származó DHFR enzimre számoltuk ki és közöltük: P. carinii (PC), T. gondii (TG) és patkánymáj (RL) esetében, ahol a DHFR-inhibitorok aktivitása a különböző fajokból származó enzimekre eltérő. Ezért a DHFR-inhibitorok e három fajból származó enzimekkel szembeni aktivitását a DHFR-inhibitorok esetében tanulmányunkban külön-külön vizsgáljuk. A P. carinii DHFR esetében 397 dihidrofolát-reduktáz (DHFR) gátlót használtunk, amelyek IC50 értékei 0,31 nM és 3700 μM között voltak, a T. gondii DHFR esetében 378 gátlót használtunk, amelyek értékei 0,88 nM és 392 μM között voltak, a patkánymáj DHFR esetében pedig 397 gátlót használtunk, amelyek értékei 0,156 nM és 7470 μM között voltak. 111 acetilkolinészteráz (AchE) gátlót alkalmaztak kísérleti úton számított IC50 értékekkel, amelyekről a 0,3 nM és 100 μM közötti tartományban számoltak be. A benzodiazepinreceptor (BZR) inhibitorok adatsora 163 inhibitorból állt, amelyek IC50 értékeit kísérleti úton számítottuk ki 1,2 nM és 5 μM között. A ciklooxigenáz-2 (COX2) gátló 322 molekula adathalmazát úgy származtatták, hogy az IC50 értékek 1 nM-től 100 μM-ig terjedtek . Az ebben a vizsgálatban használt QSAR-készleteket Sutherland et al. is felhasználta a QSAR-módszerek összehasonlító vizsgálatában. 3D-s leíró modelljeink R2 értékeit, amelyeket algoritmusunk első fázisában a Minitab PLS-futtatásaiból számítottunk, szintén összehasonlítottuk a Sutherland et al. által közölt R2 értékekkel több PLS-modell esetében ugyanazon adatkészleteken.
Szerkezetépítés és a leíró modell megszerzése
Mint fentebb vázoltuk, vizsgálatunkban az első lépés a gyógyszerjelöltek molekuláris leíróinak megtalálása. Ezért a Marvin Sketch-et használtuk az egyes gyógyszerjelöltek molekulaszerkezetének kiszámításához, amelyet a szerkezetük felépítésével és az energiájuk minimalizálásával történő optimalizálásával kell felépíteni, hogy meghatározzuk a 3-D térben való megerősítésüket. Ezután az optimalizált 3-D struktúrákat betöltjük az E-Dragonba, és a molekuláris leírókat a webszerver segítségével számoljuk ki.
Az E-Dragon számos deszkriptorblokkot javasol, amelyek mindegyike a molekulák jellemzését leíró paramétereket tartalmaz, és az ebben a tanulmányban használtakat a következőkben lehet felsorolni: Konstitúciós deszkriptorok (48), topológiai deszkriptorok (119), konnektivitási indexek (33), információs indexek (47), él szomszédsági indexek (107), topológiai töltésindexek (21), geometriai deszkriptorok (74), 3D-MoRSE deszkriptorok (160), funkciós csoportok száma (154), atomközpontú fragmentumok (120), molekuláris tulajdonságok (29). Így a QSAR-deszkriptormodellünk felépítése során figyelembe vett deszkriptorok száma összesen 912. A regresszióelemzéshez a PLS-t választottuk, mivel a MINITAB használatával az instanciák száma sokkal kisebb, mint az attribútumok (deszkriptorok) száma. Mint korábban említettük, a PLS-t széles körben használják QSAR-modellek fejlesztésére azáltal, hogy a deszkriptorhalmaz attribútumainak számát a modellezendő meghatározott tulajdonsággal – a mi vizsgálatunkban a kísérleti IC50-értékekkel – korreláló kis számú attribútumra csökkentik.
Modellépítés PLS-szel a leginformatívabb deszkriptorok kiválasztására
A regressziós elemzés fő célja annak a modellnek a meghatározása, amely a gyógyszerjelöltek aktivitását (IC50) a deszkriptorok alapján jósolja meg. A PLS a főkomponens-regresszióval szorosan rokon MLR-módszerként említhető. Alapvetően a PLS-vizsgálat elvégzésével a MINITAB segítségével megjósolhatunk egy Y függő változóhalmazt az X független változók halmaza alapján, amely automatikusan megadta a PLS-futásokat a legjelentősebb deszkriptorok számának általunk meghatározott felső határa alapján. Minden egyes PLS-futtatás a függő változó (IC50 értékek) lineáris modelljét adja a független változók (legjelentősebb leírók) függvényében. Ekkor felépül a megfelelő modell, és meghatározásra kerülnek a legjelentősebb leírók. A következő lépés a gyógyszerek kezdeti osztályozása lenne a leírók alapján. Az első PLS-futtatások által kiválasztott szignifikáns leírók nem feltétlenül a leghatékonyabbak az osztályozásban. Ezért a kiválasztott deszkriptorokon regresszióelemzéssel szignifikanciateszteket végzünk, hogy növeljük az osztályozási pontosságot.
A gyógyszerjelöltek osztályozása MILP alapú hiperdoboz módszerrel
A harmadik lépés a gyógyszerek osztályozásával foglalkozik; a MILP alapú hiperdoboz módszert alkalmazzuk az előző lépésben kiválasztott deszkriptorok felhasználásával.
Az adatok osztályozási problémáiban az a cél, hogy a bizonyos számú attribútummal leírt adatpontokat előre meghatározott osztályokba soroljuk. The strength of hyper-boxes classification method is from its ability to use more than one hyper-box when defining a class as shown in Figure 3, and this ability prevents overlapping in the classes, which would not be prevented if the classes were defined with a single hyper-box only.
The data classification problem is solved in two steps: training step and testing step. A képzési lépésben az osztályok határait hiperdobozok konstruálásával alakítjuk ki, míg a tesztelési lépésben a konstruált osztályok hatékonyságát teszteljük.
Az osztályozás MILP-problémáját úgy konstruáljuk, hogy a célfüggvény az adathalmazban a hibás osztályozások minimalizálása a képzési lépésben a hiperdobozok minimális számával. A hiperdobozok számának minimalizálását, azaz a hiperdobozok felesleges használatának kiküszöbölését úgy kényszerítjük ki, hogy a célfüggvényben kis skalárral büntetjük a doboz létezését. A képzési részben az egyes hiperdobozok felső és alsó határát is az adott hiperdobozba zárt adatpontok számítják ki.
A tesztelési lépésben az adatpontok osztályokhoz rendelése az adatpont és az egyes dobozok közötti távolság kiszámításával és az adatponthoz legközelebb eső doboz meghatározásával történik. Végül a tesztelési adatpontok eredeti és hozzárendelt osztályait összehasonlítjuk, és a helyesen osztályozott példányok segítségével megkapjuk az osztályozás hatékonyságát.
A javasolt MILP-probléma optimális megoldása a bináris változók nagy száma miatt nagy adathalmazok esetén számítási kihívást jelent. Ezért egy háromlépcsős dekompozíciós módszert dolgozunk ki a nagyméretű adatok osztályozási problémáinak optimális megoldására. A nehezen osztályozható példányokat az első szakaszban azonosítjuk, amelyet előfeldolgozásnak nevezünk. Ezenkívül minden egyes osztályhoz magokat határozunk meg a számítási hatékonyság javítása érdekében. Ezekre a megfigyelésekre nagyobb hangsúlyt fektetve a második szakaszban a módosított modellel kapunk megoldást a problémára. Végül a harmadik lépésben a végső hozzárendeléseket és a metszéspontok kiküszöbölését végezzük el.
A jelen dolgozatban ezt a fent leírt módszert alkalmazzuk a gyógyszermolekulák aktivitásának osztályozására a vizsgált adathalmazok esetében. A gyakorló- és tesztkészletek kiválasztása során 10-szeres keresztvalidálást végzünk, ahol az adathalmazokat véletlenszerűen 10 egyenlő számú tagú almintára osztjuk fel. Ebből a 10 almintából 9-et egyesítünk és használunk képzési halmazként, a fennmaradó 1 almintát pedig teszthalmazként használjuk. Ezután az osztályozást 10 alkalommal végezzük el úgy, hogy a 10 alminta mindegyikét pontosan egyszer használjuk tesztkészletként. Végül az osztályozás pontosságát e 10 osztályozás átlagaként adjuk meg.
A tesztkészletben lévő gyógyszerjelöltek mindegyikét alacsony vagy magas IC50-értékkel rendelkezőnek osztályozzuk. Ebben az iteratív vizsgálatban ezt az osztályozási lépést többször végezzük el: először a leírók kezdeti készletével, majd a szignifikanciaelemzésből származó, kibővített leírókészlettel.
Szignifikanciaelemzés
A negyedik lépésben szignifikanciateszteket végzünk. A PLS-futtatások után lehetséges, hogy egy leíróból szignifikánsnak következtetünk, miközben a valóságban nem az, és ezt a problémát úgy oldjuk meg, hogy az elsődleges osztályozás után szignifikancia-teszteket végzünk. A szignifikancia teszt alapgondolata a következő: Ha Z a gyógyszerjelöltek teljes halmaza, tegyük fel, hogy az osztályozás után két osztályra oszlik, A-ra és B-re. A sikeres osztályozáshoz a leíró értékek varianciájának kisebbnek kell lennie az A és B osztályon belül, mint a teljes populáció, Z esetében.
A 2.1. egyenletben megadott egyenlet az F-eloszlást mutatja.
hol, S i j 2 MathType@MTEF@5@5@+=feaagaart1ev2aqatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4uam1aa0baaSqaaiabdMgaPjabdQgaQbqaaiabikdaYaaaaaa@30DC@ az i leíró értékeinek mintavételi szórása a j hatóanyag-készlet esetében, ν = n-1 és η = m-1 a szabadságfokok, és n az i leíró értékeinek száma a j hatóanyagkészlethez, m pedig az i leíró értékeinek száma a k hatóanyagkészlethez.
Ezután a hipotézisvizsgálatot az S i j 2 = S i k 2 nullhipotézissel végezzük. MathType@MTEF@5@5@+=feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4uam1aa0baaSqaaiabdMgaPjabdQgaQbqaaiabikdaYaaakiabg2da9iabdofatnaaDaaaleaacqWGPbqAcqWGRbWAaeaacqaIYaGmaaaaaa@36F3@ , ami arra utal, hogy a gyógyszerjelöltek teljes halmazának varianciája megegyezik az azonos osztályba tartozó gyógyszerek varianciájával. Mivel a gyógyszerek teljes halmazának varianciája nagyobb kell, hogy legyen, mint az osztályon belüli variancia, alternatív hipotézisünket a következőképpen határozzuk meg: H a = S i j 2 ≻ S i k 2 MathType@MTEF@5@5@+=feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemisaG0aaSbaaSqaaiabdggaHbqabaGccqGH9aqpcqWGtbWudaqhaaWcbaGaemyAaKMaemOAaOgabaGaeGOmaidaaOGaeS4EIyMaem4uam1aa0baaSqaaiabdMgaPjabdUgaRbqaaiabikdaYaaaaaa@3B21@ , ahol j a teljes adathalmaz egy tagja, k pedig az osztály egy tagja. Megjegyezzük, hogy az fvη p-értékének a jelenlegi modellben kisebbnek kell lennie, mint az fvη p-értékének az előző modellben, hogy elfogadjuk az alternatív hipotézist.
Az új osztályozási modell felépítése
Ezt az utolsó lépést akkor végezzük el, ha a negyedik lépés során arra a következtetésre jutunk, hogy a modellben túlbecsült leírók vannak.
Ezért regresszióelemzéssel összesen 3 modellt készítünk, kiválasztva 7, 10 és 15 leírót, mint az egyes modellek reprezentatív változóit, és a szignifikanciaelemzést e 3 modell összes leírójára alkalmazzuk. Ha valamelyik modellben egy nem szignifikáns változó létezésére következtetünk, akkor azokat a többi modellben szignifikáns változókkal helyettesítjük. Ez a kiigazítás bizonyítottan javítja az osztályozási pontosságunkat. Amikor a kevésbé szignifikánsakat helyettesítjük, a PLS-elemzés során kieső maradék 880 leírót figyelmen kívül hagyjuk, mivel ezt a 7, 10 és 15 attribútumot a PLS-regressziós elemzés választotta ki, és bizonyítottan erősek az IC50-értékek leírásában. A PLS-regressziós vizsgálat fő célja valójában a statisztikailag értelmetlen jellemzők kiküszöbölése, és a további munkához a legértelmesebb mintateret biztosítja számunkra.
A módszerünk által kapott eredményeket összehasonlítjuk a WEKA-ban elérhető mind a 63 osztályozási módszerrel, és a 16 legjobb WEKA osztályozót az algoritmusunk által kapott eredményekkel együtt a 3. táblázatban közöljük, a megfelelő osztályozási pontossággal. A WEKA osztályozókban használt attribútumok ugyanazok a leírók, amelyeket a szignifikanciatesztek után találtunk, és minden osztályozóra, beleértve a mi osztályozási módszerünket is, 10-szeres keresztvalidálást alkalmaztunk.
A WEKA egy hatékony adatbányászati eszköz, amelyet összehasonlítási célokra használhatunk, mivel 63 osztályozója között az összes széles körben ismert gépi tanuló algoritmust tartalmazza. Ezeknek a létező gépi tanulási algoritmusoknak a sikeréről az aktív és inaktív vegyületek bináris osztályozásában a leíró értékeik alapján korábban szintén beszámoltunk. Az alábbiakban röviden áttekintjük a WEKA-ban elérhető, legjobban teljesítő adatosztályozó módszereket. Egy Bayes-hálózatB = N, A, Φ > egy irányított aciklikus gráf N, A>, amelynek minden csomópontjához feltételes valószínűségi eloszlás tartozik, amelyet együttesen Φ jelképez. Minden n ∈ N csomópont egy adathalmaz-attribútumot, a csomópontok közötti minden a ∈ A ív pedig egy valószínűségi függőséget képvisel. A Naive Bayes osztályozó feltételezi, hogy az összes változó független egymástól, ahol az osztályozó csomópont az összes többi csomópont szülő csomópontjaként jelenik meg. A Naive Bayes Simple a normál eloszlást használja az attribútumok modellezésére, és a numerikus attribútumokat felügyelt diszkretizációval kezeli, míg a Naive Bayes Updateable egy inkrementális változat, amely egyszerre egy példányt dolgoz fel, és diszkretizáció helyett kernelbecslőt használ.
A Logistic osztályozó egy kétosztályos logisztikus regressziós modellt épít. Ez egy statisztikai regressziós modell, ahol a logisztikus regresszió feltételezi, hogy az osztályeloszlások log valószínűségi aránya lineáris a megfigyelésekben. Az Egyszerű logisztikus osztályozó egyetlen attribútum alapján épít lineáris logisztikus regressziós modelleket. A modell a közönséges legkisebb négyzetek regressziós modelljének általánosított modellje. A többrétegű perceptron egy olyan neurális hálózat, amely visszaterjedést használ. A perceptron, amely egy feldolgozó elem, egyetlen kimenetet, több bemenet lineáris kombinációjának nemlineáris aktiválási függvényét számítja ki, amelynek paramétereit a képzési fázisban tanulják meg. Az SMO (sequential minimal optimization), más néven WEKA SVM (support vector machine) egy olyan módszer, amellyel polinomiális kerneleket használó support vektor osztályozót képezhetünk ki úgy, hogy egy nagy kvadratikus programozási optimalizációs problémát kisebb QP optimalizációs problémákra bontunk.
Az IB1 lusta osztályozóként szerepel, abban az értelemben, hogy tárolja a képzési példányokat, és az osztályozásig nem végez valódi munkát. Az IB1 egy példányalapú tanuló. Megkeresi az adott tesztpéldányhoz euklideszi távolságban legközelebb eső tréningpéldányt. Az IBk egy k legközelebbi szomszédos osztályozó, amely ugyanezt az ötletet használja.
A Logit Boost additív logisztikus regressziót használ. Az algoritmus gyorsítható a súlyok meghatározott küszöbértékének hozzárendelésével. A Multi Class Classifier négy különböző kétosztályos osztályozási módszert használ többosztályos problémákra. A Threshold Selector, amely egy meta tanuló optimalizálja az F-mérést az osztályozó kimenetére vonatkozó valószínűségi küszöbérték kiválasztásával.
A Random Forest és az LMT döntési fa módszerek. A Random Forest véletlen fákat generál véletlen fák együtteseinek összegyűjtésével, míg az LMT logisztikus modellfákat épít, és keresztérvényesítést használ az iterációk számának meghatározására, miközben a logisztikus regressziós függvényeket illeszti az egyes csomópontokban. A OneR (egy szabály) egyszintű döntési fát épít, és minden egyes attribútumból tanul egy szabályt, és a legkisebb hibaaránnyal rendelkező szabályt választja ki egyetlen szabályként.