In dieser Arbeit, stellen wir einen integrierten Ansatz vor, der statistische Analyse und MILP-basierte Hyper-Boxes-Klassifizierungsmethode für die frühzeitige Vorhersage des Verhaltens von Arzneimitteln kombiniert, die auf Ache, BZR, COX-2, DHFR_TG, DHFR_RL, DHFR_PC und schließlich Cytochrom P450 C17 abzielen.
Der in dieser Arbeit verwendete Ansatz besteht aus fünf Hauptschritten. Im ersten Schritt werden die molekularen Strukturen der Arzneimittelkandidaten erstellt und mit Marvin Sketch optimiert. Anschließend werden die molekularen Deskriptoren dieser Wirkstoffkandidaten mithilfe des Webservers E-Dragon ermittelt. Der zweite Schritt besteht in der Erstellung eines Regressionsmodells mit PLS, das zur Auswahl der wichtigsten Deskriptoren führt. Anschließend werden die Arzneimittelkandidaten auf der Grundlage der signifikantesten Deskriptoren, die im vorherigen Schritt ermittelt wurden, mit Hilfe der MILP-basierten Hyperboxen-Methode klassifiziert. Diese primäre Klassifizierung kann zu einer relativ geringeren Klassifizierungsgenauigkeit führen, da einige unbedeutende Deskriptoren im Modell vorhanden sind; daher wird eine Signifikanztestanalyse durchgeführt, um die unbedeutenden Deskriptoren zu ermitteln, die unsere Klassifizierungsgenauigkeit im vierten Schritt beeinträchtigen könnten. Wenn es unbedeutende Deskriptoren im Modell gibt, ersetzen wir die unbedeutenden Deskriptoren durch bedeutsamere; dann kehren wir zum dritten Schritt zurück, wo wir die Drogenaktivitäten erneut mit dem neuen Modell klassifizieren, das wir in Schritt fünf erhalten haben. Nach den Signifikanztests, wenn alle Deskriptoren signifikant sind, erstellen wir unser Modell mit den signifikantesten Deskriptoren und geben die Klassifizierungsergebnisse an.
Wir verwenden einen iterativen Algorithmus, so dass einige der Schritte wiederholt werden können, wenn die Signifikanztests unbefriedigende Ergebnisse für die ausgewählten Deskriptoren eines bestimmten Modells liefern. Weniger aussagekräftige Deskriptoren werden bei jeder Iteration durch aussagekräftigere ersetzt, was sich auf die endgültige Klassifizierung der Drogen auswirkt und somit den Erfolg der Studie verbessert. Der Überblick über unsere Methode ist in Abbildung 1 dargestellt.
Datensätze
Wir haben unseren Algorithmus auf weithin bekannte, in der Literatur verfügbare QSAR-Datensätze angewendet. Dihydrofolat-Reduktase (DHFR), Acetylcholinesterase (AchE), Benzodiazepin-Rezeptor (BZR) und Cyclooxygenase-2 (COX-2) Inhibitor-Sets werden für die Klassifizierung verwendet. Außerdem stellen wir einen neuen Datensatz von Cytochrom P450 C17-Inhibitoren vor, die wir aus der Literatur abgeleitet und deren 3D-Strukturen berechnet haben.
Sieben Datensätze wurden zur Validierung unserer Methodik verwendet, indem wir den Algorithmus auf diese großen und bekannten Datensätze anwandten und unsere Klassifizierungsgenauigkeit auf diesen Datensätzen mit den anderen weit verbreiteten Klassifizierern verglichen, die im WEKA Data-Mining-Paket verfügbar sind. Repräsentative Verbindungen aus jedem Datensatz sind in Abbildung 2 dargestellt. Die experimentellen IC50-Werte für den Dihydrofolatreduktase (DHFR)-Inhibitorsatz wurden für das DHFR-Enzym aus drei verschiedenen Spezies berechnet und angegeben: P. carinii (PC), T. gondii (TG) und Rattenleber (RL), wobei sich die Aktivität der DHFR-Hemmer gegenüber den Enzymen der verschiedenen Arten unterscheidet. Daher werden in unserer Studie die Aktivitäten der DHFR-Inhibitoren gegenüber den Enzymen dieser drei Spezies getrennt untersucht. Für die DHFR von P. carinii wurde ein Satz von 397 Dihydrofolatreduktase-Hemmern (DHFR) mit IC50-Werten von 0,31 nM bis 3700 μM verwendet, für die DHFR von T. gondii ein Satz von 378 Hemmstoffen mit Werten von 0,88 nM bis 392 μM und für die DHFR der Rattenleber 397 Hemmstoffe mit Werten von 0,156 nM bis 7470 μM. Ein Satz von 111 Acetylcholinesterase (AchE)-Inhibitoren wurde mit experimentell berechneten IC50-Werten verwendet, die im Bereich von 0,3 nM bis 100 μM lagen. Der Datensatz der Benzodiazepinrezeptor (BZR)-Inhibitoren bestand aus 163 Inhibitoren, deren IC50-Werte experimentell zwischen 1,2 nM und 5 μM berechnet wurden. Die 322 Moleküle des Cyclooxygenase-2 (COX2)-Hemmstoffsatzes wurden so abgeleitet, dass die IC50-Werte von 1 nM bis 100 μM reichen. Die in dieser Studie verwendeten QSAR-Sets wurden auch in einer Vergleichsstudie von QSAR-Methoden von Sutherland et al. verwendet. Wir verglichen auch die R2-Werte unserer 3D-Deskriptormodelle, die durch die Minitab-PLS-Läufe in der ersten Phase unseres Algorithmus berechnet wurden, mit den von Sutherland et al. berichteten R2-Werten für mehrere PLS-Modelle auf denselben Datensätzen.
Strukturbildung und Gewinnung des Deskriptorenmodells
Wie oben beschrieben, besteht der erste Schritt unserer Studie darin, molekulare Deskriptoren für die Arzneimittelkandidaten zu finden. Daher wurde Marvin Sketch verwendet, um die molekularen Strukturen der einzelnen Wirkstoffkandidaten zu berechnen, indem ihre Struktur aufgebaut und ihre Energie durch Minimierung optimiert wird, um ihre Bestätigung im 3-D-Raum zu bestimmen. Anschließend werden die optimierten 3-D-Strukturen in E-Dragon geladen und die molekularen Deskriptoren mit Hilfe des Webservers berechnet.
E-Dragon schlägt viele Deskriptorenblöcke vor, von denen jeder Parameter enthält, die die Charakterisierung von Molekülen beschreiben, und die in dieser Studie verwendeten Deskriptoren können wie folgt aufgelistet werden: Konstitutionsdeskriptoren (48), topologische Deskriptoren (119), Konnektivitätsindizes (33), Informationsindizes (47), Kantenadjazenzindizes (107), topologische Ladungsindizes (21), geometrische Deskriptoren (74), 3D-MoRSE-Deskriptoren (160), Anzahl der funktionellen Gruppen (154), atomzentrierte Fragmente (120), molekulare Eigenschaften (29). Die Gesamtzahl der Deskriptoren, die bei der Erstellung unseres QSAR-Deskriptorenmodells berücksichtigt wurden, beträgt somit 912. PLS wurde für die Regressionsanalyse ausgewählt, weil die Anzahl der Instanzen viel kleiner ist als die Anzahl der Attribute (Deskriptoren), die mit MINITAB ermittelt werden. Wie bereits erwähnt, wird PLS häufig zur Entwicklung von QSAR-Modellen verwendet, indem die Anzahl der Attribute im Deskriptorensatz auf eine kleine Anzahl von Attributen reduziert wird, die mit der definierten Eigenschaft, die modelliert werden soll, korreliert sind, was in unserer Studie die experimentellen IC50-Werte sind.
Modellbildung mit PLS zur Auswahl der informativsten Deskriptoren
Der Hauptzweck der Regressionsanalyse besteht darin, das Modell zu bestimmen, das die Aktivität (IC50) der Arzneimittelkandidaten anhand der Deskriptoren vorhersagt. PLS kann als eine MLR-Methode bezeichnet werden, die eng mit der Hauptkomponentenregression verwandt ist. Grundsätzlich können wir durch die Durchführung einer PLS-Studie eine Reihe abhängiger Variablen Y auf der Grundlage einer Reihe unabhängiger Variablen X durch MINITAB vorhersagen, das uns die PLS-Läufe automatisch auf der Grundlage der von uns festgelegten Obergrenze für die Anzahl der signifikantesten Deskriptoren liefert. Jeder PLS-Lauf liefert ein lineares Modell der abhängigen Variablen (IC50-Werte) in Abhängigkeit von den unabhängigen Variablen (signifikanteste Deskriptoren). Zu diesem Zeitpunkt wird das entsprechende Modell erstellt und die signifikantesten Deskriptoren werden bestimmt. Der nächste Schritt wäre die erste Klassifizierung der Arzneimittel auf der Grundlage der Deskriptoren. Die Auswahl der signifikanten Deskriptoren bei den ersten PLS-Durchläufen ist möglicherweise nicht die effektivste für die Klassifizierung. Daher führen wir Signifikanztests für die ausgewählten Deskriptoren mit Hilfe der Regressionsanalyse durch, um die Klassifizierungsgenauigkeit zu erhöhen.
Klassifizierung von Arzneimittelkandidaten mit der MILP-basierten Hyperboxen-Methode
Der dritte Schritt ist der Klassifizierung von Arzneimitteln gewidmet; wir wenden die MILP-basierte Hyperboxen-Methode an, indem wir die ausgewählten Deskriptoren aus dem vorherigen Schritt verwenden.
Das Ziel bei Datenklassifizierungsproblemen ist es, Datenpunkte, die mit einer bestimmten Anzahl von Attributen beschrieben werden, in vordefinierte Klassen einzuordnen. The strength of hyper-boxes classification method is from its ability to use more than one hyper-box when defining a class as shown in Figure 3, and this ability prevents overlapping in the classes, which would not be prevented if the classes were defined with a single hyper-box only.
The data classification problem is solved in two steps: training step and testing step. Im Trainingsschritt werden die Grenzen der Klassen durch die Konstruktion von Hyperboxen gebildet, während im Testschritt die Wirksamkeit der konstruierten Klassen getestet wird.
Das MILP-Problem für die Klassifikation ist so konstruiert, dass die Zielfunktion die Minimierung der Fehlklassifikationen im Datensatz mit der minimalen Anzahl von Hyperboxen im Trainingsschritt ist. Die Minimierung der Anzahl der Hyperboxen, d.h. die Eliminierung der unnötigen Verwendung von Hyperboxen, wird durch die Bestrafung der Existenz einer Box mit einem kleinen Skalar in der Zielfunktion erzwungen. Im Trainingsteil werden die obere und untere Grenze jeder Hyperbox ebenfalls durch die in dieser Hyperbox eingeschlossenen Datenpunkte berechnet.
Im Testschritt werden die Datenpunkte den Klassen zugeordnet, indem der Abstand zwischen dem Datenpunkt und der jeweiligen Box berechnet und die Box bestimmt wird, die dem Datenpunkt am nächsten liegt. Schließlich werden die ursprünglichen und die zugewiesenen Klassen der Testdatenpunkte verglichen, und die Effektivität der Klassifizierung wird anhand der korrekt klassifizierten Instanzen ermittelt.
Die Lösung des vorgeschlagenen MILP-Problems bis zur Optimalität ist bei großen Datensätzen aufgrund der großen Anzahl binärer Variablen eine rechnerische Herausforderung. Daher wird eine dreistufige Dekompositionsmethode zur Erlangung optimaler Lösungen für große Datenklassifizierungsprobleme entwickelt. In der ersten Stufe, die wir als Vorverarbeitung bezeichnen, werden schwer zu klassifizierende Instanzen identifiziert. Darüber hinaus werden für jede Klasse Seeds bestimmt, um die Effizienz der Berechnung zu verbessern. Unter Berücksichtigung dieser Beobachtungen wird in der zweiten Phase mit dem modifizierten Modell eine Lösung des Problems erzielt. In der dritten Stufe werden schließlich endgültige Zuordnungen und Schnittmengeneliminierungen vorgenommen.
In dieser Arbeit wenden wir die oben beschriebene Methode bei der Klassifizierung der Aktivitäten von Arzneimittelmolekülen für die betrachteten Datensätze an. Bei der Auswahl der Trainings- und Testdatensätze führen wir eine 10-fache Kreuzvalidierung durch, bei der wir die Datensätze nach dem Zufallsprinzip in 10 Unterstichproben mit gleicher Anzahl von Mitgliedern aufteilen. Von diesen 10 Unterstichproben werden 9 kombiniert und als Trainingsmenge verwendet, und die verbleibende 1 Unterstichprobe wird als Testmenge verwendet. Dann wird die Klassifizierung 10 Mal durchgeführt, wobei jede der 10 Teilstichproben genau einmal als Testsatz verwendet wird. Schließlich wird die Genauigkeit der Klassifizierung als Durchschnitt dieser 10 Klassifizierungen angegeben.
Wir klassifizieren jeden der Arzneimittelkandidaten in der Testmenge als einen niedrigen oder hohen IC50-Wert. In dieser iterativen Studie wird dieser Klassifizierungsschritt mehrmals durchgeführt: zunächst mit dem ursprünglichen Satz von Deskriptoren, dann mit dem erweiterten Satz von Deskriptoren, die aus der Signifikanzanalyse abgeleitet wurden.
Signifikanzanalyse
Im vierten Schritt werden Signifikanztests durchgeführt. Nach den PLS-Durchläufen ist es möglich, dass ein Deskriptor als signifikant eingestuft wird, obwohl er es in Wirklichkeit nicht ist. Die Hauptidee hinter dem Signifikanztest ist die folgende: Wenn Z die gesamte Menge der Arzneimittelkandidaten ist, nehmen wir an, dass sie nach der Klassifizierung in zwei Klassen, A und B, unterteilt wird. Für eine erfolgreiche Klassifizierung sollten die Varianzen der Deskriptorwerte innerhalb der Klassen A und B kleiner sein als für die Gesamtpopulation Z.
Die unten in Gl. 2.1 angegebene Gleichung zeigt die F-Verteilung.
wobei, S i j 2 MathType@MTEF@5@5@+=feaagaart1ev2aqatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4uam1aa0baaSqaaiabdMgaPjabdQgaQbqaaiabikdaYaaaaaa@30DC@ ist die Stichprobenvarianz der Werte für den Deskriptor i für die Arzneimittelgruppe j, ν = n-1 und η = m-1 sind Freiheitsgrade, und n ist die Anzahl der Werte von Deskriptor i für die Arzneimittelgruppe j, und m ist die Anzahl der Werte von Deskriptor i für die Arzneimittelgruppe k.
Dann wird der Hypothesentest mit der Nullhypothese S i j 2 = S i k 2 durchgeführt. MathType@MTEF@5@5@+=feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4uam1aa0baaSqaaiabdMgaPjabdQgaQbqaaiabikdaYaaakiabg2da9iabdofatnaaDaaaleaacqWGPbqAcqWGRbWAaeaacqaIYaGmaaaaaa@36F3@ , was darauf schließen lässt, dass die Varianz der gesamten Gruppe von Arzneimittelkandidaten gleich der Varianz der Arzneimittel innerhalb derselben Klasse ist. Da die Varianz der gesamten Gruppe von Arzneimitteln größer sein sollte als die Varianz innerhalb der Klasse, definieren wir unsere Alternativhypothese wie folgt: H a = S i j 2 ≻ S i k 2 MathType@MTEF@5@5@+=feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemisaG0aaSbaaSqaaiabdggaHbqabaGccqGH9aqpcqWGtbWudaqhaaWcbaGaemyAaKMaemOAaOgabaGaeGOmaidaaOGaeS4EIyMaem4uam1aa0baaSqaaiabdMgaPjabdUgaRbqaaiabikdaYaaaaaa@3B21@ , wobei j ein Mitglied des gesamten Datensatzes und k ein Mitglied der Klasse ist. Beachten Sie, dass der p-Wert von fvη im aktuellen Modell kleiner sein sollte als der p-Wert von fvη im vorherigen Modell, um die Alternativhypothese zu akzeptieren.
Erstellung des neuen Klassifizierungsmodells
Dieser letzte Schritt wird durchgeführt, wenn wir zu dem Schluss kommen, dass die Deskriptoren im Modell während des vierten Schritts überschätzt wurden.
Daher werden insgesamt 3 Modelle durch Regressionsanalyse erstellt, indem 7, 10 bzw. 15 Deskriptoren als repräsentative Variablen für jedes Modell ausgewählt werden, und die Signifikanzanalyse wird auf alle Deskriptoren in diesen 3 Modellen angewendet. Wenn wir feststellen, dass eine Variable in einem dieser Modelle nicht signifikant ist, ersetzen wir sie durch die Variablen, die in den anderen Modellen signifikant sind. Diese Anpassung verbessert nachweislich unsere Klassifizierungsgenauigkeit. Beim Ersetzen der weniger signifikanten Deskriptoren werden die verbleibenden 880 Deskriptoren, die während der PLS-Analyse eliminiert wurden, ignoriert, da diese 7, 10 und 15 Attribute von der PLS-Regressionsanalyse ausgewählt wurden und nachweislich die IC50-Werte gut beschreiben. Der Hauptzweck der PLS-Regressionsstudie besteht in der Tat darin, die statistisch bedeutungslosen Merkmale zu eliminieren und uns den aussagekräftigsten Stichprobenraum für die weitere Arbeit zur Verfügung zu stellen.
Die mit unserer Methode erzielten Ergebnisse werden mit allen 63 in WEKA verfügbaren Klassifizierungsmethoden verglichen, und die 16 besten WEKA-Klassifizierer werden mit den von unserem Algorithmus erzielten Ergebnissen in Tabelle 3 mit der entsprechenden Klassifizierungsgenauigkeit aufgeführt. Die in den WEKA-Klassifikatoren verwendeten Attribute sind dieselben Deskriptoren, die nach den Signifikanztests gefunden wurden, und für jeden Klassifikator einschließlich unserer Klassifizierungsmethode wurde eine 10-fache Kreuzvalidierung durchgeführt.
WEKA ist ein leistungsfähiges Data-Mining-Tool, das für Vergleichszwecke verwendet werden kann, da es alle weithin bekannten Algorithmen des maschinellen Lernens unter seinen 63 Klassifikatoren enthält. Über den Erfolg dieser Algorithmen des maschinellen Lernens bei der binären Klassifizierung von aktiven und inaktiven Verbindungen auf der Grundlage ihrer Deskriptorwerte wurde bereits berichtet. Im Folgenden wird ein kurzer Überblick über die leistungsfähigsten in WEKA verfügbaren Datenklassifizierungsmethoden gegeben. Ein Bayes’sches NetzwerkB = <N, A, Φ > ist ein gerichteter azyklischer Graph <N, A> mit einer bedingten Wahrscheinlichkeitsverteilung, die jedem Knoten zugeordnet ist und gemeinsam durch Φ dargestellt wird. Jeder Knoten n ∈ N steht für ein Attribut des Datensatzes, und jeder Bogen a ∈ A zwischen den Knoten stellt eine probabilistische Abhängigkeit dar. Der Naive Bayes-Klassifikator geht davon aus, dass alle Variablen unabhängig voneinander sind, wobei der Klassifikationsknoten als übergeordneter Knoten aller anderen Knoten dargestellt wird. Naive Bayes Simple verwendet die Normalverteilung für die Modellierung der Attribute und behandelt numerische Attribute unter Verwendung von überwachter Diskretisierung, während Naive Bayes Updateable eine inkrementelle Version ist, die eine Instanz nach der anderen verarbeitet und einen Kernel-Schätzer anstelle der Diskretisierung verwendet.
Der Logistic Classifier erstellt ein logistisches Zwei-Klassen-Regressionsmodell. Es handelt sich um ein statistisches Regressionsmodell, bei dem die logistische Regression davon ausgeht, dass das Log-Likelihood-Verhältnis der Klassenverteilungen in den Beobachtungen linear ist. Der einfache logistische Klassifikator erstellt lineare logistische Regressionsmodelle auf der Grundlage eines einzigen Attributs. Das Modell ist ein verallgemeinertes Modell des gewöhnlichen Kleinstquadrat-Regressionsmodells. Das mehrschichtige Perzeptron ist ein neuronales Netzwerk, das Backpropagation verwendet. Das Perzeptron, das ein Verarbeitungselement ist, berechnet eine einzige Ausgabe, eine nichtlineare Aktivierungsfunktion einer linearen Kombination mehrerer Eingaben, deren Parameter in der Trainingsphase gelernt werden. SMO (sequentielle minimale Optimierung), auch WEKA SVM (Support Vector Machine) genannt, ist eine Methode zum Trainieren eines Support-Vektor-Klassifikators unter Verwendung von Polynomkernen, indem ein großes Optimierungsproblem der quadratischen Programmierung in kleinere QP-Optimierungsprobleme zerlegt wird.
IB1 wird als fauler Klassifikator aufgeführt, in dem Sinne, dass er die Trainingsinstanzen speichert und bis zum Zeitpunkt der Klassifizierung keine wirkliche Arbeit leistet. IB1 ist ein instanzbasierter Lerner. Er findet die Trainingsinstanz, die im euklidischen Abstand am nächsten zur gegebenen Testinstanz liegt. IBk ist ein k-nearest-neighbor-Klassifikator, der das gleiche Konzept verwendet.
Logit Boost verwendet die additive logistische Regression. Der Algorithmus kann durch die Zuweisung eines bestimmten Schwellenwerts für die Gewichte beschleunigt werden. Multi Class Classifier verwendet vier verschiedene Zwei-Klassen-Klassifizierungsmethoden für Mehrklassenprobleme. Der Threshold Selector, ein Meta-Learner, optimiert das F-Maß durch die Auswahl eines Wahrscheinlichkeitsschwellenwerts für die Klassifiziererausgabe.
Random Forest und LMT sind Entscheidungsbaummethoden. Random Forest erzeugt Zufallsbäume durch das Sammeln von Ensembles von Zufallsbäumen, während LMT logistische Modellbäume aufbaut und die Kreuzvalidierung verwendet, um die Anzahl der Iterationen bei der Anpassung der logistischen Regressionsfunktionen an jedem Knoten zu bestimmen. OneR (one rule) erstellt einen einstufigen Entscheidungsbaum und lernt eine Regel aus jedem Attribut und wählt die Regel mit der kleinsten Fehlerrate als die eine Regel aus.