Classification des molécules de médicaments en fonction de leurs valeurs IC 50 à l'aide de la méthode hyper-boxes basée sur la programmation linéaire en nombres entiers mixtes | BMC Bioinformatics

Dans cet article, nous présentons une approche intégrée combinant l’analyse statistique et la méthode de classification hyper-boxes basée sur MILP pour la prédiction précoce du comportement des médicaments ciblant Ache, BZR, COX-2, DHFR_TG, DHFR_RL, DHFR_PC, et enfin Cytochrome P450 C17.

L’approche utilisée dans cet article est composée de cinq étapes principales. Dans la première étape, les structures moléculaires des candidats médicaments est construit et optimisé le par Marvin Sketch. Ensuite, les descripteurs moléculaires de ces candidats médicaments sont obtenus en utilisant le serveur web E-Dragon . La deuxième étape consiste à construire le modèle de régression en utilisant PLS, ce qui permettra de sélectionner les descripteurs les plus significatifs. Ensuite, les médicaments candidats sont classés sur la base des descripteurs les plus significatifs obtenus à l’étape précédente, en utilisant la méthode des hyperboxes basée sur MILP. Cette classification primaire peut donner lieu à une précision de classification relativement faible en raison de l’existence de quelques descripteurs non significatifs dans le modèle ; par conséquent, une analyse de test de signification est effectuée afin de déterminer les descripteurs non significatifs qui pourraient interférer avec notre précision de classification dans la quatrième étape. S’il y a des descripteurs non significatifs dans le modèle, nous les remplaçons par des descripteurs plus significatifs, puis nous revenons à la troisième étape où nous classons à nouveau les activités liées aux médicaments avec le nouveau modèle obtenu à la cinquième étape. Après les tests de signification, si tous les descripteurs sont significatifs, nous construisons notre modèle avec les plus significatifs, et nous rapportons les résultats de la classification.

Nous utilisons un algorithme itératif tel que, certaines des étapes peuvent être répétées lorsque les tests de signification donnent des résultats insatisfaisants pour les descripteurs sélectionnés d’un modèle particulier. Les descripteurs moins significatifs sont remplacés par des descripteurs plus significatifs affectant la classification finale des médicaments à chaque itération, améliorant ainsi le succès de l’étude. Le schéma de notre méthode est donné dans la figure 1.

Ensembles de données
Construction de la structure et obtention du modèle de descripteur
Construction du modèle avec PLS pour la sélection des descripteurs les plus informatifs
Classification des candidats médicaments avec la méthode des hyper-boxes basée sur MILP
Analyse de signification
Construction du nouveau modèle de classification

Ensembles de données

Nous avons appliqué notre algorithme à des ensembles de données QSAR largement connus et disponibles dans la littérature. Les ensembles d’inhibiteurs de la dihydrofolate réductase (DHFR), de l’acétylcholinestérase (AchE), des récepteurs des benzodiazépines (BZR) et de la cyclo-oxygénase-2 (COX-2) sont utilisés pour la classification. Nous présentons également un nouvel ensemble de données d’inhibiteurs du cytochrome P450 C17, que nous avons dérivé de la littérature et dont nous avons calculé les structures 3D.

Sept ensembles de données ont été utilisés pour la validation de notre méthodologie en appliquant l’algorithme sur ces grands ensembles de données connus et en comparant notre précision de classification sur ces ensembles de données avec les autres classificateurs largement utilisés disponibles dans le package d’exploration de données WEKA. Des composés représentatifs de chaque ensemble de données sont présentés à la figure 2. Les valeurs expérimentales de la CI50 pour l’ensemble des inhibiteurs de la dihydrofolate réductase (DHFR) ont été calculées et rapportées pour l’enzyme DHFR de trois espèces différentes : P. carinii (PC), T. gondii (TG) et le foie de rat (RL), où l’activité des inhibiteurs de la DHFR sur les enzymes de différentes espèces diffère. Par conséquent, les activités des inhibiteurs de la DHFR sur les enzymes de ces trois espèces sont étudiées séparément dans notre étude. Un ensemble de 397 inhibiteurs de la dihydrofolate réductase (DHFR) a été utilisé pour la DHFR de P. carinii avec des valeurs de CI50 allant de 0,31 nM à 3700 μM, un ensemble de 378 inhibiteurs a été utilisé pour la DHFR de T. gondii avec des valeurs allant de 0,88 nM à 392 μM et 397 inhibiteurs ont été utilisés pour la DHFR du foie de rat avec des valeurs allant de 0,156 nM à 7470 μM. Un ensemble de 111 inhibiteurs de l’acétylcholinestérase (AchE) a été utilisé avec des valeurs de CI50 calculées expérimentalement, rapportées par dans la gamme de 0,3 nM à 100 μM . L’ensemble de données des inhibiteurs des récepteurs des benzodiazépines (BZR) était composé de 163 inhibiteurs, dont les valeurs de la CI50 ont été calculées expérimentalement de 1,2 nM à 5 μM. Les 322 molécules de l’ensemble d’inhibiteurs de la cyclooxygénase-2 (COX2) ont été dérivées de telle sorte que les valeurs de la CI50 s’étendent de 1 nM à 100 μM . Les ensembles QSAR utilisés dans cette étude ont également été utilisés dans une étude comparative des méthodes QSAR par Sutherland et al. Nous avons également comparé les valeurs R2 de nos modèles de descripteurs 3D, qui ont été calculés par les exécutions PLS de Minitab dans la première phase de notre algorithme, avec les valeurs R2 rapportées par Sutherland et al pour plusieurs modèles PLS sur les mêmes ensembles de données.

Construction de la structure et obtention du modèle de descripteur

Comme indiqué ci-dessus, dans notre étude, la première étape consiste à trouver des descripteurs moléculaires pour les candidats médicaments. Par conséquent, Marvin Sketch a été utilisé pour calculer les structures moléculaires de chaque candidat médicament doit être construit en construisant leur structure et optimiser leur énergie par minimisation pour déterminer leur confirmation dans l’espace 3D. Ensuite, les structures 3-D optimisées sont chargées dans E-Dragon et les descripteurs moléculaires sont calculés en utilisant le serveur web.

E-Dragon suggère de nombreux blocs de descripteurs, dont chacun contient des paramètres qui décrivent la caractérisation des molécules, et ceux qui sont utilisés dans cette étude peuvent être énumérés comme suit : descripteurs constitutionnels (48), descripteurs topologiques (119), indices de connectivité (33), indices d’information (47), indices d’adjacence des arêtes (107), indices de charge topologique (21), descripteurs géométriques (74), descripteurs 3D-MoRSE (160), dénombrement des groupes fonctionnels (154), fragments centrés sur les atomes (120), propriétés moléculaires (29). Par conséquent, le nombre total de descripteurs pris en compte est de 912 lors de la construction de notre modèle de descripteurs QSAR. PLS est choisi pour l’analyse de régression parce que le nombre d’instances est beaucoup plus petit que le nombre d’attributs (descripteurs) en utilisant MINITAB. Comme nous l’avons mentionné précédemment, PLS est largement utilisé pour développer des modèles QSAR en réduisant le nombre d’attributs dans l’ensemble des descripteurs à un petit nombre d’attributs corrélés avec la propriété définie modélisée, qui est les valeurs expérimentales IC50 dans notre étude.

Construction du modèle avec PLS pour la sélection des descripteurs les plus informatifs

Le but principal de l’analyse de régression est de déterminer le modèle qui prédit l’activité (IC50) des candidats médicaments en fonction des descripteurs. La PLS peut être considérée comme une méthode MLR étroitement liée à la régression en composantes principales. Fondamentalement, en effectuant une étude PLS, nous pouvons prédire un ensemble de variables dépendantes Y sur la base d’un ensemble de variables indépendantes X par MINITAB, qui nous a donné les exécutions PLS automatiquement en fonction de la limite supérieure que nous avons déterminée sur le nombre de descripteurs les plus significatifs. Chaque exécution PLS fournit un modèle linéaire de la variable dépendante (valeurs IC50) par rapport aux variables indépendantes (descripteurs les plus significatifs). À ce stade, le modèle pertinent est construit et les descripteurs les plus significatifs sont déterminés. L’étape suivante sera la classification initiale des médicaments sur la base des descripteurs. Le choix des descripteurs significatifs par les premiers passages PLS peut ne pas être le plus efficace pour la classification. Par conséquent, nous effectuons des tests de signification sur les descripteurs sélectionnés par l’analyse de régression pour augmenter les précisions de classification.

Classification des candidats médicaments avec la méthode des hyper-boxes basée sur MILP

La troisième étape est consacrée à la classification des médicaments ; nous appliquons la méthode des hyper-boxes basée sur MILP en utilisant les descripteurs sélectionnés lors de l’étape précédente.

L’objectif dans les problèmes de classification de données est d’affecter les points de données, qui sont décrits avec un certain nombre d’attributs, dans des classes prédéfinies. The strength of hyper-boxes classification method is from its ability to use more than one hyper-box when defining a class as shown in Figure 3, and this ability prevents overlapping in the classes, which would not be prevented if the classes were defined with a single hyper-box only.

The data classification problem is solved in two steps: training step and testing step. Dans l’étape de formation, les frontières des classes sont formées par la construction d’hyper-boxes, tandis que l’efficacité des classes construites est testée dans l’étape de test.

Le problème MILP pour la classification est construit de telle sorte que la fonction objective est la minimisation des erreurs de classification dans l’ensemble de données avec le nombre minimum d’hyper-boxes dans l’étape de formation. La minimisation du nombre d’hyper-boîtes, c’est-à-dire l’élimination de l’utilisation inutile d’hyper-boîtes, est appliquée en pénalisant l’existence d’une boîte avec un petit scalaire dans la fonction objectif. Dans la partie formation, la limite supérieure et inférieure de chaque hyper-boxe également calculée par les points de données enfermés dans cette hyper-boxe.

Dans l’étape de test, les points de données sont assignés à des classes en calculant la distance entre le point de données à la chaque boîte, et en déterminant la boîte qui est la plus proche du point de données. Enfin, les classes originales et assignées des points de données de test sont comparées et l’efficacité de la classification est obtenue au moyen d’instances correctement classées.

La résolution du problème MILP proposé jusqu’à l’optimalité est un défi informatique pour les grands ensembles de données en raison du grand nombre de variables binaires. Par conséquent, une méthode de décomposition en trois étapes pour obtenir des solutions optimales des problèmes de classification de grandes données est développée. Les instances qui sont difficiles à classer sont identifiées dans la première étape que nous appelons le prétraitement. De plus, des graines sont déterminées pour chaque classe afin d’améliorer l’efficacité du calcul. En accordant plus d’importance à ces observations, une solution au problème est obtenue dans la deuxième étape avec le modèle modifié. Enfin, les affectations finales et les éliminations d’intersection sont effectuées dans la troisième étape.

Dans cet article, nous appliquons cette méthode décrite ci-dessus dans la classification des activités des molécules de médicaments pour les ensembles de données considérés. Nous effectuons une validation croisée 10 fois tout en choisissant les ensembles de formation et de test, où nous partitionnons les ensembles de données de manière aléatoire en 10 sous-échantillons avec un nombre égal de membres. Parmi ces 10 sous-échantillons, 9 sont combinés et utilisés comme ensemble d’apprentissage, et le sous-échantillon restant est utilisé comme ensemble de test. La classification est ensuite effectuée 10 fois, chacun des 10 sous-échantillons étant utilisé exactement une fois comme ensemble de test. Enfin, la précision de la classification est rapportée comme la moyenne de ces 10 classifications.

Nous classons chacun des candidats médicaments dans l’ensemble de test comme ayant une valeur IC50 faible ou élevée. Dans cette étude itérative, cette étape de classification est réalisée plusieurs fois : d’abord avec l’ensemble initial de descripteurs puis en utilisant l’ensemble amélioré de descripteurs issus de l’analyse de signification.

Analyse de signification

Dans la quatrième étape, des tests de signification sont réalisés. Après les exécutions PLS, il est possible de conclure qu’un descripteur est significatif alors qu’il ne l’est pas en réalité et ce problème est résolu en effectuant des tests de signification après la classification primaire. L’idée principale du test de signification est la suivante : Si Z est l’ensemble des candidats médicaments, supposons qu’après la classification, il soit divisé en deux classes, A et B. Pour une classification réussie, les variances des valeurs des descripteurs doivent être plus petites au sein des classes A et B qu’elles ne le sont pour l’ensemble de la population, Z.

L’équation donnée ci-dessous dans l’Eq. 2.1 présente la distribution F.

S i j 2 / σ i 2 S k 2 / σ i 2 = S i j 2 / S i k 2 = f ν η. MathType@MTEF@5@5@+=feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaqcfa4aaSaaaeaacqWGtbWudaqhaaqaaiabdMgaPjabdQgaQbqaaiabikdaYaaacqGGVaWlcqaHdpWCdaqhaaqaaiabdMgaPbqaaiabikdaYaaaaeaacqWGtbWudaqhaaqaaiabdUgaRbqaaiabikdaYaaacqGGVaWlcqaHdpWCdaqhaaqaaiabdMgaPbqaaiabikdaYaaaaaGccqGH9aqpcqWGtbWudaqhaaWcbaGaemyAaKMaemOAaOgabaGaeGOmaidaaOGaei4la8Iaem4uam1aa0baaSqaaiabdMgaPjabdUgaRbqaaiabikdaYaaakiabg2da9iabdAgaMnaaBaaaleaacqaH9oGBcqaH3oaAaeqaaaaa@5191@

(2.1)

où, S i j 2 MathType@MTEF@5@5@+=feaagaart1ev2aqatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4uam1aa0baaSqaaiabdMgaPjabdQgaQbqaaiabikdaYaaaaaa@30DC@ est la variance d’échantillon des valeurs du descripteur i pour l’ensemble de médicaments j, ν = n-1 et η = m-1 sont des degrés de liberté, et n est le nombre de valeurs du descripteur i pour l’ensemble de médicaments j, et m est le nombre de valeurs du descripteur i pour l’ensemble de médicaments k.

Alors le test d’hypothèse est effectué par l’hypothèse nulle S i j 2 = S i k 2. MathType@MTEF@5@5@+=feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4uam1aa0baaSqaaiabdMgaPjabdQgaQbqaaiabikdaYaaakiabg2da9iabdofatnaaDaaaleaacqWGPbqAcqWGRbWAaeaacqaIYaGmaaaaaa@36F3@ , ce qui suggère que la variance de l’ensemble des médicaments candidats est égale à la variance des médicaments de la même classe. Puisque la variance de l’ensemble des médicaments devrait être supérieure à la variance au sein de la classe, nous définissons notre hypothèse alternative comme suit : H a = S i j 2 ≻ S i k 2 MathType@MTEF@5@5@+=feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemisaG0aaSbaaSqaaiabdggaHbqabaGccqGH9aqpcqWGtbWudaqhaaWcbaGaemyAaKMaemOAaOgabaGaeGOmaidaaOGaeS4EIyMaem4uam1aa0baaSqaaiabdMgaPjabdUgaRbqaaiabikdaYaaaaaa@3B21@ , où j est un membre de l’ensemble des données et k est un membre de la classe. Notez que la valeur p de fvη dans le modèle actuel doit être inférieure à la valeur p de fvη dans le modèle précédent pour accepter l’hypothèse alternative.

Construction du nouveau modèle de classification

Cette dernière étape est réalisée lorsque nous concluons à l’existence de descripteurs surestimés dans le modèle lors de l’étape quatre.

On construit donc un nombre total de 3 modèles par analyse de régression en sélectionnant respectivement 7, 10 et 15 descripteurs comme variables représentatives de chaque modèle, et on applique l’analyse de signification à tous les descripteurs de ces 3 modèles. Si nous concluons à l’existence d’une variable non significative dans l’un de ces modèles, nous la remplaçons par celle qui est significative dans les autres modèles. Il est prouvé que cet ajustement améliore la précision de notre classification. Lorsque nous remplaçons les moins significatifs, les 880 descripteurs restants qui sont éliminés pendant l’analyse PLS sont ignorés, puisque ces 7, 10 et 15 attributs ont été choisis par l’analyse de régression PLS et ont une force prouvée pour décrire les valeurs IC50. L’objectif principal de l’étude de régression PLS est en fait d’éliminer les caractéristiques statistiquement non significatives, et de nous fournir l’espace d’échantillonnage le plus significatif pour travailler davantage.

Les résultats obtenus par notre méthode sont comparés à l’ensemble des 63 méthodes de classification disponibles dans WEKA, et 16 meilleurs classificateurs WEKA rapportés avec les résultats obtenus par notre algorithme dans le tableau 3, avec la précision de classification correspondante. Les attributs utilisés dans les classificateurs WEKA sont les mêmes descripteurs que ceux trouvés après les tests de signification, et une validation croisée 10 fois a été appliquée à chaque classificateur, y compris notre méthode de classification.

WEKA est un outil de fouille de données puissant à utiliser à des fins de comparaison, car il inclut tous les algorithmes d’apprentissage automatique largement connus parmi ses 63 classificateurs. Le succès de ces algorithmes d’apprentissage automatique existants dans la classification binaire des composés actifs et inactifs en fonction des valeurs de leurs descripteurs a également été rapporté précédemment. Voici un bref aperçu des méthodes de classification de données les plus performantes disponibles dans WEKA. Un réseau bayésienB = <N, A, Φ > est un graphe acyclique dirigé <N, A> avec une distribution de probabilité conditionnelle attachée à chaque nœud, représentée collectivement par Φ. Chaque nœud n ∈ N représente un attribut de l’ensemble de données, et chaque arc a ∈ A entre les nœuds représente une dépendance probabiliste. Le classificateur Naive Bayes suppose que toutes les variables sont indépendantes les unes des autres, où le nœud de classification est représenté comme le nœud parent de tous les autres nœuds. Naive Bayes Simple utilise la distribution normale pour la modélisation des attributs et traite les attributs numériques en utilisant la discrétisation supervisée, alors que Naive Bayes Updateable est une version incrémentale, qui traite une instance à la fois, et utilise un estimateur à noyau au lieu de la discrétisation.

Le classificateur Logistique construit un modèle de régression logistique à deux classes. C’est un modèle de régression statistique, où la régression logistique suppose que le rapport de vraisemblance logarithmique des distributions de classe est linéaire dans les observations. Le classificateur Logistique simple construit des modèles de régression logistique linéaire basés sur un seul attribut. Ce modèle est un modèle généralisé du modèle de régression des moindres carrés ordinaires. Le perceptron multicouche est un réseau neuronal qui utilise la rétropropagation. Le perceptron, qui est un élément de traitement, calcule une seule sortie, une fonction d’activation non linéaire de combinaison linéaire de plusieurs entrées, dont les paramètres sont appris lors de la phase de formation. SMO (sequential minimal optimization), également appelé WEKA SVM (support vector machine), est une méthode pour former un classificateur à vecteur de support en utilisant des noyaux polynomiaux en décomposant un grand problème d’optimisation de programmation quadratique en plus petits problèmes d’optimisation QP.

IB1 est répertorié comme un classificateur paresseux, dans le sens où il stocke les instances d’entraînement et il ne fait pas vraiment de travail jusqu’au moment de la classification. IB1 est un apprenant basé sur les instances. Il trouve l’instance d’apprentissage la plus proche en distance euclidienne de l’instance de test donnée. IBk est un classificateur k-plus-voisins qui utilise la même idée.

Logit Boost utilise la régression logistique additive. L’algorithme peut être accéléré en attribuant un seuil spécifique pour les poids. Multi Class Classifier utilise quatre méthodes distinctes de classification à deux classes pour les problèmes multiclasses. Le sélecteur de seuil, qui est un méta-apprenant optimise la F-mesure en sélectionnant un seuil de probabilité sur la sortie des classificateurs.

La forêt aléatoire et LMT sont des méthodes d’arbre de décision. Random Forest génère des arbres aléatoires en collectant des ensembles d’arbres aléatoires, tandis que LMT construit des arbres de modèles logistiques et utilise la validation croisée pour déterminer le nombre d’itérations tout en ajustant les fonctions de régression logistique à chaque nœud. OneR (one rule) construit un arbre de décision à un niveau et apprend une règle à partir de chaque attribut et sélectionne la règle ayant le plus petit taux d’erreur comme règle unique.

Classification des molécules de médicaments en fonction de leurs valeurs IC 50 à l’aide de la méthode hyper-boxes basée sur la programmation linéaire en nombres entiers mixtes