Clasificación de moléculas de fármacos teniendo en cuenta sus valores de IC50 utilizando el método de hipercajas basado en la programación lineal de enteros mixtos

En este trabajo, presentamos un enfoque integrado que combina el análisis estadístico y el método de clasificación de hipercajas basado en MILP para la predicción temprana del comportamiento de fármacos dirigidos a Ache, BZR, COX-2, DHFR_TG, DHFR_RL, DHFR_PC y, finalmente, al citocromo P450 C17.

El enfoque utilizado en este trabajo se compone de cinco pasos principales. En el primer paso, se construyen las estructuras moleculares de los candidatos a fármacos y se optimizan mediante Marvin Sketch. A continuación, se obtienen los descriptores moleculares de estos candidatos a fármacos mediante el servidor web E-Dragon . El segundo paso consiste en construir el modelo de regresión mediante PLS, que dará lugar a la selección de los descriptores más significativos. A continuación, los candidatos a fármacos se clasifican en función de los descriptores más significativos que se obtienen en el paso anterior, utilizando el método de hipercajas basado en MILP. Esta clasificación primaria puede dar lugar a una precisión de clasificación relativamente menor debido a la existencia de unos pocos descriptores insignificantes en el modelo; por lo tanto, se realiza un análisis de prueba de significación para determinar los descriptores insignificantes que podrían interferir con nuestra precisión de clasificación en el cuarto paso. Si hay descriptores insignificantes en el modelo, sustituimos los descriptores insignificantes por otros más significativos; entonces volvemos al tercer paso donde clasificamos las actividades farmacológicas de nuevo con el nuevo modelo que se obtiene en el quinto paso. Después de las pruebas de significación si todos los descriptores son significativos construimos nuestro modelo con los más significativos, e informamos de los resultados de la clasificación.

Utilizamos un algoritmo iterativo tal que, algunos de los pasos pueden repetirse cuando las pruebas de significación dan resultados insatisfactorios para los descriptores seleccionados de un modelo particular. Los descriptores menos significativos se sustituyen por otros más significativos que afectan a la clasificación final de los fármacos en cada iteración, lo que mejora el éxito del estudio. El esquema de nuestro método se presenta en la Figura 1.

Figura 1
figure1

Esquema del enfoque de clasificación.

Conjuntos de datos

Aplicamos nuestro algoritmo a conjuntos de datos QSAR ampliamente conocidos y disponibles en la literatura. Los conjuntos de inhibidores de dihidrofolato reductasa (DHFR), acetilcolinesterasa (AchE), receptor de benzodiazepina (BZR) y ciclooxigenasa-2 (COX-2) se utilizan para la clasificación. También introducimos un nuevo conjunto de datos de inhibidores del citocromo P450 C17, que hemos obtenido de la literatura y calculado sus estructuras 3D.

Se utilizaron siete conjuntos de datos para la validación de nuestra metodología aplicando el algoritmo en estos conjuntos de datos grandes y conocidos y comparando nuestra precisión de clasificación en estos conjuntos de datos con los otros clasificadores ampliamente utilizados disponibles en el paquete de minería de datos WEKA. En la Figura 2 se muestran compuestos representativos de cada conjunto de datos. Los valores experimentales de IC50 para el conjunto de inhibidores de la dihidrofolato reductasa (DHFR) fueron calculados y reportados para la enzima DHFR de tres especies diferentes: P. carinii (PC), T. gondii (TG) e hígado de rata (RL), donde la actividad de los inhibidores de la DHFR hacia las enzimas de las diferentes especies difiere. Por lo tanto, las actividades de los inhibidores hacia las enzimas de estas tres especies para los inhibidores de la DHFR se estudian por separado en nuestro estudio. Se utilizó un conjunto de 397 inhibidores de la dihidrofolato reductasa (DHFR) para la DHFR de P. carinii con valores de IC50 de 0,31 nM a 3700 μM, un conjunto de 378 inhibidores para la DHFR de T. gondii con valores de 0,88 nM a 392 μM y 397 inhibidores para la DHFR de hígado de rata con valores de 0,156 nM a 7470 μM. Se utilizó un conjunto de 111 inhibidores de la acetilcolinesterasa (AchE) con valores IC50 calculados experimentalmente, reportados por dentro del rango de 0,3 nM a 100 μM . El conjunto de datos de los inhibidores de los receptores de benzodiazepinas (BZR) constaba de 163 inhibidores, cuyos valores de IC50 se calcularon experimentalmente entre 1,2 nM y 5 μM. Las 322 moléculas del conjunto de inhibidores de la ciclooxigenasa-2 (COX2) se derivaron de tal manera que los valores de IC50 de 1 nM a 100 μM . Los conjuntos QSAR utilizados en este estudio también se utilizaron en un estudio de comparación de métodos QSAR por Sutherland et al. También comparamos los valores R2 de nuestros modelos de descriptores 3D, que fueron calculados por las ejecuciones PLS de Minitab en la primera fase de nuestro algoritmo, con los valores R2 reportados por Sutherland et al para varios modelos PLS en los mismos conjuntos de datos.

Figura 2
figure2

Compuestos representativos de cada dato QSAR.

Construcción de la estructura y obtención del modelo descriptor

Como se ha señalado anteriormente, en nuestro estudio el primer paso es encontrar descriptores moleculares para los candidatos a fármacos. Por lo tanto, se utilizó Marvin Sketch para calcular las estructuras moleculares de cada candidato a fármaco debe ser construido por la construcción de su estructura y optimizar su energía por la minimización para determinar su confirmación en el espacio 3-D. A continuación, las estructuras tridimensionales optimizadas se cargan en E-Dragon y se calculan los descriptores moleculares utilizando el servidor web.

E-Dragon sugiere muchos bloques de descriptores, cada uno de los cuales contiene parámetros que describen la caracterización de las moléculas, y los que se utilizan en este estudio se pueden enumerar como sigue: descriptores constitucionales (48), descriptores topológicos (119), índices de conectividad (33), índices de información (47), índices de adyacencia de bordes (107), índices de carga topológica (21), descriptores geométricos (74), descriptores 3D-MoRSE (160), recuentos de grupos funcionales (154), fragmentos centrados en átomos (120), propiedades moleculares (29). Por lo tanto, el número total de descriptores considerados es de 912 al construir nuestro modelo de descriptores QSAR. Se selecciona PLS para el análisis de regresión porque el número de instancias es mucho menor que el número de atributos (descriptores) utilizando MINITAB. Como hemos mencionado anteriormente, PLS se utiliza ampliamente para desarrollar modelos QSAR reduciendo el número de atributos en el conjunto de descriptores a un pequeño número de atributos correlacionados con la propiedad definida que se está modelando, que son los valores experimentales de IC50 en nuestro estudio.

Construcción de modelos con PLS para la selección de los descriptores más informativos

El objetivo principal del análisis de regresión es determinar el modelo que predice la actividad (IC50) de los candidatos a fármacos en términos de los descriptores. El PLS puede ser referido como un método MLR estrechamente relacionado con la regresión de componentes principales. Básicamente, al realizar un estudio PLS podemos predecir un conjunto de variables dependientes Y en base a un conjunto de variables independientes X mediante MINITAB, que nos proporcionó las ejecuciones PLS automáticamente en base al límite superior que determinamos en el número de descriptores más significativos. Cada ejecución PLS proporciona un modelo lineal de la variable dependiente (valores IC50) con respecto a las variables independientes (descriptores más significativos). En este punto, se construye el modelo pertinente y se determinan los descriptores más significativos. El siguiente paso sería la clasificación inicial de los fármacos en función de los descriptores. La elección de los descriptores significativos por parte de las primeras ejecuciones del PLS puede no ser la más eficaz en la clasificación. Por lo tanto, realizamos pruebas de significación sobre los descriptores seleccionados mediante el análisis de regresión para aumentar las precisiones de la clasificación.

Clasificación de los candidatos a fármacos con el método de hipercajas basado en MILP

El tercer paso está dedicado a la clasificación de los fármacos; aplicamos el método de hipercajas basado en MILP utilizando los descriptores seleccionados del paso anterior.

El objetivo en los problemas de clasificación de datos es asignar los puntos de datos, que se describen con cierto número de atributos, en clases predefinidas. The strength of hyper-boxes classification method is from its ability to use more than one hyper-box when defining a class as shown in Figure 3, and this ability prevents overlapping in the classes, which would not be prevented if the classes were defined with a single hyper-box only.

Figure 3
figure3

Schematic representation of multi-class data classification using hyper-boxes.

The data classification problem is solved in two steps: training step and testing step. En el paso de entrenamiento, los límites de las clases se forman mediante la construcción de hipercajas, mientras que la eficacia de las clases construidas se comprueba en el paso de prueba.

El problema MILP para la clasificación se construye de manera que la función objetivo es la minimización de las clasificaciones erróneas en el conjunto de datos con el mínimo número de hipercajas en el paso de entrenamiento. La minimización del número de hipercajas, es decir, la eliminación del uso innecesario de hipercajas, se impone penalizando la existencia de una caja con un escalar pequeño en la función objetivo. En la parte de entrenamiento, el límite superior e inferior de cada hipercaja también se calcula mediante los puntos de datos encerrados en esa hipercaja.

En el paso de prueba, los puntos de datos se asignan a las clases calculando la distancia entre el punto de datos a la cada caja, y determinando la caja que está más cerca del punto de datos. Finalmente, se comparan las clases originales y asignadas de los puntos de datos de prueba y se obtiene la eficacia de la clasificación mediante instancias correctamente clasificadas.

Resolver el problema MILP propuesto hasta la optimalidad es un reto computacional para grandes conjuntos de datos debido al gran número de variables binarias. Por lo tanto, se desarrolla un método de descomposición en tres etapas para obtener soluciones óptimas de problemas de clasificación de datos grandes. Los casos difíciles de clasificar se identifican en la primera etapa, que denominamos preprocesamiento. Además, se determinan las semillas de cada clase para mejorar la eficiencia computacional. Con un mayor énfasis en estas observaciones, se obtiene una solución al problema en la segunda etapa con el modelo modificado. Por último, las asignaciones finales y las eliminaciones de intersección se llevan a cabo en la tercera etapa.

En este trabajo, aplicamos este método descrito anteriormente en la clasificación de las actividades de las moléculas de medicamentos para los conjuntos de datos considerados. Llevamos a cabo una validación cruzada de 10 veces mientras elegimos los conjuntos de entrenamiento y prueba, donde dividimos los conjuntos de datos aleatoriamente en 10 submuestras con igual número de miembros. De estas 10 submuestras, 9 se combinan y se utilizan como conjunto de entrenamiento, y la submuestra restante se utiliza como conjunto de prueba. A continuación, la clasificación se realiza 10 veces y cada una de las 10 submuestras se utiliza exactamente una vez como conjunto de prueba. Finalmente, la precisión de la clasificación se reporta como la media de estas 10 clasificaciones.

Clasificamos cada uno de los candidatos a fármacos en el conjunto de prueba como si tuvieran un valor IC50 bajo o alto. En este estudio iterativo, este paso de clasificación se realiza varias veces: primero con el conjunto inicial de descriptores y luego utilizando el conjunto mejorado de descriptores derivados del análisis de significación.

Análisis de significación

En el cuarto paso, se realizan pruebas de significación. Después de las ejecuciones del PLS es posible concluir un descriptor como significativo mientras no lo es en realidad y este problema se resuelve realizando pruebas de significación después de la clasificación primaria. La idea principal de la prueba de significación es la siguiente: Si Z es todo el conjunto de candidatos a fármacos, suponga que después de la clasificación se divide en dos clases, A y B. Para una clasificación exitosa, las varianzas de los valores de los descriptores deben ser más pequeñas dentro de las clases A y B que para toda la población, Z.

La ecuación dada a continuación en la Ecuación 2.1 exhibe la distribución F.

S i j 2 / σ i 2 S k 2 / σ i 2 = S i j 2 / S i k 2 = f ν η MathType@MTEF@5@5@+=feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaqcfa4aaSaaaeaacqWGtbWudaqhaaqaaiabdMgaPjabdQgaQbqaaiabikdaYaaacqGGVaWlcqaHdpWCdaqhaaqaaiabdMgaPbqaaiabikdaYaaaaeaacqWGtbWudaqhaaqaaiabdUgaRbqaaiabikdaYaaacqGGVaWlcqaHdpWCdaqhaaqaaiabdMgaPbqaaiabikdaYaaaaaGccqGH9aqpcqWGtbWudaqhaaWcbaGaemyAaKMaemOAaOgabaGaeGOmaidaaOGaei4la8Iaem4uam1aa0baaSqaaiabdMgaPjabdUgaRbqaaiabikdaYaaakiabg2da9iabdAgaMnaaBaaaleaacqaH9oGBcqaH3oaAaeqaaaaa@5191@
(2.1)

Donde, S i j 2 MathType@MTEF@5@5@+=feaagaart1ev2aqatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4uam1aa0baaSqaaiabdMgaPjabdQgaQbqaaiabikdaYaaaaaa@30DC@ es la varianza muestral de los valores del descriptor i para el conjunto de fármacos j, ν = n-1 y η = m-1 son los grados de libertad, y n es el número de valores del descriptor i para el conjunto de fármacos j, y m es el número de valores del descriptor i para el conjunto de fármacos k.

Entonces la prueba de hipótesis se realiza mediante la hipótesis nula S i j 2 = S i k 2 MathType@MTEF@5@5@+=feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4uam1aa0baaSqaaiabdMgaPjabdQgaQbqaaiabikdaYaaakiabg2da9iabdofatnaaDaaaleaacqWGPbqAcqWGRbWAaeaacqaIYaGmaaaaaa@36F3@ , lo que sugiere que la varianza de todo el conjunto de fármacos candidatos es igual a la varianza de los fármacos de la misma clase. Dado que la varianza del conjunto de fármacos debería ser mayor que la varianza dentro de la clase, definimos nuestra hipótesis alternativa como H a = S i j 2 ≻ S i k 2 MathType@MTEF@5@5@+=feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemisaG0aaSbaaSqaaiabdggaHbqabaGccqGH9aqpcqWGtbWudaqhaaWcbaGaemyAaKMaemOAaOgabaGaeGOmaidaaOGaeS4EIyMaem4uam1aa0baaSqaaiabdMgaPjabdUgaRbqaaiabikdaYaaaaaa@3B21@ , donde j es un miembro del conjunto de datos y k es un miembro de la clase. Nótese que el valor p de fvη en el actual debe ser menor que el valor p de fvη en el modelo anterior para aceptar la hipótesis alternativa.

Construcción del nuevo modelo de clasificación

Este último paso se realiza cuando concluimos que hay descriptores sobreestimados en el modelo durante el paso cuatro.

Por lo tanto, se construye un número total de 3 modelos a través del análisis de regresión seleccionando 7, 10 y 15 descriptores respectivamente como variables representativas de cada modelo, y se aplica el análisis de significación a todos los descriptores de estos 3 modelos. Si concluimos la existencia de una variable no significativa en uno de estos modelos, la sustituimos por las que son significativas en los otros modelos. Se ha demostrado que este ajuste mejora la precisión de nuestra clasificación. Cuando sustituimos las menos significativas, se ignoran los 880 descriptores restantes que se eliminan durante el análisis PLS, ya que estos 7, 10 y 15 atributos fueron elegidos por el análisis de regresión PLS y tienen una fuerza probada en la descripción de los valores IC50. El propósito principal del estudio de regresión PLS, de hecho, es eliminar las características sin sentido estadístico, y proporcionarnos el espacio muestral más significativo con el que seguir trabajando.

Los resultados obtenidos por nuestro método se comparan con todos los 63 métodos de clasificación disponibles en WEKA, y 16 mejores clasificadores de WEKA reportados con los resultados obtenidos por nuestro algoritmo en la Tabla 3, con la correspondiente precisión de clasificación. Los atributos utilizados en los clasificadores de WEKA son los mismos descriptores que se encuentran después de las pruebas de significación, y se aplicó una validación cruzada de 10 veces a cada clasificador, incluyendo nuestro método de clasificación.

WEKA es una poderosa herramienta de minería de datos para utilizar con fines de comparación, ya que incluye todos los algoritmos de aprendizaje automático ampliamente conocidos entre sus 63 clasificadores. El éxito de estos algoritmos de aprendizaje automático existentes en la clasificación binaria de los compuestos activos e inactivos en función de sus valores de los descriptores también se informó previamente. A continuación se presenta un breve resumen de los métodos de clasificación de datos de mejor rendimiento disponibles en WEKA. Una red bayesianaB = <N, A, Φ > es un gráfico acíclico dirigido <N, A> con una distribución de probabilidad condicional adjunta a cada nodo, representada colectivamente por Φ. Cada nodo n ∈ N representa un atributo del conjunto de datos, y cada arco a ∈ A entre nodos representa una dependencia probabilística. El clasificador Naive Bayes asume que todas las variables son independientes entre sí, donde el nodo de clasificación se representa como el nodo padre de todos los demás nodos. Naive Bayes Simple utiliza la distribución normal para el modelado de los atributos y maneja los atributos numéricos utilizando la discretización supervisada, mientras que Naive Bayes Actualizable es una versión incremental, que procesa una instancia a la vez, y utiliza un estimador de kernel en lugar de la discretización.

El clasificador Logístico construye un modelo de regresión logística de dos clases. Se trata de un modelo de regresión estadística, donde la regresión logística asume que la relación de probabilidad logarítmica de las distribuciones de clase es lineal en las observaciones. El clasificador logístico simple construye modelos de regresión logística lineal basados en un solo atributo. El modelo es un modelo generalizado del modelo de regresión por mínimos cuadrados ordinarios. El perceptrón multicapa es una red neuronal que utiliza la retropropagación. El perceptrón, que es un elemento de procesamiento, computa una única salida, una función de activación no lineal de combinación lineal de múltiples entradas, cuyos parámetros se aprenden mediante la fase de entrenamiento. SMO (optimización mínima secuencial), también llamado WEKA SVM (máquina de vectores de soporte), es un método para entrenar un clasificador de vectores de soporte utilizando núcleos polinómicos mediante la ruptura de un gran problema de optimización de programación cuadrática en problemas de optimización QP más pequeños.

IB1 está catalogado como un clasificador perezoso, en el sentido de que almacena las instancias de entrenamiento y no hace realmente ningún trabajo hasta el momento de la clasificación. IB1 es un aprendiz basado en instancias. Encuentra la instancia de entrenamiento más cercana en distancia euclidiana a la instancia de prueba dada. IBk es un clasificador de k-próximos que utiliza la misma idea.

Logit Boost utiliza la regresión logística aditiva. El algoritmo puede acelerarse asignando un umbral específico para los pesos. Multi Classifier utiliza cuatro métodos distintos de clasificación de dos clases para problemas multiclase. El selector de umbral, que es un metaaprendiz, optimiza la medida F seleccionando un umbral de probabilidad en la salida de los clasificadores.

El bosque aleatorio y el LMT son métodos de árboles de decisión. Random Forest genera árboles aleatorios mediante la recopilación de conjuntos de árboles aleatorios, mientras que LMT construye árboles de modelos logísticos y utiliza la validación cruzada para determinar el número de iteraciones mientras ajusta las funciones de regresión logística en cada nodo. OneR (one rule) construye un árbol de decisión de un nivel y aprende una regla de cada atributo y selecciona la regla que tiene la menor tasa de error como la regla única.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *