Compuestos representativos de cada dato QSAR.
Construcción de la estructura y obtención del modelo descriptor
Como se ha señalado anteriormente, en nuestro estudio el primer paso es encontrar descriptores moleculares para los candidatos a fármacos. Por lo tanto, se utilizó Marvin Sketch para calcular las estructuras moleculares de cada candidato a fármaco debe ser construido por la construcción de su estructura y optimizar su energía por la minimización para determinar su confirmación en el espacio 3-D. A continuación, las estructuras tridimensionales optimizadas se cargan en E-Dragon y se calculan los descriptores moleculares utilizando el servidor web.
E-Dragon sugiere muchos bloques de descriptores, cada uno de los cuales contiene parámetros que describen la caracterización de las moléculas, y los que se utilizan en este estudio se pueden enumerar como sigue: descriptores constitucionales (48), descriptores topológicos (119), índices de conectividad (33), índices de información (47), índices de adyacencia de bordes (107), índices de carga topológica (21), descriptores geométricos (74), descriptores 3D-MoRSE (160), recuentos de grupos funcionales (154), fragmentos centrados en átomos (120), propiedades moleculares (29). Por lo tanto, el número total de descriptores considerados es de 912 al construir nuestro modelo de descriptores QSAR. Se selecciona PLS para el análisis de regresión porque el número de instancias es mucho menor que el número de atributos (descriptores) utilizando MINITAB. Como hemos mencionado anteriormente, PLS se utiliza ampliamente para desarrollar modelos QSAR reduciendo el número de atributos en el conjunto de descriptores a un pequeño número de atributos correlacionados con la propiedad definida que se está modelando, que son los valores experimentales de IC50 en nuestro estudio.
Construcción de modelos con PLS para la selección de los descriptores más informativos
El objetivo principal del análisis de regresión es determinar el modelo que predice la actividad (IC50) de los candidatos a fármacos en términos de los descriptores. El PLS puede ser referido como un método MLR estrechamente relacionado con la regresión de componentes principales. Básicamente, al realizar un estudio PLS podemos predecir un conjunto de variables dependientes Y en base a un conjunto de variables independientes X mediante MINITAB, que nos proporcionó las ejecuciones PLS automáticamente en base al límite superior que determinamos en el número de descriptores más significativos. Cada ejecución PLS proporciona un modelo lineal de la variable dependiente (valores IC50) con respecto a las variables independientes (descriptores más significativos). En este punto, se construye el modelo pertinente y se determinan los descriptores más significativos. El siguiente paso sería la clasificación inicial de los fármacos en función de los descriptores. La elección de los descriptores significativos por parte de las primeras ejecuciones del PLS puede no ser la más eficaz en la clasificación. Por lo tanto, realizamos pruebas de significación sobre los descriptores seleccionados mediante el análisis de regresión para aumentar las precisiones de la clasificación.
Clasificación de los candidatos a fármacos con el método de hipercajas basado en MILP
El tercer paso está dedicado a la clasificación de los fármacos; aplicamos el método de hipercajas basado en MILP utilizando los descriptores seleccionados del paso anterior.
El objetivo en los problemas de clasificación de datos es asignar los puntos de datos, que se describen con cierto número de atributos, en clases predefinidas. The strength of hyper-boxes classification method is from its ability to use more than one hyper-box when defining a class as shown in Figure 3, and this ability prevents overlapping in the classes, which would not be prevented if the classes were defined with a single hyper-box only.
Figure 3
Schematic representation of multi-class data classification using hyper-boxes.
The data classification problem is solved in two steps: training step and testing step. En el paso de entrenamiento, los límites de las clases se forman mediante la construcción de hipercajas, mientras que la eficacia de las clases construidas se comprueba en el paso de prueba.
El problema MILP para la clasificación se construye de manera que la función objetivo es la minimización de las clasificaciones erróneas en el conjunto de datos con el mínimo número de hipercajas en el paso de entrenamiento. La minimización del número de hipercajas, es decir, la eliminación del uso innecesario de hipercajas, se impone penalizando la existencia de una caja con un escalar pequeño en la función objetivo. En la parte de entrenamiento, el límite superior e inferior de cada hipercaja también se calcula mediante los puntos de datos encerrados en esa hipercaja.
En el paso de prueba, los puntos de datos se asignan a las clases calculando la distancia entre el punto de datos a la cada caja, y determinando la caja que está más cerca del punto de datos. Finalmente, se comparan las clases originales y asignadas de los puntos de datos de prueba y se obtiene la eficacia de la clasificación mediante instancias correctamente clasificadas.
Resolver el problema MILP propuesto hasta la optimalidad es un reto computacional para grandes conjuntos de datos debido al gran número de variables binarias. Por lo tanto, se desarrolla un método de descomposición en tres etapas para obtener soluciones óptimas de problemas de clasificación de datos grandes. Los casos difíciles de clasificar se identifican en la primera etapa, que denominamos preprocesamiento. Además, se determinan las semillas de cada clase para mejorar la eficiencia computacional. Con un mayor énfasis en estas observaciones, se obtiene una solución al problema en la segunda etapa con el modelo modificado. Por último, las asignaciones finales y las eliminaciones de intersección se llevan a cabo en la tercera etapa.
En este trabajo, aplicamos este método descrito anteriormente en la clasificación de las actividades de las moléculas de medicamentos para los conjuntos de datos considerados. Llevamos a cabo una validación cruzada de 10 veces mientras elegimos los conjuntos de entrenamiento y prueba, donde dividimos los conjuntos de datos aleatoriamente en 10 submuestras con igual número de miembros. De estas 10 submuestras, 9 se combinan y se utilizan como conjunto de entrenamiento, y la submuestra restante se utiliza como conjunto de prueba. A continuación, la clasificación se realiza 10 veces y cada una de las 10 submuestras se utiliza exactamente una vez como conjunto de prueba. Finalmente, la precisión de la clasificación se reporta como la media de estas 10 clasificaciones.
Clasificamos cada uno de los candidatos a fármacos en el conjunto de prueba como si tuvieran un valor IC50 bajo o alto. En este estudio iterativo, este paso de clasificación se realiza varias veces: primero con el conjunto inicial de descriptores y luego utilizando el conjunto mejorado de descriptores derivados del análisis de significación.
Análisis de significación
En el cuarto paso, se realizan pruebas de significación. Después de las ejecuciones del PLS es posible concluir un descriptor como significativo mientras no lo es en realidad y este problema se resuelve realizando pruebas de significación después de la clasificación primaria. La idea principal de la prueba de significación es la siguiente: Si Z es todo el conjunto de candidatos a fármacos, suponga que después de la clasificación se divide en dos clases, A y B. Para una clasificación exitosa, las varianzas de los valores de los descriptores deben ser más pequeñas dentro de las clases A y B que para toda la población, Z.
La ecuación dada a continuación en la Ecuación 2.1 exhibe la distribución F.
S i j 2 / σ i 2 S k 2 / σ i 2 = S i j 2 / S i k 2 = f ν η MathType@MTEF@5@5@+=feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaqcfa4aaSaaaeaacqWGtbWudaqhaaqaaiabdMgaPjabdQgaQbqaaiabikdaYaaacqGGVaWlcqaHdpWCdaqhaaqaaiabdMgaPbqaaiabikdaYaaaaeaacqWGtbWudaqhaaqaaiabdUgaRbqaaiabikdaYaaacqGGVaWlcqaHdpWCdaqhaaqaaiabdMgaPbqaaiabikdaYaaaaaGccqGH9aqpcqWGtbWudaqhaaWcbaGaemyAaKMaemOAaOgabaGaeGOmaidaaOGaei4la8Iaem4uam1aa0baaSqaaiabdMgaPjabdUgaRbqaaiabikdaYaaakiabg2da9iabdAgaMnaaBaaaleaacqaH9oGBcqaH3oaAaeqaaaaa@5191@
(2.1)
Donde, S i j 2 MathType@MTEF@5@5@+=feaagaart1ev2aqatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4uam1aa0baaSqaaiabdMgaPjabdQgaQbqaaiabikdaYaaaaaa@30DC@ es la varianza muestral de los valores del descriptor i para el conjunto de fármacos j, ν = n-1 y η = m-1 son los grados de libertad, y n es el número de valores del descriptor i para el conjunto de fármacos j, y m es el número de valores del descriptor i para el conjunto de fármacos k.
Entonces la prueba de hipótesis se realiza mediante la hipótesis nula S i j 2 = S i k 2 MathType@MTEF@5@5@+=feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4uam1aa0baaSqaaiabdMgaPjabdQgaQbqaaiabikdaYaaakiabg2da9iabdofatnaaDaaaleaacqWGPbqAcqWGRbWAaeaacqaIYaGmaaaaaa@36F3@ , lo que sugiere que la varianza de todo el conjunto de fármacos candidatos es igual a la varianza de los fármacos de la misma clase. Dado que la varianza del conjunto de fármacos debería ser mayor que la varianza dentro de la clase, definimos nuestra hipótesis alternativa como H a = S i j 2 ≻ S i k 2 MathType@MTEF@5@5@+=feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemisaG0aaSbaaSqaaiabdggaHbqabaGccqGH9aqpcqWGtbWudaqhaaWcbaGaemyAaKMaemOAaOgabaGaeGOmaidaaOGaeS4EIyMaem4uam1aa0baaSqaaiabdMgaPjabdUgaRbqaaiabikdaYaaaaaa@3B21@ , donde j es un miembro del conjunto de datos y k es un miembro de la clase. Nótese que el valor p de fvη en el actual debe ser menor que el valor p de fvη en el modelo anterior para aceptar la hipótesis alternativa.
Construcción del nuevo modelo de clasificación
Este último paso se realiza cuando concluimos que hay descriptores sobreestimados en el modelo durante el paso cuatro.
Por lo tanto, se construye un número total de 3 modelos a través del análisis de regresión seleccionando 7, 10 y 15 descriptores respectivamente como variables representativas de cada modelo, y se aplica el análisis de significación a todos los descriptores de estos 3 modelos. Si concluimos la existencia de una variable no significativa en uno de estos modelos, la sustituimos por las que son significativas en los otros modelos. Se ha demostrado que este ajuste mejora la precisión de nuestra clasificación. Cuando sustituimos las menos significativas, se ignoran los 880 descriptores restantes que se eliminan durante el análisis PLS, ya que estos 7, 10 y 15 atributos fueron elegidos por el análisis de regresión PLS y tienen una fuerza probada en la descripción de los valores IC50. El propósito principal del estudio de regresión PLS, de hecho, es eliminar las características sin sentido estadístico, y proporcionarnos el espacio muestral más significativo con el que seguir trabajando.
Los resultados obtenidos por nuestro método se comparan con todos los 63 métodos de clasificación disponibles en WEKA, y 16 mejores clasificadores de WEKA reportados con los resultados obtenidos por nuestro algoritmo en la Tabla 3, con la correspondiente precisión de clasificación. Los atributos utilizados en los clasificadores de WEKA son los mismos descriptores que se encuentran después de las pruebas de significación, y se aplicó una validación cruzada de 10 veces a cada clasificador, incluyendo nuestro método de clasificación.
WEKA es una poderosa herramienta de minería de datos para utilizar con fines de comparación, ya que incluye todos los algoritmos de aprendizaje automático ampliamente conocidos entre sus 63 clasificadores. El éxito de estos algoritmos de aprendizaje automático existentes en la clasificación binaria de los compuestos activos e inactivos en función de sus valores de los descriptores también se informó previamente. A continuación se presenta un breve resumen de los métodos de clasificación de datos de mejor rendimiento disponibles en WEKA. Una red bayesianaB = <N, A, Φ > es un gráfico acíclico dirigido <N, A> con una distribución de probabilidad condicional adjunta a cada nodo, representada colectivamente por Φ. Cada nodo n ∈ N representa un atributo del conjunto de datos, y cada arco a ∈ A entre nodos representa una dependencia probabilística. El clasificador Naive Bayes asume que todas las variables son independientes entre sí, donde el nodo de clasificación se representa como el nodo padre de todos los demás nodos. Naive Bayes Simple utiliza la distribución normal para el modelado de los atributos y maneja los atributos numéricos utilizando la discretización supervisada, mientras que Naive Bayes Actualizable es una versión incremental, que procesa una instancia a la vez, y utiliza un estimador de kernel en lugar de la discretización.
El clasificador Logístico construye un modelo de regresión logística de dos clases. Se trata de un modelo de regresión estadística, donde la regresión logística asume que la relación de probabilidad logarítmica de las distribuciones de clase es lineal en las observaciones. El clasificador logístico simple construye modelos de regresión logística lineal basados en un solo atributo. El modelo es un modelo generalizado del modelo de regresión por mínimos cuadrados ordinarios. El perceptrón multicapa es una red neuronal que utiliza la retropropagación. El perceptrón, que es un elemento de procesamiento, computa una única salida, una función de activación no lineal de combinación lineal de múltiples entradas, cuyos parámetros se aprenden mediante la fase de entrenamiento. SMO (optimización mínima secuencial), también llamado WEKA SVM (máquina de vectores de soporte), es un método para entrenar un clasificador de vectores de soporte utilizando núcleos polinómicos mediante la ruptura de un gran problema de optimización de programación cuadrática en problemas de optimización QP más pequeños.
IB1 está catalogado como un clasificador perezoso, en el sentido de que almacena las instancias de entrenamiento y no hace realmente ningún trabajo hasta el momento de la clasificación. IB1 es un aprendiz basado en instancias. Encuentra la instancia de entrenamiento más cercana en distancia euclidiana a la instancia de prueba dada. IBk es un clasificador de k-próximos que utiliza la misma idea.
Logit Boost utiliza la regresión logística aditiva. El algoritmo puede acelerarse asignando un umbral específico para los pesos. Multi Classifier utiliza cuatro métodos distintos de clasificación de dos clases para problemas multiclase. El selector de umbral, que es un metaaprendiz, optimiza la medida F seleccionando un umbral de probabilidad en la salida de los clasificadores.
El bosque aleatorio y el LMT son métodos de árboles de decisión. Random Forest genera árboles aleatorios mediante la recopilación de conjuntos de árboles aleatorios, mientras que LMT construye árboles de modelos logísticos y utiliza la validación cruzada para determinar el número de iteraciones mientras ajusta las funciones de regresión logística en cada nodo. OneR (one rule) construye un árbol de decisión de un nivel y aprende una regla de cada atributo y selecciona la regla que tiene la menor tasa de error como la regla única.