Classificação de moléculas de drogas considerando seus valores de IC 50 usando o método das hiper-caixas baseado em programação linear mista-inteira | BMC Bioinformática

Neste trabalho, apresentamos uma abordagem integrada que combina a análise estatística e o método de classificação MILP baseado em hiper-boxes para predição precoce do comportamento de drogas visando Ache, BZR, COX-2, DHFR_TG, DHFR_RL, DHFR_PC, e finalmente o citocromo P450 C17.

A abordagem utilizada neste trabalho é composta de cinco etapas principais. Na primeira etapa, as estruturas moleculares dos candidatos ao medicamento são construídas e otimizadas pelo Marvin Sketch. Em seguida, os descritores moleculares destes candidatos a drogas são obtidos usando o servidor web E-Dragon . O segundo passo consiste na construção do modelo de regressão usando PLS, que resultará na seleção dos descritores mais significativos. Em seguida, os candidatos a medicamentos são classificados com base nos descritores mais significativos que são obtidos pelo passo anterior, usando o método das hiper-caixas baseadas em MILP. Essa classificação primária pode resultar em uma precisão relativamente menor devido à existência de alguns descritores insignificantes no modelo; portanto, é realizada uma análise de teste de significância para determinar os descritores insignificantes que podem interferir na nossa precisão de classificação na quarta etapa. Se houver descritores insignificantes no modelo, substituímos os descritores insignificantes por descritores mais significativos; em seguida, voltamos ao terceiro passo, onde classificamos novamente as atividades do medicamento com o novo modelo que é obtido no quinto passo. Após os testes de significância, se todos os descritores forem significativos, construímos nosso modelo com os mais significativos, e relatamos os resultados da classificação.

Usamos um algoritmo iterativo tal que, algumas das etapas podem ser repetidas quando os testes de significância dão resultados insatisfatórios para os descritores selecionados de um determinado modelo. Descritores menos significativos são substituídos por descritores mais significativos que afetam a classificação final dos medicamentos a cada iteração, melhorando assim o sucesso do estudo. O esquema do nosso método é apresentado na Figura 1.

Sets de dados
Construção da estrutura e obtenção do modelo descritor
Construção do modelo com PLS para a seleção dos descritores mais informativos
Classificação dos candidatos a drogas com o método MILP baseado em hyper-boxes
Análise de significância
Construindo o novo modelo de classificação

Sets de dados

Aplicamos o nosso algoritmo a conjuntos de dados QSAR amplamente conhecidos e disponíveis na literatura. Os conjuntos de inibidores Dihidrofolate Reductase (DHFR), Acetylcholinesterase (AchE), Benzodiazepine Receptor (BZR) e Cyclooxygenase-2 (COX-2) são usados para classificação. Também introduzimos um novo conjunto de dados de inibidores do citocromo P450 C17, que derivamos da literatura e calculamos suas estruturas 3D.

Seven data sets foram usados para a validação de nossa metodologia aplicando o algoritmo nesses grandes e conhecidos conjuntos de dados e comparando nossa precisão de classificação nesses conjuntos de dados com os outros classificadores amplamente utilizados disponíveis no pacote de mineração de dados WEKA. Os compostos representativos de cada conjunto de dados são mostrados na Figura 2. Os valores experimentais do IC50 para o conjunto inibidor de diidrofolato redutase (DHFR) foram calculados e relatados para a enzima DHFR de três espécies diferentes: P. carinii (PC), T. gondii (TG) e fígado de rato (RL), onde a atividade dos inibidores da DHFR para as enzimas de diferentes espécies é diferente. Portanto, as atividades dos inibidores para as enzimas destas três espécies para inibidores de DHFR são estudadas separadamente em nosso estudo. Um conjunto de 397 inibidores de dihidrofolato redutase (DHFR) foram usados para P. carinii DHFR com valores de IC50 de 0,31 nM a 3700 μM, um conjunto de 378 inibidores foram usados para T. gondii DHFR com valores de 0,88 nM a 392 μM e 397 inibidores foram usados para DHFR no fígado de ratos com valores de 0,156 nM a 7470 μM. Um conjunto de 111 inibidores de acetilcolinesterase (AchE) foram utilizados com valores de IC50 calculados experimentalmente, relatados na faixa de 0,3 nM a 100 μM . O conjunto de dados dos inibidores do receptor de benzodiazepina (BZR) consistiu em 163 inibidores, cujos valores de IC50 foram calculados experimentalmente de 1,2 nM a 5 μM. As 322 moléculas do conjunto de inibidores da ciclooxigenase-2 (COX2) foram derivadas de forma que os valores de IC50 de 1 nM para 100 μM . Os conjuntos QSAR usados neste estudo também foram usados em um estudo comparativo dos métodos QSAR por Sutherland et al. Também comparamos os valores R2 dos nossos modelos descritores 3D, que foram calculados pelo Minitab PLS executado na primeira fase do nosso algoritmo, com os valores R2 relatados por Sutherland et al para vários modelos PLS nos mesmos conjuntos de dados.

Construção da estrutura e obtenção do modelo descritor

Como descrito acima, em nosso estudo o primeiro passo é encontrar descritores moleculares para os candidatos ao medicamento. Portanto, o Marvin Sketch foi utilizado para calcular as estruturas moleculares de cada candidato a fármaco deve ser construído construindo sua estrutura e otimizar sua energia através da minimização para determinar sua confirmação no espaço 3-D. Em seguida, as estruturas 3D otimizadas são carregadas no E-Dragon e os descritores moleculares são calculados usando o servidor web.

E-Dragon sugere muitos blocos descritores, cada um dos quais contém parâmetros que descrevem a caracterização das moléculas, e os que são usados neste estudo podem ser listados como se segue: descritores constitucionais (48), descritores topológicos (119), índices de conectividade (33), índices de informação (47), índices de proximidade de borda (107), índices de carga topológica (21), descritores geométricos (74), descritores 3D-MoRSE (160), contagens de grupos funcionais (154), fragmentos centrados no átomo (120), propriedades moleculares (29). Portanto, o número total de descritores considerados é 912 durante a construção do nosso modelo descritor QSAR. O PLS é selecionado para análise de regressão porque o número de instâncias é muito menor do que o número de atributos (descritores) pelo uso do MINITAB. Como mencionamos anteriormente, PLS é amplamente utilizado para desenvolver modelos QSAR reduzindo o número de atributos no conjunto descritor para um pequeno número de atributos correlacionados com a propriedade definida sendo modelada, que é valores experimentais IC50 em nosso estudo.

Construção do modelo com PLS para a seleção dos descritores mais informativos

O objetivo principal da análise de regressão é determinar o modelo que prevê a atividade (IC50) dos candidatos a drogas em termos dos descritores. PLS pode ser referido como um método MLR intimamente relacionado com a regressão de componentes principais. Basicamente, ao realizar um estudo PLS podemos prever um conjunto de variáveis dependentes Y com base num conjunto de variáveis independentes X por MINITAB, o que nos deu o PLS executado automaticamente com base no limite superior que determinamos sobre o número de descritores mais significativos. Cada execução de PLS fornece um modelo linear da variável dependente (valores IC50) em relação às variáveis independentes (descritores mais significativos). Neste ponto, o modelo relevante é construído e os descritores mais significativos são determinados. O passo seguinte seria a classificação inicial dos fármacos com base nos descritores. A escolha dos descritores significativos pelas primeiras séries de PLS pode não ser a mais eficaz na classificação. Portanto, realizamos testes de significância nos descritores selecionados pela análise de regressão para aumentar a precisão da classificação.

Classificação dos candidatos a drogas com o método MILP baseado em hyper-boxes

O terceiro passo é dedicado à classificação de drogas; aplicamos o método MILP baseado em hyper-boxes usando os descritores selecionados do passo anterior.

O objetivo nos problemas de classificação de dados é atribuir pontos de dados, que são descritos com determinado número de atributos, em classes pré-definidas. The strength of hyper-boxes classification method is from its ability to use more than one hyper-box when defining a class as shown in Figure 3, and this ability prevents overlapping in the classes, which would not be prevented if the classes were defined with a single hyper-box only.

The data classification problem is solved in two steps: training step and testing step. Na etapa de treinamento, os limites das classes são formados pela construção de hyper-boxes, onde como a eficácia das classes construídas são testadas na etapa de teste.

O problema MILP para a classificação é construído de tal forma que a função objetiva é a minimização das classificações erradas no conjunto de dados com o número mínimo de hyper-boxes na etapa de treinamento. A minimização do número de hyper-boxes, ou seja, a eliminação do uso desnecessário de hyper-boxes, é imposta penalizando a existência de uma caixa com um pequeno escalar na função objetiva. Na parte de treinamento, os limites superior e inferior de cada hyper-box também são calculados pelos pontos de dados contidos nessa hyper-box.

Na etapa de teste, os pontos de dados são atribuídos às classes, calculando a distância entre o ponto de dados e cada caixa, e determinando a caixa que está mais próxima do ponto de dados. Finalmente, as classes originais e atribuídas de pontos de dados de teste são comparadas e a eficácia da classificação é obtida por meio de instâncias corretamente classificadas.

Solucionar o problema MILP proposto para otimização é computacionalmente desafiador para grandes conjuntos de dados, devido ao grande número de variáveis binárias. Assim, é desenvolvido um método de decomposição em três fases para obter soluções ótimas de grandes problemas de classificação de dados. Instâncias que são difíceis de classificar são identificadas na primeira etapa a que nos referimos como pré-processamento. Além disso, as sementes são determinadas para cada classe a fim de melhorar a eficiência computacional. Com maior ênfase dada a essas observações, uma solução para o problema é obtida na segunda etapa com o modelo modificado. Finalmente, as atribuições finais e eliminações de interseções são realizadas na terceira etapa.

Neste trabalho, aplicamos este método descrito acima na classificação das atividades das moléculas de drogas para os conjuntos de dados considerados. Realizamos a validação cruzada de 10 vezes enquanto escolhemos os conjuntos de treinamento e testes, onde dividimos os conjuntos de dados aleatoriamente em 10 subamostras com igual número de membros. Destas 10 subamostras, 9 são combinadas e usadas como conjunto de treinamento, e a 1 subamostra restante é usada como conjunto de teste. Então a classificação é feita 10 vezes com cada uma das 10 subamostras usadas exatamente uma vez como o conjunto de teste. Finalmente, a precisão da classificação é relatada como a média dessas 10 classificações.

Classificamos cada um dos candidatos a drogas no conjunto de teste como tendo um valor de IC50 baixo ou alto. Neste estudo iterativo, essa etapa de classificação é realizada várias vezes: primeiro com o conjunto inicial de descritores e, em seguida, utilizando o conjunto aprimorado de descritores derivados da análise de significância.

Análise de significância

Na quarta etapa, são realizados os testes de significância. Após a execução do PLS é possível concluir um descritor como significativo enquanto ele não está na realidade e esse problema é resolvido com a realização de testes de significância após a classificação primária. A idéia principal por trás do teste de significância é a seguinte: Se Z é todo o conjunto de candidatos a drogas, suponha que após a classificação é dividido em duas classes, A e B. Para uma classificação bem sucedida, as variações dos valores dos descritores devem ser menores dentro das classes A e B do que para toda a população, Z.

A equação dada abaixo em Eq. 2.1 exibe a distribuição de F.

S i j 2 / σ i 2 S k 2 / σ i 2 = S i j 2 / S i k 2 = f ν η MathType@MTEF@5@5@+=feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaqcfa4aaSaaaeaacqWGtbWudaqhaaqaaiabdMgaPjabdQgaQbqaaiabikdaYaaacqGGVaWlcqaHdpWCdaqhaaqaaiabdMgaPbqaaiabikdaYaaaaeaacqWGtbWudaqhaaqaaiabdUgaRbqaaiabikdaYaaacqGGVaWlcqaHdpWCdaqhaaqaaiabdMgaPbqaaiabikdaYaaaaaGccqGH9aqpcqWGtbWudaqhaaWcbaGaemyAaKMaemOAaOgabaGaeGOmaidaaOGaei4la8Iaem4uam1aa0baaSqaaiabdMgaPjabdUgaRbqaaiabikdaYaaakiabg2da9iabdAgaMnaaBaaaleaacqaH9oGBcqaH3oaAaeqaaaaa@5191@

(2.1)

onde, S i j 2 MathType@MTEF@5@5@+=feaagaart1ev2aqatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4uam1aa0baaSqaaiabdMgaPjabdQgaQbqaaiabikdaYaaaaaa@30DC@ é a variância amostral dos valores para o descritor i para o conjunto de medicamentos j, ν = n-1 e η = m-1 são graus de liberdade, e n é o número de valores do descritor i para o conjunto de drogas j, e m é o número de valores do descritor i para o conjunto de drogas k.

Então o teste de hipóteses é realizado pela hipótese nula S i j 2 = S i k 2 MathType@MTEF@5@5@+=feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4uam1aa0baaSqaaiabdMgaPjabdQgaQbqaaiabikdaYaaakiabg2da9iabdofatnaaDaaaleaacqWGPbqAcqWGRbWAaeaacqaIYaGmaaaaaa@36F3@ , o que sugere que a variância de todo o conjunto de candidatos a drogas é igual à variância das drogas dentro da mesma classe. Como a variância de todo o conjunto de medicamentos deve ser maior do que a variância dentro da classe, definimos nossa hipótese alternativa como: H a = S i j 2 ≻ S i k 2 MathType@MTEF@5@5@+=feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemisaG0aaSbaaSqaaiabdggaHbqabaGccqGH9aqpcqWGtbWudaqhaaWcbaGaemyAaKMaemOAaOgabaGaeGOmaidaaOGaeS4EIyMaem4uam1aa0baaSqaaiabdMgaPjabdUgaRbqaaiabikdaYaaaaaa@3B21@ , onde j é um membro de todo um conjunto de dados e k é um membro da classe. Note que o valor de p de fvη no atual deve ser menor que o valor de p de fvη no modelo anterior para aceitar a hipótese alternativa.

Construindo o novo modelo de classificação

Este último passo é realizado quando se conclui que há descritores superestimados no modelo durante o passo quatro.

Por isso, um número total de 3 modelos é construído através da análise de regressão selecionando 7, 10 e 15 descritores respectivamente como variáveis representativas de cada modelo, e a análise de significância é aplicada a todos os descritores desses 3 modelos. Se concluirmos pela existência de uma variável insignificante num destes modelos, substituímo-la pelas que são significativas nos outros modelos. Este ajuste é comprovado para melhorar a nossa precisão de classificação. Quando estamos substituindo os menos significativos, os 880 descritores restantes que são eliminados durante a análise PLS são ignorados, já que estes 7, 10 e 15 atributos foram escolhidos pela análise de regressão PLS e têm uma força comprovada na descrição dos valores de IC50. O objetivo principal do estudo de regressão PLS, de fato, é eliminar as características estatisticamente sem sentido, e nos fornecer o espaço amostral mais significativo para continuarmos trabalhando com.

Os resultados obtidos pelo nosso método são comparados com todos os 63 métodos de classificação disponíveis no WEKA, e 16 melhores classificadores WEKA relatados com os resultados obtidos pelo nosso algoritmo na Tabela 3, com a correspondente precisão de classificação. Os atributos utilizados nos classificadores WEKA são os mesmos descritores que são encontrados após os testes de significância, e foi aplicada uma validação cruzada de 10 vezes a cada classificador, incluindo nosso método de classificação.

WEKA é uma poderosa ferramenta de mineração de dados a ser utilizada para fins de comparação, uma vez que inclui todos os algoritmos de aprendizagem de máquina amplamente conhecidos entre seus 63 classificadores. O sucesso destes algoritmos de aprendizagem de máquina existentes na classificação binária de compostos ativos e inativos com base em seus valores descritores também foram relatados anteriormente. A seguir, uma breve visão geral dos métodos de classificação de dados de melhor desempenho disponíveis no WEKA. A Bayesian networkB = <N, A, Φ > é um gráfico acíclico dirigido <N, A> com uma distribuição condicional de probabilidade ligada a cada nó, representada colectivamente por Φ. Cada nó n ∈ N representa um atributo de conjunto de dados, e cada arco a ∈ A entre nós representa uma dependência probabilística. O classificador Naive Bayes assume que todas as variáveis são independentes umas das outras, onde o nó de classificação é representado como o nó pai de todos os outros nós. Naive Bayes Simple usa a distribuição normal para a modelagem dos atributos e manipula atributos numéricos usando discretização supervisionada, onde como Naive Bayes Updateable é uma versão incremental, que processa uma instância de cada vez, e usa um estimador de kernel ao invés de discretização.

O classificador logístico constrói um modelo de regressão logística de duas classes. É um modelo de regressão estatística, onde a regressão logística assume que o log likelihood ratio das distribuições de classe é linear nas observações. O classificador logístico simples constrói modelos de regressão logística linear com base em um único atributo. O modelo é um modelo generalizado do modelo ordinário de regressão de mínimos quadrados. O perceptron de múltiplas camadas é uma rede neural que utiliza propagação de retorno. O perceptron, que é um elemento de processamento, computa uma única saída, uma função de ativação não linear de combinação linear de múltiplas entradas, cujos parâmetros são aprendidos através da fase de treinamento. SMO (sequential minimal optimization), também chamado WEKA SVM (máquina vetorial de suporte), é um método para treinar um classificador vetorial de suporte usando núcleos polinomiais, quebrando um grande problema de otimização de programação quadrática em problemas menores de otimização QP.

IB1 é listado como um classificador preguiçoso, no sentido de que armazena as instâncias de treinamento e não faz realmente nenhum trabalho até o tempo de classificação. IB1 é um aprendiz baseado em instância. Ele encontra a instância de treinamento mais próxima em Euclidian à distância da instância de teste em questão. IBk é um classificador k-nearest-neighbor que usa a mesma idéia.

Logit Boost usa regressão logística aditiva. O algoritmo pode ser acelerado através da atribuição de um limite específico para os pesos. Multi Class Classifier usa quatro métodos distintos de classificação de duas classes para problemas multiclasse. O Threshold Selector, que é um meta aprendiz, optimiza a medida F seleccionando um limiar de probabilidade na saída dos classificadores.

Florestas aleatórias e LMT são métodos de árvore de decisão. O Random Forest gera árvores aleatórias coletando conjuntos de árvores aleatórias, onde como LMT constrói árvores de modelos logísticos, e usa validação cruzada para determinar o número de iterações enquanto encaixa as funções de regressão logística em cada nó. OneR (uma regra) constrói uma árvore de decisão de um nível e aprende uma regra com cada atributo e seleciona a regra com a menor taxa de erro como a regra.