A corrida para quebrar um dos maiores desafios da biologia – prever as estruturas 3D das proteínas a partir de suas sequências de aminoácidos – está se intensificando, graças a novas abordagens de inteligência artificial (IA).
No final do ano passado, a firma de IA do Google DeepMind estreou um algoritmo chamado AlphaFold, que combinava duas técnicas que estavam surgindo no campo e batia os competidores estabelecidos em uma competição de predição de estrutura de proteínas por uma margem surpreendente. E em abril deste ano, um pesquisador dos EUA revelou um algoritmo que usa uma abordagem totalmente diferente. Ele afirma que sua IA é até um milhão de vezes mais rápida na previsão de estruturas do que a do DeepMind, embora provavelmente não seja tão precisa em todas as situações.
De forma mais ampla, os biólogos estão se perguntando como uma aprendizagem mais profunda – a técnica de IA usada por ambas as abordagens – poderia ser aplicada à previsão de arranjos protéicos, que em última instância ditam a função de uma proteína. Estas abordagens são mais baratas e mais rápidas do que as técnicas laboratoriais existentes, como a cristalografia de raios X, e o conhecimento poderia ajudar os pesquisadores a entender melhor as doenças e a projetar medicamentos. “Há muita excitação sobre para onde as coisas podem ir agora”, diz John Moult, biólogo da Universidade de Maryland em College Park e fundador da competição bienal, chamada Avaliação Crítica da Previsão da Estrutura da Proteína (CASP), onde as equipes são desafiadas a projetar programas de computador que prevêem estruturas protéicas a partir de seqüências.
Abordagem inovadora
O último criador do algoritmo, Mohammed AlQuraishi, biólogo da Harvard Medical School em Boston, Massachusetts, ainda não comparou diretamente a precisão de seu método com o do AlphaFold – e ele suspeita que o AlphaFold venceria sua técnica em precisão quando proteínas com sequências similares à que está sendo analisada estão disponíveis para referência. Mas ele diz que como seu algoritmo usa uma função matemática para calcular estruturas proteicas em um único passo – ao invés de em dois passos como AlphaFold, que usa estruturas similares como base no primeiro passo – ele pode prever estruturas em milissegundos ao invés de horas ou dias.
“A abordagem de AlQuraishi é muito promissora. Ela se baseia em avanços no aprendizado profundo, bem como em alguns novos truques inventados por AlQuraishi”, diz Ian Holmes, um biólogo computacional da Universidade da Califórnia, Berkeley. “É possível que, no futuro, sua idéia possa ser combinada com outras para avançar no campo”, diz Jinbo Xu, um cientista da computação do Instituto Tecnológico Toyota em Chicago, Illinois, que competiu no CASP13.
No núcleo do sistema AlQuraishi está uma rede neural, um tipo de algoritmo inspirado na fiação do cérebro que aprende com exemplos. Ele é alimentado com dados conhecidos sobre como as sequências amino-ácidas mapeiam as estruturas proteicas e depois aprende a produzir novas estruturas a partir de sequências desconhecidas. A parte nova da sua rede reside na sua capacidade de criar tais mapeamentos de ponta a ponta; outros sistemas usam uma rede neural para prever certas características de uma estrutura, depois outro tipo de algoritmo para procurar laboriosamente uma estrutura plausível que incorpore essas características. A rede de AlQuraishi leva meses para treinar, mas uma vez treinada, ela pode transformar uma seqüência em uma estrutura quase imediatamente.
A sua abordagem, que ele denomina de rede geométrica recorrente, prevê a estrutura de um segmento de uma proteína em parte com base no que vem antes e depois dela. Isto é semelhante a como a interpretação de uma palavra numa frase pode ser influenciada por palavras circundantes; estas interpretações são por sua vez influenciadas pela palavra focal.
Dificuldades técnicas significaram que o algoritmo de AlQuraishi não teve um bom desempenho no CASP13. Ele publicou detalhes da IA em Sistemas Celulares em abril1 e tornou seu código publicamente disponível no GitHub, esperando que outros o desenvolvam no trabalho. (As estruturas da maioria das proteínas testadas no CASP13 ainda não foram tornadas públicas, então ele ainda não foi capaz de comparar diretamente seu método com AlphaFold.)
Redes Naturais
AlphaFold competiu com sucesso no CASP13 e criou uma agitação quando superou todos os outros algoritmos em quase 15%, de acordo com uma medida.
AlphaFold funciona em dois passos. Como outras abordagens usadas na competição, ele começa com algo chamado alinhamentos de sequências múltiplas. Ele compara a seqüência de uma proteína com outras similares em um banco de dados para revelar pares de aminoácidos que não estão próximos uns dos outros em uma cadeia, mas que tendem a aparecer em tandem. Isto sugere que estes dois aminoácidos estão localizados perto um do outro na proteína dobrada. O DeepMind treinou uma rede neural para tomar tais pares e prever a distância entre dois aminoácidos pareados na proteína dobrada.
Ao comparar suas previsões com distâncias medidas com precisão em proteínas, aprendeu a fazer melhores adivinhas sobre como as proteínas se dobrariam. Uma rede neural paralela previu os ângulos das articulações entre aminoácidos consecutivos na cadeia protéica dobrada.
Mas estas etapas não podem prever uma estrutura por si só, pois o conjunto exato de distâncias e ângulos previstos pode não ser fisicamente possível. Assim, em uma segunda etapa, o AlphaFold criou um arranjo de dobra fisicamente possível – mas quase aleatório – para uma sequência. Ao invés de outra rede neural, ele usou um método de otimização chamado descida gradual para refinar iterativamente a estrutura de modo que ela se aproximasse das previsões (não-quase-possíveis) do primeiro passo.
Uma poucas equipes usaram uma das abordagens, mas nenhuma usou ambas. No primeiro passo, a maioria das equipas apenas previu o contacto em pares de aminoácidos, e não a distância. No segundo passo, a maioria usou regras de otimização complexas ao invés de descida por gradiente, o que é quase automático.
“Eles fizeram um grande trabalho. Eles estão cerca de um ano à frente dos outros grupos”, diz Xu.
Direções futuras
DeepMind ainda não liberou todos os detalhes sobre o AlphaFold – mas outros grupos começaram desde então a adotar táticas demonstradas pelo DeepMind e outras equipes líderes no CASP13. Jianlin Cheng, um cientista da Universidade do Missouri em Columbia, diz que ele modificará suas redes neurais profundas para ter algumas características do AlphaFold, por exemplo, adicionando mais camadas à rede neural em estágio de previsão de distância. Ter mais camadas – uma rede mais profunda – muitas vezes permite que as redes processem informações mais profundamente, daí o nome deep learning.
“Estamos ansiosos para ver sistemas similares colocados em uso”, diz Andrew Senior, o cientista de computação do DeepMind que liderou a equipe AlphaFold.
Moult disse que houve muita discussão no CASP13 sobre como o aprendizado profundo poderia ser aplicado ao dobramento de proteínas. Talvez isso possa ajudar a refinar as previsões de estrutura aproximada; relatar o quão confiante o algoritmo está em uma previsão de dobramento; ou modelos de interações entre proteínas.
E embora as previsões computacionais ainda não sejam suficientemente precisas para serem amplamente utilizadas no desenho de medicamentos, a crescente precisão permite outras aplicações, tais como compreender como uma proteína mutante contribui para a doença ou saber qual parte de uma proteína a ser transformada em uma vacina para imunoterapia. “Estes modelos estão começando a ser úteis”, diz Moult.