La carrera por resolver uno de los mayores retos de la biología -la predicción de las estructuras tridimensionales de las proteínas a partir de sus secuencias de aminoácidos- se está intensificando gracias a los nuevos enfoques de la inteligencia artificial (IA).
A finales del año pasado, la empresa de IA de Google, DeepMind, presentó un algoritmo llamado AlphaFold, que combinaba dos técnicas emergentes en este campo y que venció a los competidores establecidos en una competición sobre predicción de estructuras de proteínas por un margen sorprendente. Y en abril de este año, un investigador estadounidense reveló un algoritmo que utiliza un enfoque totalmente diferente. Afirma que su IA es hasta un millón de veces más rápida en la predicción de estructuras que la de DeepMind, aunque probablemente no sea tan precisa en todas las situaciones.
En términos más generales, los biólogos se preguntan de qué otra manera podría aplicarse el aprendizaje profundo -la técnica de IA utilizada por ambos enfoques- a la predicción de las disposiciones de las proteínas, que en última instancia dictan su función. Estos enfoques son más baratos y más rápidos que las técnicas de laboratorio existentes, como la cristalografía de rayos X, y el conocimiento podría ayudar a los investigadores a comprender mejor las enfermedades y diseñar medicamentos. «Hay mucha expectación por saber hacia dónde pueden ir las cosas ahora», dice John Moult, biólogo de la Universidad de Maryland en College Park y fundador de la competición bienal, llamada Evaluación Crítica de la Predicción de la Estructura de las Proteínas (CASP), en la que los equipos se enfrentan al reto de diseñar programas informáticos que predigan las estructuras de las proteínas a partir de las secuencias.
Enfoque innovador
El creador del último algoritmo, Mohammed AlQuraishi, biólogo de la Facultad de Medicina de Harvard en Boston (Massachusetts), aún no ha comparado directamente la precisión de su método con la de AlphaFold, y sospecha que AlphaFold superaría a su técnica en precisión cuando se disponga de proteínas con secuencias similares a la que se está analizando como referencia. Pero dice que como su algoritmo utiliza una función matemática para calcular las estructuras de las proteínas en un solo paso -en lugar de en dos pasos como AlphaFold, que utiliza las estructuras similares como trabajo de base en el primer paso- puede predecir las estructuras en milisegundos en lugar de horas o días.
«El enfoque de AlQuraishi es muy prometedor. Se basa en los avances del aprendizaje profundo, así como en algunos trucos nuevos que AlQuraishi ha inventado», afirma Ian Holmes, biólogo computacional de la Universidad de California en Berkeley. «Es posible que, en el futuro, su idea pueda combinarse con otras para avanzar en el campo», dice Jinbo Xu, informático del Instituto Tecnológico Toyota de Chicago (Illinois), que compitió en el CASP13.
En el núcleo del sistema de AlQuraishi hay una red neuronal, un tipo de algoritmo inspirado en el cableado del cerebro que aprende a partir de ejemplos. Se alimenta con datos conocidos sobre cómo las secuencias de aminoácidos se corresponden con las estructuras de las proteínas y luego aprende a producir nuevas estructuras a partir de secuencias desconocidas. La novedad de su red radica en su capacidad para crear esos mapeos de principio a fin; otros sistemas utilizan una red neuronal para predecir ciertas características de una estructura y luego otro tipo de algoritmo para buscar laboriosamente una estructura plausible que incorpore esas características. La red de AlQuraishi tarda meses en entrenarse, pero una vez entrenada, puede transformar una secuencia en una estructura casi inmediatamente.
Su enfoque, que él denomina red geométrica recurrente, predice la estructura de un segmento de una proteína basándose en parte en lo que viene antes y después. Esto es similar a la forma en que la interpretación de las personas de una palabra en una oración puede estar influenciada por las palabras circundantes; estas interpretaciones están a su vez influenciadas por la palabra focal.
Dificultades técnicas significaron que el algoritmo de AlQuraishi no funcionó bien en CASP13. Publicó los detalles de la IA en Cell Systems en abril1 y puso su código a disposición del público en GitHub, con la esperanza de que otros se basen en el trabajo. (Las estructuras de la mayoría de las proteínas probadas en CASP13 aún no se han hecho públicas, por lo que todavía no ha podido comparar directamente su método con AlphaFold.)
Redes neuronales
AlphaFold compitió con éxito en CASP13 y causó un gran revuelo cuando superó a todos los demás algoritmos en objetivos difíciles en casi un 15%, según una medida.
AlphaFold funciona en dos pasos. Al igual que otros enfoques utilizados en la competición, comienza con algo llamado alineaciones de secuencias múltiples. Compara la secuencia de una proteína con otras similares en una base de datos para revelar pares de aminoácidos que no se encuentran uno al lado del otro en una cadena, pero que tienden a aparecer en tándem. Esto sugiere que estos dos aminoácidos se encuentran cerca el uno del otro en la proteína plegada. DeepMind entrenó a una red neuronal para que tomara tales emparejamientos y predijera la distancia entre dos aminoácidos emparejados en la proteína plegada.
Al comparar sus predicciones con distancias medidas con precisión en las proteínas, aprendió a hacer mejores conjeturas sobre cómo se plegarían las proteínas. Una red neuronal paralela predijo los ángulos de las uniones entre aminoácidos consecutivos en la cadena proteica plegada.
Pero estos pasos no pueden predecir una estructura por sí mismos, porque el conjunto exacto de distancias y ángulos predichos podría no ser físicamente posible. Así que en un segundo paso, AlphaFold creó una disposición de plegado físicamente posible -pero casi aleatoria- para una secuencia. En lugar de otra red neuronal, utilizó un método de optimización llamado descenso de gradiente para refinar iterativamente la estructura de modo que se acercara a las predicciones (no del todo posibles) del primer paso.
Otros pocos equipos utilizaron uno de los enfoques, pero ninguno utilizó ambos. En el primer paso, la mayoría de los equipos se limitaron a predecir el contacto en pares de aminoácidos, no la distancia. En el segundo paso, la mayoría utilizó complejas reglas de optimización en lugar del descenso de gradiente, que es casi automático.
«Hicieron un gran trabajo. Van un año por delante de los demás grupos», dice Xu.
Direcciones futuras
DeepMind aún no ha dado a conocer todos los detalles sobre AlphaFold – pero otros grupos han empezado a adoptar desde entonces las tácticasdemostradas por DeepMind y otros equipos punteros en el CASP13. Jianlin Cheng, informático de la Universidad de Missouri en Columbia, dice que modificará sus redes neuronales profundas para que tengan algunas características de las de AlphaFold, por ejemplo, añadiendo más capas a la red neuronal en la fase de predicción de la distancia. Tener más capas -una red más profunda- suele permitir a las redes procesar la información con mayor profundidad, de ahí el nombre de aprendizaje profundo.
«Estamos deseando ver cómo se ponen en práctica sistemas similares», dice Andrew Senior, el informático de DeepMind que dirigió el equipo de AlphaFold.
Moult dijo que en el CASP13 se discutió mucho sobre cómo podría aplicarse el aprendizaje profundo al plegamiento de proteínas. Tal vez podría ayudar a refinar las predicciones de estructuras aproximadas; informar sobre el grado de confianza del algoritmo en una predicción de plegado; o modelar las interacciones entre proteínas.
Y aunque las predicciones computacionales aún no son lo suficientemente precisas como para ser ampliamente utilizadas en el diseño de fármacos, la creciente precisión permite otras aplicaciones, como entender cómo una proteína mutada contribuye a la enfermedad o saber qué parte de una proteína convertir en una vacuna para la inmunoterapia. «Estos modelos están empezando a ser útiles», afirma Moult.