- NeoFronteras - http://neofronteras.com -

Éxito de AlphaFold

AlphaFold arrasa en el certamen CASP14 prediciendo estructuras de proteínas.

Foto

La vida está basada, entre otras cosas, en proteínas. Las proteínas no solamente dotan de estructura a los organismos terrestres, sino que actúan como biocatalizadores que ayudan en la síntesis de otros compuestos biológicos.

Así, la información genética no es más que una secuencia de bases que determina una secuencia de aminoácidos y una cadena de aminoácidos no es más una proteína.

Saber la secuencia genética ya es sencillo, por tanto es fácil saber la secuencia de aminoácidos que tiene una proteína. Pero eso no significa que sepamos cómo funciona una proteína, su función. De algún modo, ese hilo de aminoácidos se pliega sobre sí mismo hasta alcanzar un forma específica tridimensional que depende de muchas cosas, incluso de las propiedades del medio en el que se encuentra y esta estructura es la que determina la función de la proteína. Saber esta forma también determina en última instancia la eficacia de un fármaco o de una vacuna y muchos conocimientos en ciencia básica.

Como hemos dicho, la función de una proteína depende fuertemente de su forma, de su estructura tridimensional. Y saber esta estructura es muy difícil. Se puede intentar cristalizando la proteína en cuestión y analizando el resultado por cristalografía de rayos X, pero cristalizar proteínas e interpretar los datos de la cristalografía de rayos X no son cosas fáciles. También se puede estudiar con criomicroscopía electrónica o por resonancia magnética nuclear y esto tampoco es sencillo.

Desde hace 50 años el «sueño húmedo» de los científicos que se dedican a este tema es tener la secuencia de aminoácidos, meterla como input en un programa y que una computadora te dé la forma tridimensional de la proteína. La mayoría de los programas que tratan de hacer esto no tienen mucho éxito.

Para fomentar la competitividad en este campo hay una convocatoria bienal desde 1994 (Critical Assessment of protein Structure Prediction o CASP) en la que distintos programas tratan de averiguar a ciegas la estructura de proteínas de las que ya se sabe su forma previamente. En este certamen se dan puntuaciones a los distintos programas en función de su éxito a la hora de predecir esas estructuras.

En la anterior edición de 2018 (CASP13) ganó AlphaFold (de Google), que obtuvo con una puntuación de 120,4, por encima de los 107,6 y 99,4 puntos del segundo y tercer puesto respectivamente.

CASP tiene lugar durante varios meses, pues las proteínas objetivo, de un total de 100, son publicadas al cabo de un plazo para que los distintos equipos tengan varias semanas para trabajar en ellas y puedan enviar la predicción.

AlphaFold no trata de predecir las relaciones de los aminoácidos entre sí, sino que predice la estructura 3D final de la proteína con esa secuencia de aminoácidos. Se basa en una red neuronal de aprendizaje profundo. Además, el sistema usa información adicional acerca de las limitaciones físicas y geométricas que determinan el plegamiento de las proteínas.

En los últimos años, a estas redes neuronales se las llama injustamente «inteligencia artificial», pues esta denominación depende mucho de la tecnología que se use en cada época para emular algunas de las capacidades de un comportamiento inteligente.

Una red neuronal es alimentada en la fase de entrenamientos con ejemplos de lo que es o no es algo y esta va aprendiendo en qué consiste hasta que llega a predecir cómo será ese algo, sea en el campo del reconocimiento de formas, el diagnóstico, jugar al go o el plegamiento de proteínas.

Lo curioso de estos sistemas es que funcionan como una caja negra, pues no se sabe cómo llegan al resultado que llegan.

Las redes neuronales son de distintos tipos y pueden adolecer de diferentes problemas, como el del sobreentrenamiento. Tampoco son tan infalibles como se las ha vendido. Recientemente se hizo famoso un caso de una cámara de TV controlada por una «inteligencia artificial» basada en red neuronal entrenada para seguir el balón en partidos de fútbol. Un día se encontró con un hombre calvo entre el público y confundió su cabeza con el balón, quedándose la cámara fija en él.

Desde 2018 muchos competidores de CASP ha terminado usando alguna versión de red neuronal, pero sin mucho éxito. Este año, en la CASP14, AlphaFold 2 ha vuelto a ganar con una puntuación de 244, muy por encima de los 90,8 y 89 puntos para el segundo y tercer puestos.

No se tiene un acierto del 100%, pero sí muy cerca de un 90% y casi dentro del error experimental. Para casi dos tercios de las proteínas propuestas las predicciones de AlphaFold son indistinguibles de las estructuras de proteínas basadas en observaciones con cristalografía o criomicroscopía electrónica.

Las predicciones de AlphaFold fueron peores en el caso de que la estructura fuera determinada por espectroscopía de resonancia magnética nuclear. No se sabe la razón de esto, pero podría deberse a que los datos reales en crudo no se vuelcan bien al modelado de la proteína.

AlphaFold 2 ha sido entrenada con todas las estructuras de proteínas publicadas en el Banco de Datos de Proteínas, que consta de unas 170 000 estructuras de proteínas, y otras bases de datos de secuencias de proteínas.

Emplea dos redes neuronales conectadas entre sí que están realimentadas y el resultado combinado corresponde a la predicción para la estructura de la proteína en cuestión. Además, proporciona la confianza estadística de dicha predicción. Este sistema corre en un hardware consistente en 16 TPU (unidad de procesamiento tensorial) de 8 núcleos cada una y una memoria de 128 GiB.

Hay que reconocer que AlphaFold es ahora el mejor sistema de predicción de estructuras de proteínas. «Es un punto de inflexión», ha dicho Andrei Lupas (biólogo evolutivo del Max Planck). Para este investigador AlphaFold ha sido de gran ayuda. Así, le ha permitido saber la estructura de una proteína sobre la que llevaban diez años intrigado. «Esto cambiará la Medicina. Cambiará la investigación. Cambiará la bioingeniería. Lo cambiará todo», añade.

Mohammed AlQuraishi (Columbia University) cree que este sistema será muy disruptivo en el campo de predicción de estructura de proteínas. «Es un logro de primer orden, ciertamente uno de los resultados científicos más significativos de mi vida», añade.

«Este es un problema para el cual había empezado a pensar que no se resolvería en mi vida», dice Janet Thornton (European Molecular Biology Laboratory-European Bioinformatics Institute in Hinxton, UK).

Demis Hassabis, cofundador de DeepMind, la compañía que ha creado AlphaFold, dice que la empresa planea hacer que este sistema sea útil para los científicos de tal modo que lo puedan emplear fácilmente. Según él, AlphaFold sólo necesita unos días para predecir la estructura de una proteína. «Estamos empezando a comprender lo que los biólogos quieren», añade.

AlphaFold predice la estructura de proteínas, el estadio final, pero no ha resuelto el problema del plegamiento de proteínas tal y como lo entienden los científicos del área. Esto último implicaría que el programa proporcionara los estadios que sigue la proteína desde que sale del ribosoma y cómo se va plegando sobre sí misma paso a paso, pero esto es algo que nadie ha conseguido aún.

Pero hay que reconocer sus éxitos. A comienzos de este año esta compañía publicó la estructura de diversas proteínas del virus SARS-CoV-2 que todavía no habían sido averiguadas experimentalmente. La predicción para la proteína Orf3a terminó siendo muy similar al que se dedujo experimentalmente más tarde.

De este modo, AlphaFold podría ser de utilidad para diseñar fármacos y tratamientos. Además sería una fuente increíble de conocimiento a partir de la información genómica ya secuenciada. Puede que ilumine la función de miles de proteínas del genoma humano que están aún sin resolver y que podrían estar implicadas en ciertas enfermedades. El tiempo lo dirá.

Copyleft: atribuir con enlace a https://neofronteras.com [1]

Fuentes y referencias:
Noticica en Nature. [2]
Noticia en Science [3]
Nota de prensa. [4]
Imagen de la recreación de proteína: DeepMind