- NeoFronteras - http://neofronteras.com -

Más predicciones de plegamientos

El equipo de Alphafold publica la estructura terciaria de más de 350 000 proteínas

Foto

El gran problema de la bioquímica siempre ha sido el de predecir cómo será la estructura terciaria de una proteína a partir del gen que la codifica.

Las proteínas son el tipo más importante de molécula estructural de la vida. Y no solamente dotan de estructura a los organismos, sino que, además, actúan como biocatalizadores que ayudan en la síntesis de otros compuestos biológicos.

La información genética no es más que una secuencia de bases que determina una secuencia de aminoácidos y una cadena de aminoácidos no es más una proteína. Pero la función de una proteína, cómo funciona, depende de su estructura 3D, pero no hay una manera sencilla de saber esta estructura, cómo la proteína se pliega sobre sí misma, a partir de la secuencias de aminoácidos. De algún modo, ese hilo de aminoácidos se pliega hasta alcanzar un forma específica tridimensional que depende de muchos factores.

Saber esta forma tridimensional también determina en última instancia la eficacia de un fármaco o de una vacuna y muchos conocimientos en ciencia básica.

Como hemos dicho, la función de una proteína depende fuertemente de su forma, de su estructura tridimensional. Y saber esta estructura es muy difícil. A veces se puede saber esta estructura 3D analizando el resultado por cristalografía de rayos X (previa cristalización), criomicroscopía electrónica o por resonancia magnética nuclear. Técnicas todas ellas que son muy complicadas. Para esto necesitamos la proteína física, pero el sueño sería calcular la proteína a partir de datos, en concreto a partir de la secuencia de aminoácidos.

Desde hace décadas el sueño húmedo ha sido meter esta secuencia de aminoácidos en un programa y que una computadora te dé la forma tridimensional de la proteína. Hasta hace no tanto esta posibilidad era casi imposible.

En esto que llegó AlphaFold, un sistema de aprendizaje por redes neuronales, que en los últimos tiempos ha tenido bastante éxito. Ahora, dos grupos de investigación han publicado sus logros en este campo usando este tipo de tecnología de inteligencia artificial (IA).

Uno de esos equipos informa que ha utilizado sus programas de inteligencia artificial para resolver las estructuras de 350 000 proteínas de humanos y 20 organismos modelo. Además, AlphaFold ha predicho proteomas casi completos para varios otros organismos, desde ratones al maíz, pasando por el parásito de la malaria. El grupo anuncia que en los próximos meses ampliará su lista de proteínas modeladas hasta cubrir todas las proteínas catalogadas: unos 100 millones de moléculas.

AlphaFold es el trabajo de investigadores de DeepMind (empresa de Google). En el otoño de 2020, AlphaFold ya consiguió un éxito tremendo al arrasar en el concurso CASP, con una puntuación de 92,4 sobre 100.

Los investigadores implicados no revelaron entonces los detalles de cómo funciona exactamente su programa de IA y otros equipos se sintieron frustrados. Esto empezó a cambiar hace poco. El pasado 15 de julio, un grupo de investigadores dirigidos por Minkyung Baek y David Baker (Universidad de Washington) informó que habían creado un programa de predicción de la estructura de proteínas de alta precisión llamado RoseTTAFold y además hicieron público en Science su código y funcionamiento. Ese mismo día, se revelaron detalles de AlphaFold en un artículo de Nature.

En el proceso de preparación del código de AlphaFold para su lanzamiento público, DeepMind lo perfeccionó para que el código se ejecutara de manera más eficiente. Algunas de las predicciones que se hicieron para CASP tardaron días, pero la versión actualizada de AlphaFold puede calcularlas en horas o minutos.

Además de usar redes neuronales, ambos programas calculan la estructura más probable de proteínas desconocidas considerando también las reglas físicas y biológicas básicas que controlan cómo interactúan los aminoácidos vecinos en una proteína.

Hace unos días, los investigadores de Alphafold publicaron en Nature la 350 000 estructuras predichas por el programa. Según los investigadores implicados, AlphaFold produjo estructuras para casi el 44% de todas las proteínas humanas, cubriendo casi el 60% de todos los aminoácidos codificados por el genoma humano.

AlphaFold determinó además que muchas de las otras proteínas humanas no adoptan una estructura única y pueden finalmente adoptar su estructura funcional cuando se unen a otra proteína con la que están asociadas. Se sospecha que una gran proporción de proteínas humanas y las de otros eucariotas contienen estas regiones que adquieren una estructura definida solo en concierto con otras moléculas. Además, muchas proteínas simplemente se moverían en la disolución y no tendrían una estructura fija.

En el concurso CASP, la mayoría de las predicciones fueron para unidades de plegamiento independientes de una proteína denominadas dominios. Pero un proteoma (humano o de otros organismos) contienen proteínas con múltiples dominios que se pliegan de forma semi-independiente. Las células también contienen moléculas compuestas por múltiples cadenas de proteínas que interactúan entre sí, como en el caso de los receptores que hay en las membranas celulares.

Se ha creado una base de datos en linea con las nuevas predicciones que, además, es de acceso gratuito. Debido a que, como ya hemos dicho, la estructura 3D de una proteína dicta en gran medida su función, esta base de datos puede ayudar a los biólogos a determinar cómo funcionan miles de proteínas desconocidas. La base de datos se actualizará a medida que se identifiquen nuevas proteínas y se mejoren las predicciones.

Además de las estructuras predichas, que cubren el 98,5% de las proteínas humanas conocidas y un porcentaje similar para otros organismos, AlphaFold generó una medida de la confianza de sus predicciones para que otros investigadores sepan en qué partes de las predicciones deben confiar. Pero incluso las predicciones que son menos precisas pueden ofrecer información valiosa a los científicos. Aún así, los biólogos querrán continuar comparando estas predicciones con datos experimentales para mejorar su fiabilidad.

Los investigadores implicados enfatizan que el volcado de datos es un comienzo, no un final. Sostienen que habrá que validar las predicciones y aplicarlas a experimentos que hasta ahora eran imposibles.

En todo caso, los biólogos estructurales no se quedarán sin trabajo. Tanto los científicos experimentales como los computacionales ya están comenzando a colaborar entre sí para tratar de comprender exactamente qué proteínas interactúan entre sí y qué cambios moleculares ocurren durante estas interacciones.

Lo que parece claro es que se abre una nueva era en bioquímica que revolucionará áreas como la investigación básica, farmacología, nuevos materiales, etc.

Copyleft: atribuir con enlace a https://neofronteras.com [1]

Fuentes y referencias:
Artículo original 1. [2]
Artículo original 2. [3]
Ilustración de cabecera: DeepMind.