Mostrando entradas con la etiqueta predicción de contactos. Mostrar todas las entradas
Mostrando entradas con la etiqueta predicción de contactos. Mostrar todas las entradas

23 de julio de 2021

Alphafold2: estructuras de proteínas para todos los públicos

Hola,

el jueves pasado escribía aquí sobre RoseTTAFold, que ponía al alcance de los programadores una potente herramienta para predecir la estructura de cualquier proteína que tenga suficientes secuencias parecidas en los archivos. Unas horas más tarde me enteré de que su principal competidor, AlphaFold2, del que hemos escrito aquí, aquí y aquí , había hecho también sus deberes y publicaba sus modelos neuronales para predecir el plegamiento de secuencias de aminoácidos. Hay muchos hilos en Twitter, como éstos: 1 y 2 .

En un artículo en Nature repasan sus resultados en CASP14, como su notable precisión de 1.5 Å de RMSD para todos los átomos modelados, y muestran que esos resultados excelentes se sostienen en gran medida en un conjunto de 3144 estructuras recientemente publicadas en el Protein Data Bank tras descartar las estructuras conocidas con % identidad de secuencia > 40. El siguiente vídeo resume el proceso de predicción de una secuencia con múltiples dominios y 863 aminoácidos. Recuerdo que la única información de partida es la secuencia de aminoácidos y un alineamiento múltiple de esa secuencia con otras secuencias no redundantes de proteínas homólogas:

 

Fuente: https://www.nature.com/articles/s41586-021-03819-2

Alphafold2 no es perfecto, ya que en la validación contra el PDB hay un en torno a un 25% de predicciones con valores de RMSD elevados, pero en la mayor parte de los casos es excelente:

Una de las fortalezas del método es que es capaz de estimar bien la calidad los modelos que genera (ver Figura 2b de https://www.nature.com/articles/s41586-021-03828-1). Entre las limitaciones reseñadas por los autores del trabajo, destacan:

1) La calidad de las predicciones cae de manera significativa si el alineamiento múltiple de secuencias homólogas a la de interés tiene una profundidad < 30 (leer más aquí). 

2) Las estructuas de Alphafold son de menor calidad para dominios poco compactos, con pocos contactos, como los dominios puente. Esto contrasta con las buenas prestaciones observadas (3) para predecir estructuras cuaternarias de homómeros.

Para los que queráis probarlo hay varias opciones:

i) El contenedor Docker descrito en https://github.com/deepmind/alphafold que ojo, requiere 2.2TB de espacio si instalas todas las bases de datos. 

ii) Un cuaderno Colab con un predictor simplificado en https://colab.research.google.com/github/deepmind/alphafold/blob/main/notebooks/AlphaFold.ipynb

iii) Las predicciones ya disponibles en UniProt para un total de 21 especies (https://alphafold.ebi.ac.uk/download), incluyendo 4 plantas (Arabidopsis thaliana, soja, arroz y maíz). Puedes leer más en 4, 5 y 6 y 7.

Hasta pronto,

Bruno

30 de noviembre de 2020

AlphaFold resuelve el plegamiento de proteínas (en CASP14)

Hola, 

estos días está transcurriendo CASP14, la edición 14 del certámen de predicción  de estructura de proteínas. La última vez que hablamos de CASP en este blog fue en esta entrada del año pasado. Por recordar un poco, en CASP participan grupos de investigación de todo el mundo que tratan de modelar un conjunto de secuencias de proteínas cuyas estructuras se han resuelto experimentalmente, pero que solamente se publican despúes de la temporada de predicción. Por tanto, los grupos y su algoritmos trabajan relativamente a ciegas en esas predicciones.

Digo relativamente porque en realidad se apoyan en la creciente colección de estructuras conocidas del PDB, del orden 10E5,  y en las millones de secuencias de proteínas conocidas (del orden 10E8). Por esa razón unas secuencias son más fáciles, porque se parecen a otras conocidas, y otras más difíciles, porque no se parecen demasiado a nada conocido.

En la edición CASP14 había un total de 92 secuencias de aminoácidos, cada una correspondiente a un dominio. La siguiente figura, obtenida de https://predictioncenter.org/casp14/zscores_final.cgi resume los resultados,  mostrando que los dos mejores grupos de la última década (Baker y Zhang) han sido ampliamente superados por AlphaFold2 (columna de la izquierda, del que ya habíamos hablado aquí):

 


En definitiva, la combinación de estrategias de aprendizaje automático de AlphaFold2, descritas en https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology, han superado con mucho a todos los expertos que más saben de este problema tan difícil. 

Qué opinan los expertos? Aquí tenéis por ejemplo a Torsten Schwede , Mohammed AlQuraishi o a Alfonso Valencia

Supongo que no estará de más esperar a CASP15 para comprobar que este progreso se mantiene en el tiempo, pero por ahora parece que lo han resuelto. Solamente nos queda exigir a DeepMind, la matriz de AlphaFold2, que libere su predictor para fines académicos y de esa manera devuelvan a la comunidad lo que de ella han extraído en estos últimos años.

Un saludo,

Bruno

PD Nota importante: como recuerda Alfonso Valencia en https://twitter.com/Alfons_Valencia/status/1333682759366303745, no es lo mismo predecir la estructura que la reacción de plegamiento


9 de septiembre de 2019

modelos de proteínas a partir de alineamientos múltiples

Hola,
desde hace unos meses he estado hablando aquí (1, 2, 3) de los nuevos métodos de predicción de estructura de proteínas basados en estimar distancias entre resíduos a partir de los alineamientos múltiples de sus secuencias (MSA). Hoy traigo aquí uno de esos métodos, que a diferencia de alphaFold, podéis probar en vuestro propio ordenador: DMPfold. Este algoritmo es producto del grupo de David T. Jones, bien conocido por herramientas muy populares como PSIPRED y usa la información evolutiva capturada en un MSA para calcular distancias entre C-betas, puentes de hidrógeno del esqueleto peptídico y ángulos diedros (leer aquí y aquí).


Diagrama de flujo de DMPfold, tomado de https://www.nature.com/articles/s41467-019-11994-0


La lista de dependencia es larga, como explican en su repositorio https://github.com/psipred/DMPfold, pero os permitirá modelar vuestras propias secuencias, incluso proteínas de membrana, y tener el control sobre el proceso,
hasta pronto,
Bruno

7 de febrero de 2019

Introducción a AlphaFold

Hola,
vengo de escuchar a Andrew W Senior en el auditorio Kendrew del EMBL-EBI hablar de cómo funciona AlphaFold para predecir la estructura de proteínas. Como titulaba en Diciembre, todavía no sabemos plegar proteínas, pero cada vez tenemos más información en el Protein Data Bank (del orden de 150K estructuras) para poder predecir distancias entre residuos y ángulos diedros.

Fuente: https://deepmind.com/blog/alphafold

Trataré de resumir lo que nos ha contado antes de que salga el artículo, pero ojo, ha advertido que el código no piensan publicarlo por ahora. Su sistema comprende varios módulos que se ejecutan secuencialmente:

1) Extración de correlaciones evolutivas entre residuos de una secuencia de aminoácidos en forma de modelo de Potts (CCMpred) a partir de perfiles de secuencias homólogas obtenidas con PSIBLAST o HHblits, como hace HHpred.

2) Red neuronal profunda, con al menos dos variantes:
2.1) predicción de distancias reales entre C-betas, no contactos, a partir de histogramas precalculados en el rango de 2 a 22 Ansgtrom. En esto se parecen a RaptorX.
2.2) predicción de ángulos diedros phi y psi

NOTA1: Las predicciones de distancias les permiten asignar estructura secundaria con una precisión Q3  del 84% usando las estructuras de CASP11.

NOTA2: Parten la matriz de contactos en submatrices (crops) que comprenden siempre un trozo de la diagonal principal y esa manera, y con la estructura secundaria, propagan localmente las restricciones de distancias entre residuos cercanos.

3) Diferenciación del potencial de distancias/ángulos por métodos de minimización de gradientes. Lo hacen partiendo la secuencia en dominios o con la secuencia entre y observan que la segunda manera funciona mejor.

4) Relajan el esqueleto obtenido y le añaden cadenas laterales completas con Rosetta. En sus manos esto no mejora el modelo de manera significativa.

Hasta luego,
Bruno




17 de diciembre de 2018

no sabemos plegar proteínas (CASP13)

Hola,
en la última entrada de este año, escrita desde Hinxton, UK, me gustaría hablar de CASP13, la edición más reciente del experimento colectivo de predicción a ciegas de estructuras de proteínas (que ya habíamos mencionado aquí).

Entre que esta ocasión ha habido un salto de capacidad predictiva y que el aprendizaje automático está de actualidad, este año CASP ha salido en todas partes: en Science, en The Guardian y hasta en El País.

Yo me centraré aquí en las opiniones de expertos participantes de CASP. Pero antes, para que sepáis de qué hablo, podéis ver los resultados oficiales en predictioncenter.org/casp13

Empezaré por esta figura de Torsten Schwede, que muestra el salto de calidad de las mejores predicciones a lo largo de la historia de CASP. El ajuste entre un modelo y su estructura experimental se calcula con la función GDT_TS:

Fuente: https://www.sib.swiss/about-sib/news/10307-deep-learning-a-leap-forward-for-protein-structure-prediction

Otra visión de los mismos resultados nos la da Mohammed AlQuraishi, mostrando la separación entre los mejores grupos/predictores en ediciones de CASP:


Fuente: https://moalquraishi.wordpress.com/2018/12/09/alphafold-casp13-what-just-happened/
En ambos casos podemos ver una tendencia ascendente que habrá que ver si se mantiene en el tiempo o, si en cambio, se debe a que las secuencias problema de CASP13 eran más fáciles que otras veces.

Qué ha pasado en los últimos años? Seguramente la suma de muchas cosas. Por ejemplo, la llegada del equipo DeepMind en esta edad de oro del aprendizaje automático. Es curioso, porque las redes neuronales se han estado aplicando en CASP desde los años noventa para la predicción de estructura secundaria; sin embargo, desde 2011 sabemos que para muchas familias de proteínas tenemos tantas secuencias diferentes que podemos predecir los contactos que se dan entre las partes plegadas de la proteína.

Fuente: https://doi.org/10.1371/journal.pone.0028766  

Por tanto, no sabemos cómo se pliegan las proteínas todavía, pero algunos grupos de investigación han sabido explotar la información evolutiva implícita en alineamientos múltiples de proteínas para saber qué tipo de plegamiento adoptan finalmente. Muchos de esos grupos comparten su código fuente (por ejemplo http://evfold.org/evfold-web/evfold.do), a ver si lo hace DeepMind pronto,

hasta el año que viene!

Bruno