30 de noviembre de 2020

AlphaFold resuelve el plegamiento de proteínas (en CASP14)

Hola, 

estos días está transcurriendo CASP14, la edición 14 del certámen de predicción  de estructura de proteínas. La última vez que hablamos de CASP en este blog fue en esta entrada del año pasado. Por recordar un poco, en CASP participan grupos de investigación de todo el mundo que tratan de modelar un conjunto de secuencias de proteínas cuyas estructuras se han resuelto experimentalmente, pero que solamente se publican despúes de la temporada de predicción. Por tanto, los grupos y su algoritmos trabajan relativamente a ciegas en esas predicciones.

Digo relativamente porque en realidad se apoyan en la creciente colección de estructuras conocidas del PDB, del orden 10E5,  y en las millones de secuencias de proteínas conocidas (del orden 10E8). Por esa razón unas secuencias son más fáciles, porque se parecen a otras conocidas, y otras más difíciles, porque no se parecen demasiado a nada conocido.

En la edición CASP14 había un total de 92 secuencias de aminoácidos, cada una correspondiente a un dominio. La siguiente figura, obtenida de https://predictioncenter.org/casp14/zscores_final.cgi resume los resultados,  mostrando que los dos mejores grupos de la última década (Baker y Zhang) han sido ampliamente superados por AlphaFold2 (columna de la izquierda, del que ya habíamos hablado aquí):

 


En definitiva, la combinación de estrategias de aprendizaje automático de AlphaFold2, descritas en https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology, han superado con mucho a todos los expertos que más saben de este problema tan difícil. 

Qué opinan los expertos? Aquí tenéis por ejemplo a Torsten Schwede , Mohammed AlQuraishi o a Alfonso Valencia

Supongo que no estará de más esperar a CASP15 para comprobar que este progreso se mantiene en el tiempo, pero por ahora parece que lo han resuelto. Solamente nos queda exigir a DeepMind, la matriz de AlphaFold2, que libere su predictor para fines académicos y de esa manera devuelvan a la comunidad lo que de ella han extraído en estos últimos años.

Un saludo,

Bruno

PD Nota importante: como recuerda Alfonso Valencia en https://twitter.com/Alfons_Valencia/status/1333682759366303745, no es lo mismo predecir la estructura que la reacción de plegamiento


4 de noviembre de 2020

Course on scripting with the Linux shell

 Hi,  Carlos Cantalapiedra and me recently put together teaching material about scripting in the linux terminal.

The material can be found at repository https://github.com/eead-csic-compbio/scripting_linux_shell 

There are five sessions and the goal is for you to learn the basics of the Linux shell and scripting for data sciences such as genomics and plant breeding:

session title required time URL
0 Setup prior to course session 0
1 Linux basics and files 2h session 1
2 Processes and scripts 2h session 2
3 Parsing with regular expressions 2h session 3
4 Perl one-liners 2h session 4
5 Advanced scripts 2h session 5 


Figure of the standard streams, taken from https://en.wikipedia.org/wiki/Standard_streams

 

If you spot errors please send pull requests, hope this helps some of you out there,

Bruno 

PD si prefieres aprender en español echa un vistazo a https://github.com/vinuesa/intro2linux