16 de julio de 2021

RoseTTAFold: modelado Open Source de proteínas por aprendizaje profundo

Hola,

a finales del año pasado comentaba aquí que el algoritmo propietario AlphaFold suponía un antes y un después en la predicción estructural de proteínas, a la vista de sus resultados en el experimento colectivo CASP14. Muy brevemente, AlphaFold supone un paso de gigante para predecir con moderada resolución la estructura de proteínas que no se parecen en secuencia a otras ya conocidas, es decir, con identidades a nivel de aminoácidos < 20%. Su mayor pega, que a día de hoy no  podemos probar AlphaFold con nuestras secuencias. Es posible que Google termine publicando el código y los pesos de sus redes neuronales, pero eso todavía no ha ocurrido.

Unos meses después estamos en una situación mucho mejor, ya que ayer se publicó en Science el método RoseTTAFold, desarrollado por el grupo de David Baker, uno de los contendientes más sólidos en CASP desde hace ya muchos años. 

 

Arquitectura de RoseTTAFold y rendimiento en CASP14 y CAMEO. Figura tomada de https://science.sciencemag.org/content/early/2021/07/14/science.abj8754

En la figura se puede ver que RoseTTAFold se compone de varias redes neuronales interconectadas que se alimentan de datos en 1, 2 y 3 dimensiones y que están interconectadas. Los diagramas B y C resumen el rendimiento del nuevo algoritmo medido como el TM-score entre la predicción y la estructura experimental en dos conjuntos de datos, CASP14 y CAMEO (69 secuencias).

Aunque RoseTTAFold parece todavía inferior a AlphaFold, si supone un paso adelante enorme para todos aquellos investigadores (académicos, eso sí) que quieran modelar sus propias secuencias, ya que el código, los pesos de los modelos entrenados y las instrucciones de uso están disponibles en https://github.com/RosettaCommons/RoseTTAFold .

 

Un saludo,

Bruno


 

1 comentario: