14 de octubre de 2024

premio Nobel en diseño y predicción de estructuras de proteínas

La semana pasada anunciaron el premio Nobel de química de 2024:

  • 1/2 a David Baker, “for computational protein design”
  • 1/2 a Demis Hassabis y John M. Jumper “for protein structure prediction”

O como se ve en la figura, por jugar con proteínas en 3D:

https://www.nobelprize.org/prizes/chemistry/2024/press-release





Lo celebro en el blog porque hemos sido lectores de sus trabajos, usuarios de sus herramientas y divulgadores de sus avances desde hace años. Por temática, este premio sigue seguramente a éste otro. Hay muchas cosas que comentar de este premio, iré por partes. Si no conocéis el campo podéis revisar el material que durante años he ido revisando en http://eead-csic-compbio.github.io/bioinformatica_estructural .

En primer lugar, el grupo de David Baker ha sido un héroe del experimento CASP desde hace décadas y ya en 2011 le ponía como candidato a este premio. En la edición de 2003 (CASP5), en la que participé como parte de mi tesis, ya fueron los mejores en la categoría de nuevos plegamientos con el software Rosetta, por entonces escrito en FORTRAN. Para mi ha sido increíble ver cómo su grupo ha estado al frente todos estos años, incluso cuando AlphaFold (AF) les superó, ya en CASP13 y CASP14. A pesar de ello, nadie les ha superado diseñando proteínas y comprobando experimentalmente, por cristalografía y NMR, que funcionaban como esperaban. La suya ha sido sin duda una larga y exitosa carrera, de la que podéis leer más en inglés por ejemplo en el resumen de la Academia Sueca o en su lista de publicaciones.

En segundo lugar, el premio se centra en el trabajo que llevó a producir el predictor AF2, del que hemos hablado largo y tendido en este blog, por ejemplo en la reciente entrada sobre un protocolo para modelar parejas de proteínas. En este caso los ganadores son fundadores y empleados de deepmind.google. A diferencia de David Baker llevan poco tiempo trabajando este área, pero han sabido mirar a hombros de gigantes de una manera muy eficiente, aprovechando lo aprendido por la comunidad CASP, la creciente colección de estructuras de alta calidad disponibles en el Protein Data Bank y las inabarcables bases de datos de secuencias naturales. Sin duda éste es un ejemplo más de un gran logro científico obtenido como resultado de muchos proyectos de ciencia básica y abierta, de la que Demis Hassabis es defensor, como nosotros en el blog. Es una pena que la versión AF3, que da menos peso a las secuencias naturales, no sea de momento de acceso abierto, algo que ha generado mucha polémica.

Hasta pronto,

Bruno

PD Si os gustan los hilos de Twitter podéis ver éste desde la perspectiva de Ewan Birney

13 de octubre de 2024

códigos QR que no caducan en el terminal

A menudo necesitamos crear un código QR, por ejemplo para insertarlo en un póster científico que vas a llevar a un congreso, y acabas usando una de las múltiples opciones que encuentras en la Web, para descubrir unos días más tarde que ha caducado y deja de funcionar. Justo lo que le pasó a mi colega Ana Conesa hace unos días.

Twitter hizo su trabajo y una usuaria recomendó el software qrencode, que instalé y probé como muestro a continuación en mi Ubuntu WSL para generar el QR de esta entrada:

$ sudo apt install qrencode
$ qrencode -o testQR.png https://bioinfoperl.blogspot.com/2024/10/codigos-qr-que-no-caducan-en-el-terminal.html


Otras opciones para R y perl incluyen https://thierryo.github.io/qrcode y https://metacpan.org/pod/Imager::QRCode ,

hasta pronto,

Bruno

 

 

30 de septiembre de 2024

protocolo para modelar parejas de proteínas con AlphaFold

Hace un año Homma, Huang y van der Hoorn publicaron en Nature Comms sus experimentos modelando complejos de proteínas híbridos planta:patógeno con AlphaFold-Multimer (AFM). En concreto, encontraron una manera de encontrar SSPs, proteínas pequeñas secretadas por microorganismos patógenos de plantas que se unen de manera específica a proteínas de la planta diana. En total, su cribado con AFM consideró las combinaciones de 1879 SSPs de bacterias y hongos patógenos del tomate y 6 proteasas endógenas que participan en la defensa frente a la infección:

figure 2
Modelos de parejas de proteínas planta:patógeno modelados con AFM que superan el umbral 0.75, tomada de https://doi.org/10.1038/s41467-023-41721-9.

De 376 complejos proteína:proteína prometedores, elegidos por sus puntuaciones ipTM+pTM, se centraron en 15 complejos donde SSPs sin anotar bloqueaban los sitios activos de quitinasas y proteasas de tomate. De esos, encontraron confirmación experimental para 4.

Dado el interés que despertaron estos resultados, los mismos autores han publicado ahora un protocolo (https://doi.org/10.1111/tpj.16969) para hacer este tipo de predicciones usando ColabFold en la Web y localmente (leer más en blog).

El protocolo tiene los siguientes pasos:

  1. Start with ColabFold online
  2. Use a computing cluster for screens
  3. Small sequences model faster 
  4. Curate the input sequences
  5. Remove irrelevant domains
  6. Include positive controls
  7. Include negative controls
  8. Recycle multiple sequence alignments (MSAs)
  9. Control data storage
  10. Separate CPU from GPU-intense steps
  11. Try to get MSA >100
  12. Evaluate the predicted scores
  13. Beware of typical AFM errors
  14. Beware of false negatives
  15. Beware of false positives
  16. Explore hits manually
  17. Categorise hits in classes
Que se resumen en el siguiente diagrama de flujo:

Details are in the caption following the image

 

Hasta pronto,

Bruno