14 de octubre de 2024

premio Nobel en diseño y predicción de estructuras de proteínas

La semana pasada anunciaron el premio Nobel de química de 2024:

  • 1/2 a David Baker, “for computational protein design”
  • 1/2 a Demis Hassabis y John M. Jumper “for protein structure prediction”

O como se ve en la figura, por jugar con proteínas en 3D:

https://www.nobelprize.org/prizes/chemistry/2024/press-release





Lo celebro en el blog porque hemos sido lectores de sus trabajos, usuarios de sus herramientas y divulgadores de sus avances desde hace años. Por temática, este premio sigue seguramente a éste otro. Hay muchas cosas que comentar de este premio, iré por partes. Si no conocéis el campo podéis revisar el material que durante años he ido revisando en http://eead-csic-compbio.github.io/bioinformatica_estructural .

En primer lugar, el grupo de David Baker ha sido un héroe del experimento CASP desde hace décadas y ya en 2011 le ponía como candidato a este premio. En la edición de 2003 (CASP5), en la que participé como parte de mi tesis, ya fueron los mejores en la categoría de nuevos plegamientos con el software Rosetta, por entonces escrito en FORTRAN. Para mi ha sido increíble ver cómo su grupo ha estado al frente todos estos años, incluso cuando AlphaFold (AF) les superó, ya en CASP13 y CASP14. A pesar de ello, nadie les ha superado diseñando proteínas y comprobando experimentalmente, por cristalografía y NMR, que funcionaban como esperaban. La suya ha sido sin duda una larga y exitosa carrera, de la que podéis leer más en inglés por ejemplo en el resumen de la Academia Sueca o en su lista de publicaciones.

En segundo lugar, el premio se centra en el trabajo que llevó a producir el predictor AF2, del que hemos hablado largo y tendido en este blog, por ejemplo en la reciente entrada sobre un protocolo para modelar parejas de proteínas. En este caso los ganadores son fundadores y empleados de deepmind.google. A diferencia de David Baker llevan poco tiempo trabajando este área, pero han sabido mirar a hombros de gigantes de una manera muy eficiente, aprovechando lo aprendido por la comunidad CASP, la creciente colección de estructuras de alta calidad disponibles en el Protein Data Bank y las inabarcables bases de datos de secuencias naturales. Sin duda éste es un ejemplo más de un gran logro científico obtenido como resultado de muchos proyectos de ciencia básica y abierta, de la que Demis Hassabis es defensor, como nosotros en el blog. Es una pena que la versión AF3, que da menos peso a las secuencias naturales, no sea de momento de acceso abierto, algo que ha generado mucha polémica.

Hasta pronto,

Bruno

PD Si os gustan los hilos de Twitter podéis ver éste desde la perspectiva de Ewan Birney

13 de octubre de 2024

códigos QR que no caducan en el terminal

A menudo necesitamos crear un código QR, por ejemplo para insertarlo en un póster científico que vas a llevar a un congreso, y acabas usando una de las múltiples opciones que encuentras en la Web, para descubrir unos días más tarde que ha caducado y deja de funcionar. Justo lo que le pasó a mi colega Ana Conesa hace unos días.

Twitter hizo su trabajo y una usuaria recomendó el software qrencode, que instalé y probé como muestro a continuación en mi Ubuntu WSL para generar el QR de esta entrada:

$ sudo apt install qrencode
$ qrencode -o testQR.png https://bioinfoperl.blogspot.com/2024/10/codigos-qr-que-no-caducan-en-el-terminal.html


Otras opciones para R y perl incluyen https://thierryo.github.io/qrcode y https://metacpan.org/pod/Imager::QRCode ,

hasta pronto,

Bruno

 

 

30 de septiembre de 2024

protocolo para modelar parejas de proteínas con AlphaFold

Hace un año Homma, Huang y van der Hoorn publicaron en Nature Comms sus experimentos modelando complejos de proteínas híbridos planta:patógeno con AlphaFold-Multimer (AFM). En concreto, encontraron una manera de encontrar SSPs, proteínas pequeñas secretadas por microorganismos patógenos de plantas que se unen de manera específica a proteínas de la planta diana. En total, su cribado con AFM consideró las combinaciones de 1879 SSPs de bacterias y hongos patógenos del tomate y 6 proteasas endógenas que participan en la defensa frente a la infección:

figure 2
Modelos de parejas de proteínas planta:patógeno modelados con AFM que superan el umbral 0.75, tomada de https://doi.org/10.1038/s41467-023-41721-9.

De 376 complejos proteína:proteína prometedores, elegidos por sus puntuaciones ipTM+pTM, se centraron en 15 complejos donde SSPs sin anotar bloqueaban los sitios activos de quitinasas y proteasas de tomate. De esos, encontraron confirmación experimental para 4.

Dado el interés que despertaron estos resultados, los mismos autores han publicado ahora un protocolo (https://doi.org/10.1111/tpj.16969) para hacer este tipo de predicciones usando ColabFold en la Web y localmente (leer más en blog).

El protocolo tiene los siguientes pasos:

  1. Start with ColabFold online
  2. Use a computing cluster for screens
  3. Small sequences model faster 
  4. Curate the input sequences
  5. Remove irrelevant domains
  6. Include positive controls
  7. Include negative controls
  8. Recycle multiple sequence alignments (MSAs)
  9. Control data storage
  10. Separate CPU from GPU-intense steps
  11. Try to get MSA >100
  12. Evaluate the predicted scores
  13. Beware of typical AFM errors
  14. Beware of false negatives
  15. Beware of false positives
  16. Explore hits manually
  17. Categorise hits in classes
Que se resumen en el siguiente diagrama de flujo:

Details are in the caption following the image

 

Hasta pronto,

Bruno


24 de julio de 2024

job offer MMT24-EEAD-01-01 "High resolution agroclimatic variables for field trials and adaptation of cereal crops (CLIMACER)"

[see PD18092024 below]

Program: https://momentum.csic.es

Project: High resolution agroclimatic variables for field trials and adaptation
of cereal crops (CLIMACER)

Location: Zaragoza, Aragón, Spain (Estación Experimental de Aula Dei-CSIC)

Principal Investigators:


PROJECT SUMMARY
Understanding how crops respond and adapt to climate change is critical to ensuring food security and agricultural sustainability. Despite the existence of climatic data repositories, it is still challenging to calculate agroclimatic variables appropriate to the phenology of each crop, such as days of vernalization of winter cereal crops. This hinders the development of effective adaptation strategies. CLIMACER project addresses these limitations with two objectives. The first consists on developing open source tools for customized calculation of high-resolution agroclimatic indices based on public data, which will be used in two case studies of genotype-environment association with barley and Sinapis alba populations sequenced in previous projects. The second is to compile a FAIR database that will aggregate cereal trial data from the GENVCE network along with agroclimatic indices for diverse trial locations. 

Details are in the caption following the image
Distribution of 4 barley subpopulations in mainland Spain, from https://doi.org/10.1111/mec.15009.

Tech and scientific fields: Climate change and biodiversity, platform of climate services, high-throughput data processing, data integration and analysis, computational biology 


PROFESSIONAL PROFILE

Minimum requirements:

  • Fluency in Spanish and English.
  •  Science university degree (computer science, biology, biochemistry, maths, physics, …).
  • Programming ans scripting languages.

Other skills to be considered:

  • R and/or Python programming skills.
  •  Software development skills (API creation, source code repositories, etc).
  •  Document digitalization skills (OCR).
  •  Database management and/or data science skills.
  •  Bioinformatics and/or geo-information science skills.

WHAT WE OFFER
A training program will be customized for the hired person, with two alternative paths: a) enrolling on a Master’s program; or, b) attending courses on scripting, bioinformatics, computer programming and data science. We also plan for the hired person to c) attend conferences on climatology, geoscience and genomics, d) organize a workshop in collaboration with CIHEAM Zaragoza to teach how to use the resulting API and d) to take part in research secondments for training in diverse national and international labs from 2025 to 2027.


Contract conditions
Indefinite contract for a University Graduate associated with the Momentum Project of 4 years' duration according to Spanish science law. Gross annual salary (37.000 € - 41.000 €).
Start of contract: before 31 December 2024
 

Application instructions and help

  • https://momentum.csic.es
  • Register and upload your qualifications at https://sede.csic.gob.es/tramites/bolsa-de-trabajo by September 20th 27th
    • Titulado Superior FC1 / University Graduate FC1 (Out-of-Agreement Labour Exchange).
    • Choose at least one of the following areas and topics/ámbitos:
      • 8903 Recursos Naturales: Procesos de la geohidrosfera, Ejes transversales: Cambio Global, Biología de Organismos y Sistemas: Bioinformática
      • 8905 Ciencia y Tecnologías Físicas: Sistemas Complejos, Informática, Tecnologías de la Información y Comunicaciones 
    • Select our research center "Estación Experimental de Aula Dei (EEAD-CSIC)"
    • Please pay attention to requirements of foreign degrees.
    • The status of candidates at the bolsa is updated weekly or even less prequently in August.
  • Questions to: momentum at csic.es or the PIs

 

We will update this post as more information becomes available. 

PD18092024: hemos comprobado que en la aplicación de la bolsa es posible seleccionar dos áreas, así que podéis apuntaros a otras áreas, por ejemplo "8905 Ciencia y Tecnologías Físicas", y ámbitos como Sistemas Complejos, Informática o Tecnologías de la Información y Comunicaciones

 

Faldón_logos_fichas.png

22 de julio de 2024

La brecha de la biología computacional en español

Hoy me encontré un artículo del reciente ISMB2024 que lleva por nombre 'Closing the computational biology ‘knowledge gap’: Spanish Wikipedia as a case study' y que podéis leer en https://doi.org/10.1093/bioinformatics/btae247.  Este trabajo analiza la brecha que hay en recursos didácticos sobre bioinformática en otras lenguas más allá del inglés, tomando el español como ejemplo. 

¿Por qué necesitamos estos recursos los hispanohablantes? Porque casi la mitad no hablaban otra lengua en 2016 y porque para escribir o hablar sobre ciencia nos cuesta mucho más en inglés. En biología computacional en concreto, sólo una quinta parte de los artículos en inglés en la Wikipedia tienen un equivalente en español, y la brecha es mayor aún en otras lenguas, como se ve en la figura:

Original en https://academic.oup.com/view-large/figure/468774084/btae247f2.tif. Datos y código aquí.

Una manera de cerrar la brecha es organizar talleres/competiciones para trabajar sobre la Wikipedia, como hicieron en ISCB-LA SOIBIO BioNetMX 2022. Como resultado, los participantes lograron mejorar de manera significativa algunas páginas con contenidos bioinformáticos en español, quedando en primer lugar 'pangenoma':

Original en https://academic.oup.com/view-large/figure/468774085/btae247f3.tif

Termino invitando a revisar nuestros materiales en español, que podéis encontrar junto con otros en inglés en https://eead-csic-compbio.github.io/matdidactico.html

Hasta luego,

Bruno