14 de enero de 2021

Introduction to Bioinformatics for plant breeders

Hi, Najla Ksouri and me recently put together teaching material about Bioinformatics resources and best-practices for plant-breeders.

The material can be found at https://eead-csic-compbio.github.io/bioinformatics

It comprises four sessions and the goal is for you to explore some bioinformatics resources and databases which can be useful in plant breeding and genomics, using both standalone and Web-based tools. The last two sessions are about reproducible analysis practices and software benchmarks.

session title required time URL



1 Annotation of coding sequences 4h session 1
2 Analysis of non-coding sequences 4h session 2
3 Reproducible analysis practices 2h session 3
4 Benchmarks 2h session 4





 

If you spot errors please send pull requests, hope this helps some of you out there,

Bruno 





26 de diciembre de 2020

Pangenomas para dummies: ejemplos en plantas, aplicaciones y retos

 Hola, el 17 de diciembre di una charla virtual invitado por mis compañeros de la Estación Experimental de Aula Dei-CSIC titulada "Pangenomas para dummies: ejemplos en plantas, aplicaciones y retos". 

https://chilmedia.org/v2/media/c046b9fc-9684-49f5-834d-42cf6828d7a0.jpg

Un pangenoma se define como la unión de todos los genomas de una especie. El análisis de pangenomas es una herramienta habitual en microbiología, sobre todo en bacterias para analizar su ecología y patogenicidad. En cambio, nuestro conocimiento de los pangenomas de plantas es todavía limitado. En la charla repaso resultados recientes en mono y dicotiledóneas, incluyendo nuestro trabajo reciente sobre el híbrido Brachypodium hybridum y sus progenitores, que demuestran la utilidad de esta aproximación para explorar la diversidad genética en poblaciones y bancos de
germoplasma. En cuanto a la mejora, el reto es cómo distinguir los genes accesorios que contribuyen a la adaptación de aquellos que son reliquias evolutivas.

La charla quedó grabada y puedes escucharla de nuevo en 

https://balanbbb.corp.csic.es/playback/presentation/2.0/playback.html?meetingId=9ea1a71e86c265e77c16b8078be749094142699f-1608199170685

Hasta pronto,

Bruno


30 de noviembre de 2020

AlphaFold resuelve el plegamiento de proteínas (en CASP14)

Hola, 

estos días está transcurriendo CASP14, la edición 14 del certámen de predicción  de estructura de proteínas. La última vez que hablamos de CASP en este blog fue en esta entrada del año pasado. Por recordar un poco, en CASP participan grupos de investigación de todo el mundo que tratan de modelar un conjunto de secuencias de proteínas cuyas estructuras se han resuelto experimentalmente, pero que solamente se publican despúes de la temporada de predicción. Por tanto, los grupos y su algoritmos trabajan relativamente a ciegas en esas predicciones.

Digo relativamente porque en realidad se apoyan en la creciente colección de estructuras conocidas del PDB, del orden 10E5,  y en las millones de secuencias de proteínas conocidas (del orden 10E8). Por esa razón unas secuencias son más fáciles, porque se parecen a otras conocidas, y otras más difíciles, porque no se parecen demasiado a nada conocido.

En la edición CASP14 había un total de 92 secuencias de aminoácidos, cada una correspondiente a un dominio. La siguiente figura, obtenida de https://predictioncenter.org/casp14/zscores_final.cgi resume los resultados,  mostrando que los dos mejores grupos de la última década (Baker y Zhang) han sido ampliamente superados por AlphaFold2 (columna de la izquierda, del que ya habíamos hablado aquí):

 


En definitiva, la combinación de estrategias de aprendizaje automático de AlphaFold2, descritas en https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology, han superado con mucho a todos los expertos que más saben de este problema tan difícil. 

Qué opinan los expertos? Aquí tenéis por ejemplo a Torsten Schwede , Mohammed AlQuraishi o a Alfonso Valencia

Supongo que no estará de más esperar a CASP15 para comprobar que este progreso se mantiene en el tiempo, pero por ahora parece que lo han resuelto. Solamente nos queda exigir a DeepMind, la matriz de AlphaFold2, que libere su predictor para fines académicos y de esa manera devuelvan a la comunidad lo que de ella han extraído en estos últimos años.

Un saludo,

Bruno

PD Nota importante: como recuerda Alfonso Valencia en https://twitter.com/Alfons_Valencia/status/1333682759366303745, no es lo mismo predecir la estructura que la reacción de plegamiento


4 de noviembre de 2020

Course on scripting with the Linux shell

 Hi,  Carlos Cantalapiedra and me recently put together teaching material about scripting in the linux terminal.

The material can be found at repository https://github.com/eead-csic-compbio/scripting_linux_shell 

There are five sessions and the goal is for you to learn the basics of the Linux shell and scripting for data sciences such as genomics and plant breeding:

session title required time URL
0 Setup prior to course session 0
1 Linux basics and files 2h session 1
2 Processes and scripts 2h session 2
3 Parsing with regular expressions 2h session 3
4 Perl one-liners 2h session 4
5 Advanced scripts 2h session 5 


Figure of the standard streams, taken from https://en.wikipedia.org/wiki/Standard_streams

 

If you spot errors please send pull requests, hope this helps some of you out there,

Bruno 

PD si prefieres aprender en español echa un vistazo a https://github.com/vinuesa/intro2linux