22 de marzo de 2024

cada vez más genomas de plantas en Internet

De acuerdo con un estudio reciente, estamos en plena cresta de la ola de la genómica vegetal, con 2373 genomas publicados entre 2021 y 2023, de un total de 3517. Es decir, en 3 años se han publicado más genomas y de mejor calidad que en los 20 años anteriores. Esto se debe sobre todo a los avances de tecnologías (Illumina, Hi-C, PacBio, ONT) que ahora permiten ensamblar genomas más complejos por menos dinero. Si tenéis curiosidad en el estudio hacen un seguimiento de los algoritmos que se han usado para los ensamblajes y de las revistas donde se han publicado.                    
Publicación de genomas de plantas desde el año 2000, tomada de https://doi.org/10.1038/s41477-024-01655-6

Qué recursos tenemos para buscar y encontrar los genomas que necesitamos? Discuto brevemente los que yo uso:

  • Los archivos del INSDC como ENA o NCBI. A mi me gusta https://www.ebi.ac.uk/ena/browser para buscar ensamblajes para una especie en concreto. Por ejemplo, ayer busqué "Hordeum vulgare" y encontré 193 objetos de tipo "Assembly", cada uno con un código GCA_..... , que puedo citar en artículos y sé que estarán disponibles en el futuro porque INSDC es un recursos internacional que lleva en marcha décadas.  Otra opción muy interesante es https://www.ncbi.nlm.nih.gov/genome , porque ahí puedes ver cuántos genomas hay para un grupo taxonómico en concreto y su calidad de anotación. 
  • En Ensembl vale la pena mirar los que tienen todos los recursos (https://plants.ensembl.org) y los que se van liberando con mayor frecuencia pero con menos recursos (https://rapid.ensembl.org).
  • Para buscar artículos de genomas de plantas en ocasiones consulto https://www.plabipd.de , que tiene una línea del tiempo muy útil, pero que puede colgar tu navegador!
  • Phytozome: https://phytozome-next.jgi.doe.gov
  • La base de datos http://ibi.zju.edu.cn/N3database, que no conocía hasta leer el estudio que citaba el principio. Si hago la siguiente consulta con "Hordeum vulgare" me salen muchos menos de 193, por lo que entiendo que solamente aparecen los principales ensamblajes vinculados a un artículo, quedando fuera otros secundarios, y en este caso, los que forman parte del pangenoma, que sí aparecían en ENA. Por lo que he podido ver aparecen genomas con enlaces de descarga ajenos al INSDC, lo cual no es ideal para garantizar la trazabilidad ni la conservación a largo plazo.
Especies de Magnoliideas con genomas disponibles, tomada de https://www.plabipd.de/plant_genomes_pa.ep

Hasta pronto,

Bruno