Hola,
una de las plantas con las que hemos trabajado más en los últimos años es la cebada (Hordeum vulgare), un cultivo de enorme importancia en el secano de la península ibérica (ver por ejemplo https://www.eead.csic.es/barley). Puedes leer aquí sobre otros genomas de plantas y para qué los usamos.
La cebada es una especie diploide con un genoma haploide de 5.3 Gbp repartidos en 7 cromosomas, con un %GC=44.5. Es un genoma de gran complejidad que ha requerido un esfuerzo de al menos un década por parte de un consorcio internacional. Las diferentes etapas de la secuenciación y ensamblaje del cultivar Morex se pueden recorrer en:
- https://doi.org/10.1105/tpc.110.082537 (2011)
- https://www.nature.com/articles/nature11543 (2012)
- https://www.nature.com/articles/nature22043 (2017, IBSC_v2)
- https://doi.org/10.1186/s13059-019-1899-5 (2019)
- https://doi.org/10.1093/plcell/koab077 (2021, MorexV3)
Mi intención es mostrar cuánto pueden cambiar dos versiones del mismo genoma a medida que se incorporan nuevas tecnologías, en este caso lecturas largas PacBio (circular consensus sequencing, CCS).
En este ejemplo comparamos la versión más reciente (MorexV3) respecto a una anterior (IBSC_v2). Si consultamos el European Nucleotide Archive, podemos ver sus estadísticas generales (verás que he puesto en negrita los cambios más notables):
IBSC_v2 (GCA_901482405.1)
Total Length: 4,833,791,107 Ungapped Length: 4,446,895,020 Chromosomes & Plasmids: 0 Spanned Gaps: 1,030,196 Scaffolds: 8 Scaffold N50: 657,224,000 Contigs: 1,030,204 Contig N50: 19,388MorexV3 (GCA_904849725.1)
Total Length: 4,225,577,519 Ungapped Length: 4,224,251,725 Chromosomes & Plasmids: 7 Spanned Gaps: 162 Scaffolds: 290 Scaffold N50: 610,333,535 Contigs: 452 Contig N50: 69,630,691
Se puede ver que el nuevo ensamblaje es más pequeño, contiene muchos menos huecos (gaps) y tiene 7 cromosomas construidos a partir de un conjunto de apenas 452 contigs enormes.
En cuanto a la anotación, tomando datos de Ensembl Plants, si la versión IBSC_v2 tenía 39,841 genes codificantes de proteínas de "alta confianza, HC", la más reciente tiene 35,825. Finalmente, si mapeamos con bwa SNPs de IBSC_v2 en ventanas de 150 nucleótidos contra el nuevo genoma, de un total de 16.5M logramos 13.4M mapeos únicos y perdemos 2.7M SNPs por el camino (un 16%).
En la versión de 2021 Mascher et al hacen incapié en la significante ganancia en la calidad de las anotaciones de elementos repetidos, como se ve en la figura para los retrotransposones del tipo BARE1:
Fuente: https://doi.org/10.1093/plcell/koab077
En resumen, el nuevo genoma es sustancialmente diferente al anterior y visto lo visto, seguramente no sea el último, aunque todos ellos han sido muy útiles sin duda,
Bruno