21 de abril de 2021

Dos versiones del mismo genoma: el caso de la cebada

Hola,

una de las plantas con las que hemos trabajado más en los últimos años es la cebada (Hordeum vulgare), un cultivo de enorme importancia en el secano de la península ibérica (ver por ejemplo https://www.eead.csic.es/barley). Puedes leer aquí sobre otros genomas de plantas y para qué los usamos.

La cebada es una especie diploide con un genoma haploide de 5.3 Gbp repartidos en 7 cromosomas, con un %GC=44.5. Es un genoma de gran complejidad que ha requerido un esfuerzo de al menos un década por parte de un consorcio internacional. Las diferentes etapas de la secuenciación y ensamblaje del cultivar Morex se pueden recorrer en:

Mi intención es mostrar cuánto pueden cambiar dos versiones del mismo genoma a medida que se incorporan nuevas tecnologías, en este caso lecturas largas PacBio (circular consensus sequencing, CCS). 

En este ejemplo comparamos la versión más reciente (MorexV3) respecto a una anterior (IBSC_v2). Si consultamos el European Nucleotide Archive, podemos ver sus estadísticas generales (verás que he puesto en negrita los cambios más notables):
 

IBSC_v2 (GCA_901482405.1)

Total Length:           4,833,791,107
Ungapped Length:        4,446,895,020
Chromosomes & Plasmids:             0
Spanned Gaps:               1,030,196
Scaffolds:                          8
Scaffold N50:             657,224,000
Contigs:                    1,030,204
Contig N50:                    19,388
MorexV3 (GCA_904849725.1)
Total Length:           4,225,577,519
Ungapped Length:        4,224,251,725
Chromosomes & Plasmids:             7
Spanned Gaps:                     162
Scaffolds:                        290
Scaffold N50:             610,333,535
Contigs:                          452  
Contig N50:                69,630,691 

Se puede ver que el nuevo ensamblaje es más pequeño, contiene muchos menos huecos (gaps) y tiene 7 cromosomas construidos a partir de un conjunto de apenas 452 contigs enormes.

En cuanto a la anotación, tomando datos de Ensembl Plants, si la versión IBSC_v2 tenía 39,841 genes codificantes de proteínas de "alta confianza, HC", la más reciente tiene 35,825. Finalmente, si mapeamos con bwa SNPs de IBSC_v2 en ventanas de 150 nucleótidos contra el nuevo genoma, de un total de 16.5M logramos 13.4M mapeos únicos y perdemos 2.7M SNPs por el camino (un 16%).

En la versión de 2021 Mascher et al hacen incapié en la significante ganancia en la calidad de las anotaciones de elementos repetidos, como se ve en la figura para los retrotransposones del tipo BARE1: 

 

                               Fuente: https://doi.org/10.1093/plcell/koab077

En resumen, el nuevo genoma es sustancialmente diferente al anterior y visto lo visto, seguramente no sea el último, aunque todos ellos han sido muy útiles sin duda,

Bruno

No hay comentarios:

Publicar un comentario