Mostrando entradas con la etiqueta cebada. Mostrar todas las entradas
Mostrando entradas con la etiqueta cebada. Mostrar todas las entradas

26 de septiembre de 2022

Probamos miniprot para mapear proteínas sobre genomas

Hola, 

hoy escribo a mi regreso del X Congreso Nacional de Mejora Genética de Plantas, donde se habló y mucho de herramientas de genómica computacional.

Justo esos días me enteré de la liberación de las primeras versiones de miniprot, un programa de Heng Li, el creador de minimap, del que ya hablamos aquí comparándolo con BLASTN

Esto me recordó que hace unos años, mientras Carlos Cantalapiedra empezaba a desarrollar BARLEYMAP, nos preguntamos qué programas había disponibles para mapear secuencias de genes, tránscritos y proteínas sobre genomas. Para los dos primeros tipos de secuencias encontramos GMAP, que adoptamos para nuestro nuevo software, pero para el tercero no encontramos ninguno que nos gustara del todo más allá de BLASTX y spaln. Justo para eso es miniprot. Lo he probado con una proteína de cebada:

#installation
git clone https://github.com/lh3/miniprot.git
cd miniprot/
make

# index barley genome
./miniprot -t 8 -d GCA_904849725.1_MorexV3.mpi GCA_904849725.1_MorexV3.fna

# example: map protein HORVU3Hr1G095240
./miniprot --gff GCA_904849725.1_MorexV3.fna HvOs2/HORVU3Hr1G095240.pep.fa


Cómo veis pedí la salida en formato GFF y me la ha devuelto precedida del mismo resultado en formato PAF, que incluye CIGARs y en la columna 10 el número nucleótidos alineados (477 en el ejemplo) y :

##gff-version 3
##PAF	transcript:HORVU3Hr1G095240.2	159	0	159	...
chr3H_LR890098.1	miniprot	mRNA	577160564	577200549	...
chr3H_LR890098.1	miniprot	CDS	577200365	577200549	...
chr3H_LR890098.1	miniprot	CDS	577162212	577162293	...
chr3H_LR890098.1	miniprot	CDS	577161755	577161804	...
chr3H_LR890098.1	miniprot	CDS	577161575	577161671	...
chr3H_LR890098.1	miniprot	CDS	577160567	577160629	...
chr3H_LR890098.1	miniprot	stop_codon	577160564	577160566	...

Lo que coincide con los resultados de BARLEYMAP cuando busco la secuencia de nucleótidos (CDS) correspondiente:

HORVU3Hr1G095240.2	chr3H_LR890098.1 577160564 577200549

 

El manual está en https://lh3.github.io/miniprot/miniprot.html , si encontráis errores podéis comunicarlos en https://github.com/lh3/miniprot/issues

 

Hasta pronto,

Bruno

21 de abril de 2021

Dos versiones del mismo genoma: el caso de la cebada

Hola,

una de las plantas con las que hemos trabajado más en los últimos años es la cebada (Hordeum vulgare), un cultivo de enorme importancia en el secano de la península ibérica (ver por ejemplo https://www.eead.csic.es/barley). Puedes leer aquí sobre otros genomas de plantas y para qué los usamos.

La cebada es una especie diploide con un genoma haploide de 5.3 Gbp repartidos en 7 cromosomas, con un %GC=44.5. Es un genoma de gran complejidad que ha requerido un esfuerzo de al menos un década por parte de un consorcio internacional. Las diferentes etapas de la secuenciación y ensamblaje del cultivar Morex se pueden recorrer en:

Mi intención es mostrar cuánto pueden cambiar dos versiones del mismo genoma a medida que se incorporan nuevas tecnologías, en este caso lecturas largas PacBio (circular consensus sequencing, CCS). 

En este ejemplo comparamos la versión más reciente (MorexV3) respecto a una anterior (IBSC_v2). Si consultamos el European Nucleotide Archive, podemos ver sus estadísticas generales (verás que he puesto en negrita los cambios más notables):
 

IBSC_v2 (GCA_901482405.1)

Total Length:           4,833,791,107
Ungapped Length:        4,446,895,020
Chromosomes & Plasmids:             0
Spanned Gaps:               1,030,196
Scaffolds:                          8
Scaffold N50:             657,224,000
Contigs:                    1,030,204
Contig N50:                    19,388
MorexV3 (GCA_904849725.1)
Total Length:           4,225,577,519
Ungapped Length:        4,224,251,725
Chromosomes & Plasmids:             7
Spanned Gaps:                     162
Scaffolds:                        290
Scaffold N50:             610,333,535
Contigs:                          452  
Contig N50:                69,630,691 

Se puede ver que el nuevo ensamblaje es más pequeño, contiene muchos menos huecos (gaps) y tiene 7 cromosomas construidos a partir de un conjunto de apenas 452 contigs enormes.

En cuanto a la anotación, tomando datos de Ensembl Plants, si la versión IBSC_v2 tenía 39,841 genes codificantes de proteínas de "alta confianza, HC", la más reciente tiene 35,825. Finalmente, si mapeamos con bwa SNPs de IBSC_v2 en ventanas de 150 nucleótidos contra el nuevo genoma, de un total de 16.5M logramos 13.4M mapeos únicos y perdemos 2.7M SNPs por el camino (un 16%).

En la versión de 2021 Mascher et al hacen incapié en la significante ganancia en la calidad de las anotaciones de elementos repetidos, como se ve en la figura para los retrotransposones del tipo BARE1: 

 

                               Fuente: https://doi.org/10.1093/plcell/koab077

En resumen, el nuevo genoma es sustancialmente diferente al anterior y visto lo visto, seguramente no sea el último, aunque todos ellos han sido muy útiles sin duda,

Bruno

28 de septiembre de 2017

contrato FPI: QTL, genes y caracteres para mejora de cebada


Oferta de contrato FPI para trabajar en la Estación Experimental de AulaDei, Zaragoza, Departamento de Genética y Producción vegetal.
Proyecto: Descubrimiento y aplicación de QTL, genes y caracteres para la mejora genética de la cebada. Investigadores responsables: Ernesto Igartua, Ana M. Casas.
El trabajo se centrará en la búsqueda de caracteres fisiológicos de la cebada asociados al rendimiento en condiciones de sequía. La cebada es el principal cultivo español por superficie, y se cultiva especialmente en zonas vulnerables a los estreses abióticos. El trabajo se realizará fundamentalmente sobre poblaciones de cebada bien caracterizada por marcadores moleculares, por lo que se planteará la búsqueda de loci relacionados con los fenotipos. Se emplearán técnicas de análisis de imagen en campo, usando índices espectrales y térmicos relacionados con el comportamiento de la cebada frente a la sequía, en ensayos con y sin riego, y también de fenotipado de raíces, mediante una estancia en un grupo colaborador en Italia. Si se encontrara algún carácter de relevancia especial, se explorarán las posibilidades de continuar la experimentación hacia la identificación de los genes responsables.
La convocatoria está disponible en
Se busca una persona con un buen nivel de inglés y se valorará la experiencia previa (a nivel de máster o de prácticas) en genética, fisiología vegetal o agronomía. Dirección de contacto: mailto:igartua@eead.csic.es

22 de abril de 2016

mapeo fino de genes por NGS

Buenas,
esta semana copio aquí una reseña de un trabajo recientemente publicado de Carlos P Cantalapiedra, autor habitual de este blog y próximo doctor del grupo, donde se explica el proceso para localizar un loci responsable de una resistencia a infección por parte de hongos, combinando genética clásica y secuenciación de nueva generación: http://www.eead.csic.es/spreading/showspreading?Id=416

Pongo aquí una de las figuras del artículo:

Genotipo de varias líneas de cebada en torno al locus que confiere resistencia. En naranja, genotipos como los del parental resistente. En verde, genotipos como los del parental susceptible. La captura de exoma permite reducir la zona de búsqueda al punto donde se unen ambos genotipos (punto 211721 dentro del recuadro). Adaptada de https://dl.sciencesocieties.org/publications/tpg/first-look/pdf/plantgenome2015.10.0101.pdf.

La referencia del artículo completo, en inglés, es:

Cantalapiedra CP, Contreras-Moreira B, Silvar C, Perovic D, Ordon F, Gracia MP, Igartua E, Casas A. (2016) A cluster of NBS-LRR genes resides in a barley powdery mildew resistance QTL on 7HL. The Plant Genome. Early access. DOI: 10.3835/plantgenome2015.10.0101. URL.

Hasta luego,
Bruno

9 de septiembre de 2014

contrato en mejora y genómica de cebada

El Departamento de Genética y Producción Vegetal de la Estación Experimental de Aula Dei – CSIC ofrece un contrato de 4 años para la realización de una tesis doctoral ligada al proyecto AGL2013-48756-R “Descubrimiento y utilización de la variabilidad genética que determina la adaptación de la cebada mediante herramientas genéticas y genómicas”.


El trabajo persigue el descubrimiento de caracteres y genes que ayuden a la obtención de variedades de cebada mejoradas para condiciones de sequía. Consiste en una combinación de los más modernos enfoques genéticos (diversidad intraespecífica, mapeo de QTL en poblaciones de cebada), genómicos (marcadores por métodos de secuenciación) y bioinformáticos (integración de datos de captura de exoma y otras fuentes de secuencia). El resultado de este trabajo permitirá identificar regiones cromosómicas y, potencialmente, genes de variedades tradicionales de cebada que contribuirán directamente a la mejora de variedades (el grupo también participa en un programa de mejora de variedades). Además, estos estudios permitirán  profundizar en la naturaleza de los procesos de adaptación de las plantas al clima, contribuyendo en general a la mejora de variedades para condiciones de cambio climático.

Distribución de haplotipos de HvFT1 en líneas de la Colección Nuclear de Cebadas Españolas colectas en la Península Ibérica. Tomada de http://link.springer.com/article/10.1007%2Fs00122-011-1531-x. 


Los candidatos deben tener vocación por la investigación, un buen expediente académico, excelente nivel de inglés, y deben estar admitidos en un programa de doctorado al finalizar el plazo de subsanación de la convocatoria. Se valorará tener cursado un master oficial relacionado con el tema de trabajo y/o experiencia en bioinformática.

Las solicitudes deberán ser presentadas por los candidatos del 10 de septiembre de al 26 de septiembre de 2014 a las 15:00 horas (hora peninsular española). Se ruega a las personas interesadas se pongan en contacto cuanto antes con los investigadores responsables (acasas at eead.csic.es, igartua at eead.csic.es, pgracia at eead.csic.es, bcontreras at eead.csic.es) para enviar una carta de interés y una copia del CV.

Referencias relevantes:
http://www.eead.csic.es/EEAD/barley
http://floresta.eead.csic.es/barleymap