#!/perl/bioinfo: plants

Mostrando entradas con la etiqueta plants. Mostrar todas las entradas

30 de abril de 2019

#monogram2019

Hi, these are my notes on the Cereal Bioinformatics Session, plus the keynote by Keith Edwards, at Monogram 2019.

The rest of the notes are at https://bioinfoperl.blogspot.com/2019/05/monogram19-2.html?m=1

Cristobal Uauy, JIC

Speaks about http://wheat-expression.com and explains the different references, from TGAC to RefSeq v1.0 (with 01 in the middle of gene names) and v1.1 (02 instead, as in TraesCS3D02G273600, used in http://plants.ensembl.org/Triticum_aestivum/Info/Index). He asks users to cite the papers not just the Web site. He mentions also the gene expression browser http://bar.utoronto.ca/efp_wheat/cgi-bin/efpWeb.cgi , http://www.polymarker.info to design polyploid-aware primers and the in silico wheat TILLING integrated in Ensembl Plants (http://www.wheat-tilling.com is legacy on previous gene models, but still useful in some cases). He wraps up by describing http://www.wheat-training.com , which links out to all resources and wheat populations as well.

Guy Gnaamati, EMBL-EBI

Describes the RefSeq v1.0 assembly with the v1.1 gene annotation in Ensembl Plants, the updated marker display (http://plants.ensembl.org/Triticum_aestivum/Variation/Explore?r=4A:714193214-714194214;v=BA00249348;vdb=variation;vf=194242) and their linked SIFT predictions. He summarizes the outcome of the ensembl4breeders event (see table in poster belowttps://twitter.com/ensemblgenomes/status/1098902364998782976https://twitter.com/ensemblgenomes/status/1098902364998782ttps://twitter.com/ensemblgenomes/status/1098902364998782976https://twitter.com/ensemblgenomes/status/1098902364998782976), and singles out pangenomes and the wheat test case as a prototype to develop that within Ensembl. He finishes advertising the upcoming Plant Genomes in a Changing Environment conference in October, 2019 (https://coursesandconferences.wellcomegenomecampus.org/our-events/plant-genomes-2019)

Leif Skot, IBERS

He talks about breeding targets in outperennial ryegrass (Lolium perenne ) and genomic predictions based on a 50yr running breeding experiment with linear biomass, yield gains with no signs of inbreeding depression yet. There seems to be a physically-anchored genome assembly under way (https://gtr.ukri.org/projects?ref=BB%2FG012342%2F1), but not ready yet; there are though synteny-based (https://www.ncbi.nlm.nih.gov/pubmed/26408275) and de novo (https://link.springer.com/chapter/10.1007/978-3-319-28932-8_19) assemblies.

Craig Simpson, JHI

They are using Salmon/kallisto to quantify barley transcriptomes, knowing that current barley gene models are still poor. Their aim is also to build a reference transcriptome (BarRTv1) with https://ccb.jhu.edu/software/stringtie guided by Morex assembly. They analyze 11 RNAseq datasets, with over 800 Illumina samples. They filter out low-expression transcripts (less than 0.3TPM) and use gmap to map back to Morex reference. They try to validate their expression values with RT-PCR and realize how difficult is to map multiple isoforms to a single PCR read. By correlating with RT-PCR results they defined optimal StringTie params: -c 2.5 - 50 –f 0, yielding over 60K genes and 177K transcripts, less than the original, which have been imported into a database by Linda Milne. They plan to do BarRTv2 with PacBio Iso-seq. He says there are many genes with a single dominant isoforms but also many others with 2-4 dominant isoforms, which could be nice to annotate in resources such as Ensembl. This data is still unpublished.

Kumar Gaurav, JIC

He talks about wild parents of wheat and their recent R-gene enrichment sequencing work to show they contain useful disease resistance genes. They belong to the Open Wild Wheat consortium, and have sequenced 260 Aegilops tauschii individuals with 10-30x cover (10Tb, available under Toronto agreement, seeds from JRU, JCI). They are performing diversity studies and mention wheat lineages 1 and 2.

Anthony Hall, JIC

He talks about a pan-genome of wheat elite cultivars as a way to gain access to hidden variability (SV, TE, promoters). This is the 10+ project, with NRGene RefSeq and W2RAP (https://github.com/bioinfologics/w2rap) assemblies. They know they are not covering all wheat variability out there. The assemblies are ready, they are now finishing the annotations with both de novo and validated gene models using a pan-transcriptome. A BLAST server is already available at https://webblast.ipk-gatersleben.de/wheat_ten_genomes .

Micha Bayer, JHI

He talks about the barley variome sampled from exome capture of 823 barley genotypes, covering mainly SNP and small indels. He discusses the depth vs breadth dilemma when managing diversity in germplasm. Their cultivars come from WHEALBI, EXCAP, B1K Israel, WBDC and other projects. Less than 5% of their final variant come from exons, with most coming from introns and UTRs. 96% are off-target variants with low read depth, with sufficient calling quality. Population level analyses distinguish wild and cultivated barleys, with low recombination around centromeres. They use SnpEff and are looking at fixed loss-of-function alleles in domesticated barleys. He mentions 20-30% of reads do not map the reference with max 4% mismatches.

After his talk, there’s a discussion on how to name genes in the context of pan-genomes. Cristobal says the role in Ensembl will be critical in this context.

Sebastian Raubach, JHI

Talks about Germinate v3 https://ics.hutton.ac.uk/get-germinate, a one-stop database schema for plant genetic resources, with powerful visualizations. It supports BrAPI, Multi-Crop Passport Descriptors (MCPD) and Dublin Core Metadata Initiative (DCMI). It comprises 3 modules: Scan (bar codes), Data Import and Germinate. It is used by 100+ groups working on different crops around the world, including wheat and maize at CIMMYT. Data can be exported to Helium, Flapjack, R, Excel, BraPI, google maps. It supports custom, restricted data access.

Keywan Hassani-Pak, Rohampstead

He talks about KnetMiner3.0 (http://knetminer.rothamsted.ac.uk) and does a quick 5-minute off-line demo. He shows case the evidence view, which is an enrichment analysis, and the keyword search to get more specific search results.

He then makes a DFW progress report on behalf of Rob Davey (EI), including https://grassroots.tools, which is about making data publicly available, and http://cyverseuk.org

Paul Wilkinson, U Bristol

He talks about http://www.cerealsdb.uk.net/cerealgenomics/CerealsDB/indexNEW.php, built with Perl and PHP on top a database. He focuses specifically on the most recently added features, including a QTL database made in collaboration with the JIC and EI (which links out to Ensembl Plants), online dendrograms (http://www.cerealsdb.uk.net/cerealgenomics/CerealsDB/35K_dendrogram.php) and an introgression plotter. The latter will become available soon and allows visualizing genomic regions introgressed in crosses. It produces nice circular plots and heatmaps.

Mario Caccamo, NIAB

He starts by talking about http://wheatis.org, which is part of the 2011 launched wheat initiative. There are 5 nodes across EU and US, including Ensembl Plants and Gramene. He then moves to the recent work regarding a group of experts around wheat gene nomenclature with the Wheat Gene Catalogue https://shigen.nig.ac.jp/wheat/komugi/genes/symbolClassList.jsp

Roughly, 10-15% of the loci in the catalogue correspond to current gene models, not always on a 1-to-1 relation.

Kim Hammond-Kosack, Rothampsted

She talks about PHI-base (http://www.phi-base.org) on pathogens-host interactions. Hosts are plants half of the time, not only cereals. Main use is to lookup of mutant-phenotypes relationships. They use a scale of 9 phenotypes, including negative results. They have a tool (PHI-canto) to allow users to annotate their own results with controlled vocabularies. It complies with FAIR Data principles.

Keith Edwards, U Bristol (plenary talk)

He talks about the genomic challenges in wheat and how we are discovering the actual diversity of wheats thanks to the marker technologies. This is in contrast to what was thought earlier, that they lacked variability. Today the can scan 98K KASP markers in 1 day and we now that this species, despite being only 10K yr old and having gone through 1-2 hybridizations, has a massive diversity. This is probably due to hybrid swarms, populations of hybrids that interbreed and backcross with their parents (diploid & tetraploids). He shows two examples of extensive introgressions in chromosomes of elite cultivar Cadenza and two ancient wheats: Watkins 199 and Chaff 1790 from Rothampsted. He concludes that variation was already there 10K yr ago, is not new, and that there is forced gene flow between wheat and its parents and close species, mostly the tetraploids. These introgressed regions do not usually recombine, as they are too divergent (over 0.5%), and impose a LEGO-like genome, with recombination restricted to certain windows.

Source: http://www.earlham.ac.uk/articles/earlham-institute-lego-sequencer

2 de octubre de 2017

Plant Genome Evolution 2017 (II)

Estas son mis notas del segundo día.

Katrin M Dlugosch habla sobre las distribuciones ecológicas de las especies y de lo difícil que es identificar qué caracteres las explican, qué caracteres definen el éxito o el fracaso ecológico. Alega que los cambios ambientales son discretos, por ejemplo al introducir por primera vez una especie fuera de su área de distribución nativa. Estudia un cardo (Centaurea solstitialis) que es una mala hierba de la alfalfa y que fue propagada con ella desde España a América. Actualmente tiene densidades mayores en América muy superiores a las de la península y han observado que las poblaciones invasoras han acumulado, por selección, genes de defensa y metabolismo secundario (http://onlinelibrary.wiley.com/doi/10.1111/mec.13998/full). Son por tanto candidatos a ser genes de adaptación, y también conocidos por ser la contraparte a los genes de crecimiento, dado que la planta debe dedicar recursos a ambas tareas a la vez. Además han observado que cambia la microbiota de la rizosfera en las áreas nativas y las introducidas. Actualmente está estudiando si las especias invasoras tienen mayor plasticidad de expresión génica que las no invasoras, muestreando 7 diferentes familias de plantas y algunas especies poliploides, comparando DE en ambiente nativo vs ambiente invadido.

Blake C Meyers habla de phasiRNA, que son siRNAs secundarios de 21b que funcionan en trans y cis (aunque hay productos secundarios de 22b). Dependen de una copia del gen Dicer (DCL). Muchos de ellos tienen como diana motivos de familias de genes NLRs, con el fin de suprimirlos. En un artículo en Medicado han visto como 5 miRNAs son suficientes para controlar el nivel de expresión de todos los NLRs. Su hipótesis es que previenen la autoactivación de estos genes. De esta manera, la evolución del repertorio de NLRs guía también la diversificación de miRNAs (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5026261). Después habla de cómo un phasiRNA producto de DCL5 provoca esterilidad masculina en arroz con un solo SNP (http://www.plantcell.org/content/25/7/2400).

Andrew DL Nelson habla sobre la predominancia de los lncRNA en los genomas de plantas. Son de al menos 200b y tienen potencial codificante bajo. Presenta el software https://github.com/Evolinc, montado sobre http://www.cyverse.org, para la anotación de estos RNAs (https://www.ncbi.nlm.nih.gov/pubmed/28536600). Menciona que se conservan más en Fabáceas que en Poáceas por ejemplo, pero en general menos que los genes que codifican proteínas. También han mirado cómo les va a los lncRNA tras duplicaciones genómicas, y han observado que en muchos casos se convierten en pseudogenes.

R Van Velzen habla un proyecto de Wageningen sobre nodulación por parte de Rhizobium de raíces de Parasponia andersoni, una especie no leguminosa de Indonesia, y la comparan con plantas de Trema, que no nodulan. Encuentran que las Rosales han perdido la capacidad de nodular porque los genes relevantes se han perdido o convertido en pseudogenes en paralelo (https://www.biorxiv.org/content/early/2017/07/28/169706).

D Roodt explica sus resultados en torno a una duplicación del genoma de las Cicadales y también de Gingko (http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0184454).

Athanasios Zervas nos habla de los genomas de mitocondrias de plantas parasíticas, como el muérdago (Viscum album). Secuenciaron con Illumina las mitocondrias de 38 especies angiospermas y ensamblaron genes mt (no el cromosoma entero) y observan que la tasa de sustituciones por sitio es mucho mayor en el muérdago, pero no en las otras parasíticas. Su resultado más llamativo es que el parasitismo ha aparecido 11 veces en el árbol de las angiospermas. Menciona de pasada que han observado RNA editing del gen cox3 en muérdago.

Steven Kelly (presentado como Mr OrthoFinder) habla de la evolución de la eficiencia fotosintética (FS) y de cómo el coste de hacer nucleótidos, siendo las purinas más caras que las pirimidinas, y los codones con o sin purinas reflejan la cantidad de N en la dieta. Prueban esta hipótesis con bacterias y eucariotas parásitos y construyen un modelo que para estimar la presión de selección sobre la composición de codones de un proteoma (https://github.com/easeward/CodonMuSe, https://genomebiology.biomedcentral.com/articles/10.1186/s13059-016-1087-9). Luego se pasa a las plantas y compara cómo diferentes grupos de plantas necesitan diferentes [N] para fotosintetizar. Usando su modelo pueden predecir la eficiencia FS de una planta, a partir de su %GC (las más eficientes tienen más purinas, porque gastan menos en FS). Como consecuencia, ante el aumento de [CO2] atmosférico y aumento de la tasa de FS, la tasa de cambio de las secuencias de DNA de las plantas se acelera y por tanto la especiación.

P Novikova muestra sus resultados sobre polimorfismos compartidos y únicos entre diferentes especies del género Arabidopsis y concluye que las poblaciones actuales de la tetraploide (¿) A. suecica tienen alelos de al menos 4 fundadores de A. thaliana (http://dx.doi.org/10.1038/ng.3617). Muestra datos que sugieren una coincidencia entre la aparición de las especies poliploides y los periodos glaciales en Europa (escala: miles de años). Muestra las adaptaciones de las diferentes especies poliploides: fotosíntesis (suecica), kamchatica (cold), arenosa (serpentine soils), etc

Ute Kraemer habla de las plantas hiperacumuladoras de metales que viven en suelos con condiciones extremas, como la perenne Arabidopsis halleri muestreada en zonas mineras. De hecho, comprobaron que tolera Zn, Pb y Cd metales en condiciones que matan a A. thaliana. Cuando comparan el complemento génico de A. thaliana y A. halleri encuentran dos tipos de mutaciones asociadas a la hiperacumulación que se traducen en transcripción elevada: i) CNV de genes y ii) polimorfismos en elementos cis (http://dx.doi.org/10.1186/s12864-016-3319-5). Muestra datos de evidencia de selección en gen HMA4 (pi y D), presenta en varias copias conservadas por conversión génica ectópica (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3758752). A continuación estudian la variabilidad fenotípica de casi doscientas poblaciones (K=4-6 aparentemente) de A. halleri en Europa central medida en el laboratorio (http://onlinelibrary.wiley.com/doi/10.1111/nph.14219/full). Cuando hacen GWAS con la [Cd] del suelo de origen encuentran un transportador HMA asociado de manera significativa. Usan GBS para genotipar.

G Piganeau hace genómica con picofitoplancton, los eucariotas fotosintéticos de menor tamaño. Muestrea en el golfo de León. LD se estabiliza en 20kb. Muestra haplotipos muy divergentes, que no se pueden alinear, para el cromosoma 19 ensamblado, hipervariable. pero que conservan algunos genes ortólogos. La longitud del chr19 se correlaciona con la resistencia a la infección de dsDNA virus, pero no parece contener CRISPR repeats con trozos de esos virus.

I Mayrose presenta una tubería para identificar cambios de secuencia que explican variación en caracteres discretos específicos. Recuerda que las herbáceas tienen tasas de sustitución más altas que las leñosas (https://www.ncbi.nlm.nih.gov/pubmed/18832643) como manera de introducir métodos existentes de inferencia a partir de topologías de árboles que tienen limtaciones que su nuevo método trata de superar. Para ello necesitas un carácter binario mapeado sobre un árbol de especies y desarrollan su modelo traitRate (https://www.ncbi.nlm.nih.gov/pubmed/28453644). Lo prueba con la transición a parasitismo de las orquídeas y encuentran SNPs en RPS8. Necesita como input un árbol, un FASTA de péptidos y otro con caracteres binarios.

Bob Schmitz habla de metilación de DNA en plantas (5mC), un carácter con variabilidad variable entre linajes. La enzima MET1 mantiene la metilación en sitios mCG, sobre todo en el cuerpo del gen. CMT3 mantiene los sitios mCHG, típicos de heterocromatina, y DRM1/2 los mCHH, de manera dependiente de transcritos. Hay evidencia (mutantes, filogenias) de que CMT3 es participa en la metilación del cuerpo génico, que es máxima en el centro del gen y decae hacia los extremos. Hacen epiRILs para estudiar si se recupera al cruzar mutantes cmt3 con wt, y tras 8 generaciones ven que no, a pesar de que el transcrito se expresa perfectamente. Sí observan algunos genes donde se recupera la metilación, pero es muy lento.

Claudia Kohler habla de los mecanismos epigenéticos de la especiación de plantas poliploides y de la barrera reproductiva con sus parentales, que tiene lugar en el endospermo (triploid block, https://www.ncbi.nlm.nih.gov/pubmed/20089326). Muestra ejemplos de genes paternos que se sobreexpresan solamente en los triploides y que están bajo control del mecanismo de metilación dependiente de RNA (CHH, https://www.ncbi.nlm.nih.gov/pubmed/25217506). Concluye que la poliploidización es una vía rápida para la especiación, mucho más rápida que la acumulación de mutaciones en especies diploides.

A Vidalis habla sobre epimutantes y la evolución del metiloma en plantas. La metilación es estable entre generaciones. Los epimutantes ganan o pierden su estado de metilación silvestre y hay variabilidad natural en su distribución entre individuos de la misma población (https://genomebiology.biomedcentral.com/articles/10.1186/s13059-016-1127-5).

WA Ricci estudia sitios cis lejanos en plantas, que en maíz se han descubierto con MNase-seq, desvelando el genoma activo (1% del total, https://www.ncbi.nlm.nih.gov/pubmed/27185945). Explica varios ejemplos en maíz, entre ellos un enhancer en el promotor del gen tb1 que se encuentra 11kb aguas arriba y que se confirma por su patrón de modificación de histonas H3K27. Después muestra que en maíz, usando los patrones de histonas, se pueden identificar regiones accesibles de cromatina dentro, cerca (2kb) y lejos de genes transcripcionalmente activos en proporciones similares.