19 de febrero de 2019

UK climate projections 2018

Hi,
today I was visiting Rothamsted Research invited to the Brassica's BRAVO stakeholders meeting. There I could listen to SteveDorling (University East Anglia) talk about the UK Climate Projections 2018. These are my notes on that.

He basically talked us about the challenges of choosing the right climate dataset for each agriculture problem (https://www.metoffice.gov.uk/research/collaboration/ukcp/download-data , https://www.metoffice.gov.uk/climate/uk/data/haduk-grid/haduk-grid) and in other resources such as http://www.cordex.org. The UKCP2018 data are available for the period 1900-2100. Regional projections are currently available with 12km resolution, and later in the year with a 2.2km grid assuming the current rate of greenhouse emissions. The headline for the UK is that as temperatures rise, winter precipitation will increase as much as they will be reduced in the summer. 

Which variables will likely change most so that they can be considered in future Brassica experiments? That depends on the resolution and timescales, and whether we are talking of UK field trials or seed production overseas, but Steve singled out “chilling”, soil temperature or soil moisture. He added that suitability models are promising tools, such as https://www.tandfonline.com/doi/full/10.1080/1747423X.2018.1537312

Source: https://www.tandfonline.com/doi/full/10.1080/1747423X.2018.1537312

Note that in this example they used a 5x5km grid, just like our recent work on "Genetic association with high‐resolution climate data reveals selection footprints in the genomes of barley landraces across the Iberian Peninsula" (see https://doi.org/10.1111/mec.15009).


He believes that the current climate datasets are so large that they should support any question we might come up with with help from Machine Learning, 

Bruno


7 de febrero de 2019

Introducción a AlphaFold

Hola,
vengo de escuchar a Andrew W Senior en el auditorio Kendrew del EMBL-EBI hablar de cómo funciona AlphaFold para predecir la estructura de proteínas. Como titulaba en Diciembre, todavía no sabemos plegar proteínas, pero cada vez tenemos más información en el Protein Data Bank (del orden de 150K estructuras) para poder predecir distancias entre residuos y ángulos diedros.

Fuente: https://deepmind.com/blog/alphafold

Trataré de resumir lo que nos ha contado antes de que salga el artículo, pero ojo, ha advertido que el código no piensan publicarlo por ahora. Su sistema comprende varios módulos que se ejecutan secuencialmente:

1) Extración de correlaciones evolutivas entre residuos de una secuencia de aminoácidos en forma de modelo de Potts (CCMpred) a partir de perfiles de secuencias homólogas obtenidas con PSIBLAST o HHblits, como hace HHpred.

2) Red neuronal profunda, con al menos dos variantes:
2.1) predicción de distancias reales entre C-betas, no contactos, a partir de histogramas precalculados en el rango de 2 a 22 Ansgtrom. En esto se parecen a RaptorX.
2.2) predicción de ángulos diedros phi y psi

NOTA1: Las predicciones de distancias les permiten asignar estructura secundaria con una precisión Q3  del 84% usando las estructuras de CASP11.

NOTA2: Parten la matriz de contactos en submatrices (crops) que comprenden siempre un trozo de la diagonal principal y esa manera, y con la estructura secundaria, propagan localmente las restricciones de distancias entre residuos cercanos.

3) Diferenciación del potencial de distancias/ángulos por métodos de minimización de gradientes. Lo hacen partiendo la secuencia en dominios o con la secuencia entre y observan que la segunda manera funciona mejor.

4) Relajan el esqueleto obtenido y le añaden cadenas laterales completas con Rosetta. En sus manos esto no mejora el modelo de manera significativa.

Hasta luego,
Bruno




2 de enero de 2019

BLAST+ actualizado a versión 2.8.1

Hola, espero que estéis bien.
En esta primera entrada del año solamente quería señalar que BLAST+ fue actualizado a la versión 2.8.1+ hace un par de semanas a causa de un error encontrado al usar la opción -max_target_seqs, tal como se publicó en https://doi.org/10.1093/bioinformatics/bty833 y se discutió en https://www.biostars.org/p/340129 .

En respuesta a este error, tres autores del NCBI (Madden, Busby y Ye) escribieron una carta donde explican que el error detectado tiene menor impacto del esperado porque afecta a alineamientos con un número "muy elevado" de indels. Sin embargo, sí reconocen que el uso del parámetro -max_target_seqs con valores M pequeños puede causar confusión porque secuencias con igual puntuación se seleccionarían en base a su posición en el fichero FASTA de partida. Para abordar esto la versión actualizada avisa al usuario cuando use M < 5.

La explicación detallada de los autores de BLAST y los cambios introducidos en la versión actual se explican en https://www.ncbi.nlm.nih.gov/books/NBK131777 y https://doi.org/10.1093/bioinformatics/bty1026 .

Un saludo,
Bruno

17 de diciembre de 2018

no sabemos plegar proteínas (CASP13)

Hola,
en la última entrada de este año, escrita desde Hinxton, UK, me gustaría hablar de CASP13, la edición más reciente del experimento colectivo de predicción a ciegas de estructuras de proteínas (que ya habíamos mencionado aquí).

Entre que esta ocasión ha habido un salto de capacidad predictiva y que el aprendizaje automático está de actualidad, este año CASP ha salido en todas partes: en Science, en The Guardian y hasta en El País.

Yo me centraré aquí en las opiniones de expertos participantes de CASP. Pero antes, para que sepáis de qué hablo, podéis ver los resultados oficiales en predictioncenter.org/casp13

Empezaré por esta figura de Torsten Schwede, que muestra el salto de calidad de las mejores predicciones a lo largo de la historia de CASP. El ajuste entre un modelo y su estructura experimental se calcula con la función GDT_TS:

Fuente: https://www.sib.swiss/about-sib/news/10307-deep-learning-a-leap-forward-for-protein-structure-prediction

Otra visión de los mismos resultados nos la da Mohammed AlQuraishi, mostrando la separación entre los mejores grupos/predictores en ediciones de CASP:


Fuente: https://moalquraishi.wordpress.com/2018/12/09/alphafold-casp13-what-just-happened/
En ambos casos podemos ver una tendencia ascendente que habrá que ver si se mantiene en el tiempo o, si en cambio, se debe a que las secuencias problema de CASP13 eran más fáciles que otras veces.

Qué ha pasado en los últimos años? Seguramente la suma de muchas cosas. Por ejemplo, la llegada del equipo DeepMind en esta edad de oro del aprendizaje automático. Es curioso, porque las redes neuronales se han estado aplicando en CASP desde los años noventa para la predicción de estructura secundaria; sin embargo, desde 2011 sabemos que para muchas familias de proteínas tenemos tantas secuencias diferentes que podemos predecir los contactos que se dan entre las partes plegadas de la proteína.

Fuente: https://doi.org/10.1371/journal.pone.0028766  

Por tanto, no sabemos cómo se pliegan las proteínas todavía, pero algunos grupos de investigación han sabido explotar la información evolutiva implícita en alineamientos múltiples de proteínas para saber qué tipo de plegamiento adoptan finalmente. Muchos de esos grupos comparten su código fuente (por ejemplo http://evfold.org/evfold-web/evfold.do), a ver si lo hace DeepMind pronto,

hasta el año que viene!

Bruno

26 de octubre de 2018

Plant Genomes in a Changing Environment (III)

Hi, this is my account of the first few talks from the last day of the meeting.


Claudia Köhler, Swedish University of Agricultural Sciences, Sweden
She talks about imprinted genes which are flanked by transposable elements (TE) in Arabidopsis thaliana. They find that RNApolIV mutants suppress triploid seed abortions. RNApolIV is know to be involved in RNA-guided methylation. They found that RNApolIV is behind the biogenesis of easiRNAs from TEs, and that correlates with decreased CHH methylation in the endosperm of triploid seeds (https://www.ncbi.nlm.nih.gov/pubmed/29335544). So they propose that pollen-derived easiRNAs are functional after fertilization and have a transgenerational role in assessing gamete compatibility, similar to animal piRNAs. The relevance of the results is that these mechanisms allow rapid evolution of hybridization barriers and ultimately speciation.

Isabel Bäurle, University of Potsdam, Germany
She talks about how Arabidopsis thaliana plants remember past stress events, particular heat, which is one of the most fluctuating stress sources in nature. She describes Heat Shock Factor 2 (HSFA2) and how it associates transiently to genes conferring heat memory. Target genes were observed to accumulate H3K4me3, making chromatin accessible for at least 5 days  (https://www.ncbi.nlm.nih.gov/pubmed/26657708, http://www.plantcell.org/content/early/2014/04/25/tpc.114.123851). Then she moves to describing BRU1/TSK/MGO3, which is orthologous to animal TSL, which has an epigenetic role during DNA replication and is also required for heat memory ensuring that chromatin marks are inherited during cell division (https://onlinelibrary.wiley.com/doi/abs/10.1111/pce.13365). Their long-term goal is to provide stress-memory to crops in the right moment so that yield is not too affected.

Manu Dubin, CNRS / Université de Lille, France
He explains he is back to academia from industry and that he is studying how both climate of origin and breeding efforts influence DNA methylation in barley (Hordeum vulgare) and how that is linked to adaptation, inspired in previous work on climate clines in A. thaliana. They used USDA barley core collection (inbred seeds from Mexico) with both landraces and cultivars from Europe and North America, but does not include any Iberian barleys nor North-African, which are known to contribute to the genetic diversity of the species (see for instance https://link.springer.com/article/10.1007/s11032-018-0816-z). They observe that winter barleys have slightly higher CG methylation than springs and show GWAS results on TE methylation. They find that for most TE families winter lines are more methylated than springs. He focus a little on BARE1 copia-like elements, associated to drought and ABA responses, with higher CNV equatorial/sorth term T fluctuating regions. He shows a negative correlation between BARE1 CNV and yield. He shows nice boxplot-like plots showing individual data. He is asked to what extent the reference genome (Morex) affects his conclusion. He is also asked whether the seed source would affect his results, and to what extent his yield measurements are affected by the fact that he is planting barleys from other regions in North Europe.

Sorry, I missed the talks by Martin Groth (Helmholtz Zentrum München, Germany), Nick Loman (U. Birmingham, UK) and Tetsuya Higashiyama (Nagoya University, Japan).