26 de febrero de 2019

StructMAn: impacto funcional de mutaciones no sinónimas en base a la estructura 3D

Hola,
acabo de escuchar a Olga Kalininia en el Sanger Institute hablar sobre cómo analizar el impacto potencial de mutaciones no sinónimas en proteínas usando
https://structman.mpi-inf.mpg.de

Fuente: https://academic.oup.com/nar/article/44/W1/W463/2499349
Otro artículo interesante es https://www.nature.com/articles/oncsis201779

Es un "predictor sencillo", palabras textuales, que clasifica cada posición en al secuencia como sitio de interacción molecular (con otras proteínas, ligandos o ADN) o como sitio core (en contraposición a sitio en la superficie, según su área expuesta al solvente). Para ello mapea la secuencia sobre estructuras del PDB o sobre todos los modelos por homología posibles con identidad de secuencia >= 35% y luego  calcula la ΔΔ G de la mutación con foldX (del orden de segundos por mutación). Finalmente, por medio de un predictor de tipo bosque aleatorio (random forest) combina atributos de estructura y secuencia para predecir si hay un impacto funcional o no.

Entrenaron sus predictores con datos de ClinVar (fundamentalmente relacionados con cáncer), las proteínas humanas en UniProt y obtienen precisiones del orden del 80%. Es interesante que uno de los atributos que correlaciona negativamente con el impacto funcional es el desorden del residuo.
Cuando le pregunto sobre esto me dice que están mirando actualmente mutantes que afectan al splicing y están observando que suelen estar en regiones desordenadas,
hasta pronto,
Bruno





19 de febrero de 2019

UK climate projections 2018

Hi,
today I was visiting Rothamsted Research invited to the Brassica's BRAVO stakeholders meeting. There I could listen to SteveDorling (University East Anglia) talk about the UK Climate Projections 2018. These are my notes on that.

He basically talked us about the challenges of choosing the right climate dataset for each agriculture problem (https://www.metoffice.gov.uk/research/collaboration/ukcp/download-data , https://www.metoffice.gov.uk/climate/uk/data/haduk-grid/haduk-grid) and in other resources such as http://www.cordex.org. The UKCP2018 data are available for the period 1900-2100. Regional projections are currently available with 12km resolution, and later in the year with a 2.2km grid assuming the current rate of greenhouse emissions. The headline for the UK is that as temperatures rise, winter precipitation will increase as much as they will be reduced in the summer. 

Which variables will likely change most so that they can be considered in future Brassica experiments? That depends on the resolution and timescales, and whether we are talking of UK field trials or seed production overseas, but Steve singled out “chilling”, soil temperature or soil moisture. He added that suitability models are promising tools, such as https://www.tandfonline.com/doi/full/10.1080/1747423X.2018.1537312

Source: https://www.tandfonline.com/doi/full/10.1080/1747423X.2018.1537312

Note that in this example they used a 5x5km grid, just like our recent work on "Genetic association with high‐resolution climate data reveals selection footprints in the genomes of barley landraces across the Iberian Peninsula" (see https://doi.org/10.1111/mec.15009).


He believes that the current climate datasets are so large that they should support any question we might come up with with help from Machine Learning, 

Bruno


7 de febrero de 2019

Introducción a AlphaFold

Hola,
vengo de escuchar a Andrew W Senior en el auditorio Kendrew del EMBL-EBI hablar de cómo funciona AlphaFold para predecir la estructura de proteínas. Como titulaba en Diciembre, todavía no sabemos plegar proteínas, pero cada vez tenemos más información en el Protein Data Bank (del orden de 150K estructuras) para poder predecir distancias entre residuos y ángulos diedros.

Fuente: https://deepmind.com/blog/alphafold

Trataré de resumir lo que nos ha contado antes de que salga el artículo, pero ojo, ha advertido que el código no piensan publicarlo por ahora. Su sistema comprende varios módulos que se ejecutan secuencialmente:

1) Extración de correlaciones evolutivas entre residuos de una secuencia de aminoácidos en forma de modelo de Potts (CCMpred) a partir de perfiles de secuencias homólogas obtenidas con PSIBLAST o HHblits, como hace HHpred.

2) Red neuronal profunda, con al menos dos variantes:
2.1) predicción de distancias reales entre C-betas, no contactos, a partir de histogramas precalculados en el rango de 2 a 22 Ansgtrom. En esto se parecen a RaptorX.
2.2) predicción de ángulos diedros phi y psi

NOTA1: Las predicciones de distancias les permiten asignar estructura secundaria con una precisión Q3  del 84% usando las estructuras de CASP11.

NOTA2: Parten la matriz de contactos en submatrices (crops) que comprenden siempre un trozo de la diagonal principal y esa manera, y con la estructura secundaria, propagan localmente las restricciones de distancias entre residuos cercanos.

3) Diferenciación del potencial de distancias/ángulos por métodos de minimización de gradientes. Lo hacen partiendo la secuencia en dominios o con la secuencia entre y observan que la segunda manera funciona mejor.

4) Relajan el esqueleto obtenido y le añaden cadenas laterales completas con Rosetta. En sus manos esto no mejora el modelo de manera significativa.

Hasta luego,
Bruno