Mostrando entradas con la etiqueta homology modelling. Mostrar todas las entradas
Mostrando entradas con la etiqueta homology modelling. Mostrar todas las entradas

9 de septiembre de 2019

modelos de proteínas a partir de alineamientos múltiples

Hola,
desde hace unos meses he estado hablando aquí (1, 2, 3) de los nuevos métodos de predicción de estructura de proteínas basados en estimar distancias entre resíduos a partir de los alineamientos múltiples de sus secuencias (MSA). Hoy traigo aquí uno de esos métodos, que a diferencia de alphaFold, podéis probar en vuestro propio ordenador: DMPfold. Este algoritmo es producto del grupo de David T. Jones, bien conocido por herramientas muy populares como PSIPRED y usa la información evolutiva capturada en un MSA para calcular distancias entre C-betas, puentes de hidrógeno del esqueleto peptídico y ángulos diedros (leer aquí y aquí).


Diagrama de flujo de DMPfold, tomado de https://www.nature.com/articles/s41467-019-11994-0


La lista de dependencia es larga, como explican en su repositorio https://github.com/psipred/DMPfold, pero os permitirá modelar vuestras propias secuencias, incluso proteínas de membrana, y tener el control sobre el proceso,
hasta pronto,
Bruno

14 de agosto de 2019

modelado comparativo de proteínas multidominio

Hola,
en muchas ocasiones el modelado por homología o comparativo es  la única manera que tenemos trabajar con la estructura de una proteína que todavía no está en el Protein Data Bank. De hecho muchos artículos han sido publicados con figuras construidas sobre este tipo de modelos porque ayudan a comprender y poner en contexto tridimensional los resultados.

Interfaz entre dos monómeros modelada por homología, tomada de https://science.sciencemag.org/content/364/6445/1095.

Sin embargo, casi todas las herramientas que existen para modelar proteínas se han centrado históricamente en modelar dominios de proteína uno a uno, cuando la realidad es que muchas proteínas contienen varios dominios. Precisamente para modelar las conformaciones de este tipo de proteínas ha sido publicado recientemente https://zhanglab.ccmb.med.umich.edu/DEMO.

Diagrama de flujo de DEMO, tomado de https://www.pnas.org/content/116/32/15930.

Con la ayuda de DEMO podrás ensamblar dominios previamente modelados de dos en dos. El algoritmo consulta una colección no redundante de estructuras multidominio y optimiza las orientaciones entre dominios, además de que puede usar datos experimentales (cross-linking y crioEM) para guiar el proceso.

Un saludo, Bruno


26 de febrero de 2019

StructMAn: impacto funcional de mutaciones no sinónimas en base a la estructura 3D

Hola,
acabo de escuchar a Olga Kalininia en el Sanger Institute hablar sobre cómo analizar el impacto potencial de mutaciones no sinónimas en proteínas usando
https://structman.mpi-inf.mpg.de

Fuente: https://academic.oup.com/nar/article/44/W1/W463/2499349
Otro artículo interesante es https://www.nature.com/articles/oncsis201779

Es un "predictor sencillo", palabras textuales, que clasifica cada posición en al secuencia como sitio de interacción molecular (con otras proteínas, ligandos o ADN) o como sitio core (en contraposición a sitio en la superficie, según su área expuesta al solvente). Para ello mapea la secuencia sobre estructuras del PDB o sobre todos los modelos por homología posibles con identidad de secuencia >= 35% y luego  calcula la ΔΔ G de la mutación con foldX (del orden de segundos por mutación). Finalmente, por medio de un predictor de tipo bosque aleatorio (random forest) combina atributos de estructura y secuencia para predecir si hay un impacto funcional o no.

Entrenaron sus predictores con datos de ClinVar (fundamentalmente relacionados con cáncer), las proteínas humanas en UniProt y obtienen precisiones del orden del 80%. Es interesante que uno de los atributos que correlaciona negativamente con el impacto funcional es el desorden del residuo.
Cuando le pregunto sobre esto me dice que están mirando actualmente mutantes que afectan al splicing y están observando que suelen estar en regiones desordenadas,
hasta pronto,
Bruno





17 de diciembre de 2018

no sabemos plegar proteínas (CASP13)

Hola,
en la última entrada de este año, escrita desde Hinxton, UK, me gustaría hablar de CASP13, la edición más reciente del experimento colectivo de predicción a ciegas de estructuras de proteínas (que ya habíamos mencionado aquí).

Entre que esta ocasión ha habido un salto de capacidad predictiva y que el aprendizaje automático está de actualidad, este año CASP ha salido en todas partes: en Science, en The Guardian y hasta en El País.

Yo me centraré aquí en las opiniones de expertos participantes de CASP. Pero antes, para que sepáis de qué hablo, podéis ver los resultados oficiales en predictioncenter.org/casp13

Empezaré por esta figura de Torsten Schwede, que muestra el salto de calidad de las mejores predicciones a lo largo de la historia de CASP. El ajuste entre un modelo y su estructura experimental se calcula con la función GDT_TS:

Fuente: https://www.sib.swiss/about-sib/news/10307-deep-learning-a-leap-forward-for-protein-structure-prediction

Otra visión de los mismos resultados nos la da Mohammed AlQuraishi, mostrando la separación entre los mejores grupos/predictores en ediciones de CASP:


Fuente: https://moalquraishi.wordpress.com/2018/12/09/alphafold-casp13-what-just-happened/
En ambos casos podemos ver una tendencia ascendente que habrá que ver si se mantiene en el tiempo o, si en cambio, se debe a que las secuencias problema de CASP13 eran más fáciles que otras veces.

Qué ha pasado en los últimos años? Seguramente la suma de muchas cosas. Por ejemplo, la llegada del equipo DeepMind en esta edad de oro del aprendizaje automático. Es curioso, porque las redes neuronales se han estado aplicando en CASP desde los años noventa para la predicción de estructura secundaria; sin embargo, desde 2011 sabemos que para muchas familias de proteínas tenemos tantas secuencias diferentes que podemos predecir los contactos que se dan entre las partes plegadas de la proteína.

Fuente: https://doi.org/10.1371/journal.pone.0028766  

Por tanto, no sabemos cómo se pliegan las proteínas todavía, pero algunos grupos de investigación han sabido explotar la información evolutiva implícita en alineamientos múltiples de proteínas para saber qué tipo de plegamiento adoptan finalmente. Muchos de esos grupos comparten su código fuente (por ejemplo http://evfold.org/evfold-web/evfold.do), a ver si lo hace DeepMind pronto,

hasta el año que viene!

Bruno

8 de febrero de 2018

Modelling transcription factor complexes in the terminal

Hi,
I just updated our good old server TFmodeller, available at http://www.ccg.unam.mx/tfmodeller,
so that it uses the current collection of 95% non-redundant protein-DNA complexes extracted from the Protein Data Bank. As of Feb 7, 2018, there are 977 such complexes, which can be downloaded.
In addition, I just wrote a Perl client so that predictions can be ordered from the terminal via a SOAP interface, producing XML output which should be easy to parse. The PDB format coordinates of the resulting model are marked-up with tags. The input is a peptide FASTA file. This is the code:

#!/usr/bin/perl -w
use strict;
use SOAP::Lite;

my $URL = 'http://maya.ccg.unam.mx:8080/axis';
my $WSDL = "$URL/TFmodellerService.jws?WSDL";

my $infile = $ARGV[0] || die "# usage: $0 \n";
my ($inFASTA,$result);
open(FASTA,'<',$infile) ||die "#cannot read $infile\n";
$/ = undef;
$inFASTA = ; # slurp
close(FASTA);

my $soap = SOAP::Lite->uri($URL)
                     ->proxy($URL, timeout => 300 )
                     ->service($WSDL);

eval { $result = $soap->TFmodeller($inFASTA) };
if($@){ die $@ }
else{ print $result }

The original Java client can still be found here. Note that the output includes a sequence alignment of query and template with residues contacting DNA nitrogen bases highlighted:

HEADER model 1zrf_A 203 DNACOMPLEX resol=2.10 21 8e-46
REMARK query    MILLLSKKNAEERLAAFIYNLSRRFAQRGFSPREFRLTMTRGDIGNYLGLTVETISRLLG
REMARK template KVGNLAFLDVTGRIAQTLLNLAKQ-PDAMTHPDGMQIKITRQEIGQIVGCSRETVGRILK
REMARK contacts ........................ ................*........***...*...

Bruno