Mostrando entradas con la etiqueta SNP. Mostrar todas las entradas
Mostrando entradas con la etiqueta SNP. Mostrar todas las entradas

28 de abril de 2022

Gabriela y la dinámica molecular

Hola,

esta mañana leía sobre el descubrimiento de que una mutación en el gen TLR7 es suficiente para causar lupus eritematoso sistémico (LES), una enfermedad autoinmune. La mutación es la sustitución Y264H, deletérea según los programas SIFT y CADD (ver otras opciones aquí), de la que es portadora Gabriela, una chica madrileña. 

El artículo completo está en https://doi.org/10.1038/s41586-022-04642-z , yo quería simplemente destacar parte de la primera figura:

Adaptada del original en https://doi.org/10.1038/s41586-022-04642-z

En el alineamiento múltiple de arriba se puede ver que la tirosina Y264 está muy conservada en animales, y por eso SIFT le asigna una puntuación de 0.12 al cambio por histidina (otras dos mutaciones no sinónimas tienen puntuaciones de 0.05 y 0). 

El panel del medio muestra la unión del ligando guanosina al receptor silvestre TLR7 (Y264) y el de abajo con el receptor mutado, donde se ve que se libera volumen que ocupan varias moléculas de agua, aumentando a la vez la afinidad por la guanosina.

Este análisis fue posible por la disponibilidad de tres estructuras de la proteína ortóloga en Maccaca mulata en el PDB (6IF55GMF y 5GMH), que fueron usadas como punto de partida para hacer varias simulaciones de dinámica molecular que se describen con detalle (3 páginas) en el material suplementario,

hasta pronto,

Bruno

3 de septiembre de 2019

cómo hacer filogenias de miles de genomas

Hola,
la acumulación de genomas completos humanos, actualmente del orden de decenas de miles, plantea problemas a la hora de calcular filogenias con las estructuras de datos y los algoritmos tradicionales. Por esa razón hay grupos desarrollando nuevas estrategias que beneficiarán también a los que, como nosotros, trabajamos en plantas, cuando lleguemos a esos números.

Hoy comento muy brevemente dos métodos que acabo de ver publicados en Nature Genetics. El primero se llama tsinfer y usa un árbol comprimido para almacenar las variantes genómicas en mucho menos espacio que una matriz VCF:

Tamaño de las estructuras de datos probadas por los autores de tsinfer, tomado de https://www.nature.com/articles/s41588-019-0480-1.

El segundo método se llama relate y se basa en reconstruir los eventos de recombinación de cromosomas ancestrales que explican los haplotipos observados. Este método calcula longitudes de ramas:


Resumen del algoritmo relate, tomado de https://www.nature.com/articles/s41588-019-0484-x.

Un saludo,
Bruno

26 de febrero de 2019

StructMAn: impacto funcional de mutaciones no sinónimas en base a la estructura 3D

Hola,
acabo de escuchar a Olga Kalininia en el Sanger Institute hablar sobre cómo analizar el impacto potencial de mutaciones no sinónimas en proteínas usando
https://structman.mpi-inf.mpg.de

Fuente: https://academic.oup.com/nar/article/44/W1/W463/2499349
Otro artículo interesante es https://www.nature.com/articles/oncsis201779

Es un "predictor sencillo", palabras textuales, que clasifica cada posición en al secuencia como sitio de interacción molecular (con otras proteínas, ligandos o ADN) o como sitio core (en contraposición a sitio en la superficie, según su área expuesta al solvente). Para ello mapea la secuencia sobre estructuras del PDB o sobre todos los modelos por homología posibles con identidad de secuencia >= 35% y luego  calcula la ΔΔ G de la mutación con foldX (del orden de segundos por mutación). Finalmente, por medio de un predictor de tipo bosque aleatorio (random forest) combina atributos de estructura y secuencia para predecir si hay un impacto funcional o no.

Entrenaron sus predictores con datos de ClinVar (fundamentalmente relacionados con cáncer), las proteínas humanas en UniProt y obtienen precisiones del orden del 80%. Es interesante que uno de los atributos que correlaciona negativamente con el impacto funcional es el desorden del residuo.
Cuando le pregunto sobre esto me dice que están mirando actualmente mutantes que afectan al splicing y están observando que suelen estar en regiones desordenadas,
hasta pronto,
Bruno





27 de febrero de 2014

contrato: Anotación y diagnóstico molecular de polimorfismos en secuencias genómicas

Anotación y diagnóstico molecular de polimorfismos en secuencias genómicas

El Grupo de Biología Computacional y Estructural de la EEAD-CSIC oferta un CONTRATO de personal investigador PREDOCTORAL para la formación de doctores, renovable hasta 4 años, cofinanciado por el Gobierno de Aragón.

Plazo de solicitud finaliza el 10 de marzo de 2014.

El proyecto plantea el desarrollo de un entorno bioinformático eficiente, escalable y sencillo para el usuario final, para la anotación de secuencias genómicas obtenidas de cualquier especie y los polimorfismos observados. Por medio de algoritmos de inteligencia artificial este software deberá además aprender de las secuencias analizadas previamente para hacer predicciones de fenotipo, por ejemplo de mutaciones en un gen. Los resultados del proyecto serán directamente aplicables a los trabajos del laboratorio  en genómica de plantas y también a enfermedades humanas donde el diagnóstico molecular es una herramienta clave, como el cáncer de mama o la fibrosis quística. Para ello esta propuesta cuenta con la participación de la empresa local Blackhills Diagnostic Resources, que desarrolla este tipo de kits en Zaragoza, y que suministrará experiencia y secuencias para el adecuado desarrollo del proyecto en su vertiente clínica.

Los candidatos deben cumplir los requisitos de la convocatoria publicada en el BOA 17.02.2014 (http://tinyurl.com/nfulqbe) y estar empadronados en la Comunidad Autónoma de Aragón. Buscamos i) ingenieros o licenciados con Máster o ii) graduados con 300 créditos ECTS en Biología, Bioquímica, Biotecnología, Química, Veterinaria o Farmacia, Informática o Agronomía.

Para más información sobre el grupo consulta:
www.eead.csic.es/compbio , bioinfoperl.blogspot.com.es (este blog)

Contacto

Bruno Contreras      (bcontreras at eead.csic.es)                            
Inmaculada Yruela  (yruela at eead.csic.es)

Ubicación
Estación Experimental de Aula Dei-CSIC,
Av Montañana 1005, Zaragoza

4 de enero de 2014

Bioinformatician NGS Best Wishes for New Year

This year we didn't have Christmas greeting in the blog, and I received an email from Santa Claus asking for it. So we'll wish the best for New Year... (remember about the free NGS course in Zaragoza in January 2014)


30 de diciembre de 2013

Curso NGS en Zaragoza (30-31 Enero 2014)

Hola,
nuestro colega Miguel Pérez-Enciso impartirá los días 30-31 de Enero (30, mañana y tarde; 31, mañana) un curso básico de análisis de datos NGS en el Salón de actos de la facultad de veterinaria de la Universidad de Zaragoza, invitado y organizado por Luis Varona. El curso es gratuito y no requiere inscripción.

El horario será:
jueves   30: 11-14H y 16-18H
viernes  31: 10-13H


Si consigo un enlace con el material del curso lo pondré aquí, de momento no sé mucho más que lo que aparece en el propio material que Miguel usa (http://www.icrea.cat/Web/OtherSectionViewer.aspx?key=1403&titol=2012):

"This is a short introductory course for NGS analyses.
The course assumes no knowledge on NGS data or data analyses, rather to the contrary, if you have experience , you will be disappointed. It is not yet a hands-on course, I will rather present the material theoretically but I am open with help in the analyses. I assume you are a computer illiterate biologist but that you have realized that you need computers in daily life. You are willing to:
Analyze by yourself the data
Willing to learn linux and perl or similar (python ...)

The main topics covered are:
FASTQ format and sequence quality (Phred score and fastqc software)
A simple pipeline: BWA + Samtools
Visualization: IGV
Identifying SNPs: Samtools
Annotating SNPs: ensembl vep.pl
Identifying structural variants
RNAseq: tophat + cufflinks
Population genetics: pools and individuals
Association studies with sequence: IBSeq

All topics are treated at very beginners level and superficially (check accompanying slides)"
Feliz año a todos,
Bruno

8 de octubre de 2013

What does an SNP look like?

So about to use samtools pileup or mpileup? Would you like to take a look at the file, instead of going straightforward for the BCF and bcftools automation?

Ok! this is what an SNP looks like!

contig_100029   698     C       39      .$.....,.,,,,.,,,.,.,..,......,,,,,,.,,^S. 
contig_100029   699     A       38      .....,.,,,,.,,,.,.,..,......,,,,,,.,,. 
contig_100029   700     A       38      .....,.,,,,.,,,.,.,..,......,,,,,,.,,. 
contig_100029   701     C       39      TTTTTtTttttTtttTtTtTTtTTTTTTttttttTttT^ST       
contig_100029   702     A       40      .....,.,,,,.,,,.,.,..,......,,,,,,.,,..^S,     
contig_100029   703     G       41      .....,.,,,,.,,,.,.,..,......,,,,,,.,,.,.,       
contig_100029   704     G       42      .....,.,,,,.,,,.,.,..,......,,,,,,.,,.,.,^S.   

I have ommited the last column (read base qualities).

And what about a reference skip? Maybe want to see an spliced alignment? Here you are!

contig_100029   516     T       43      ,,,.,,...,.,,.................,.,,,,.,,,.,^S.   
contig_100029   517     A       43      ,,,.,,...,.,,.................,.,,,,.,,,.,.     
contig_100029   518     G       43      ,,,.,,...,.,,.................,.,,,,.,,,.,.  
contig_100029   519     A       43      ,,,.,,...,.,,.................,.,,,,.,,,.,.     
contig_100029   520     G       43      ,,,.,,...,.,,.................,.,,,,.,,,.,.    
contig_100029   521     G       43      <<<><<>>><><<>>>>>>>>>>>>>>>>><><<<<><<<><>     
contig_100029   522     T       43      <<<><<>>><><<>>>>>>>>>>>>>>>>><><<<<><<<><>     
contig_100029   523     G       43      <<<><<>>><><<>>>>>>>>>>>>>>>>><><<<<><<<><>     
contig_100029   524     A       43      <<<><<>>><><<>>>>>>>>>>>>>>>>><><<<<><<<><>    
.    .    .    .    .    .    .    .    .    .    .    .    .    .    .
.    .    .    .    .    .    .    .    .    .    .    .    .    .    .
.    .    .    .    .    .    .    .    .    .    .    .    .    .    .
contig_100029   651     C       43      <<<><<>>><><<>>>>>>>>>>>>>>>>><><<<<><<<><>    
contig_100029   652     A       43      <<<><<>>><><<>>>>>>>>>>>>>>>>><><<<<><<<><>     
contig_100029   653     G       43      <<<><<>>><><<>>>>>>>>>>>>>>>>><><<<<><<<><>     
contig_100029   654     G       44      ,,,.,,...,.,,.................,.,,,,.,,,.,.^S, 
contig_100029   655     G       44      ,,,.,,..$.,.,,............$.....,.,,,,.,,,.,., 
contig_100029   656     C       42      ,,,.,,..,.,,................,.,,,,.,,,.,.,     
contig_100029   657     G       42      ,,,.,,..,.,,................,.,,,,.,,,.,.,     

Who wants an IGV when you can scroll up and down seeing how things pile down and up?
An it is memory efficient, right?
You just have to grep or awk filter your region of interest!

Do you want me to explain about columns?

1st: reference_name
2nd: position in reference
3rd: base on reference
4th: depth, or number of bases pilling-up over this reference position
5th: each symbol comes from a read, with some exceptions. Lets look at it:

"." and ",": matches! one in fwd strand, "," in reverse.
"$": end of read. Followed by mapping symbol of that read base ("." or "," for example). So, 2 symbols.
"^": start of read. Followed by mapping quality of the read (the MAPQ field in SAM format) and the mapping symbol of that base ("." or "," for example).
">" "<": reference skip. That is, the read still maps, but no in these reference bases. So probably an spliced alignment with part of the read aligning before the ">" and part after that. ">" fwd strand, "<" reverse.

6th: (not shown, just working with HQ bases ;)

Looking for more information? Ask please!