#!/perl/bioinfo: jornadas

Mostrando entradas con la etiqueta jornadas. Mostrar todas las entradas

25 de marzo de 2014

XII Jornadas de Bioinformática / XII Symposium on Bioinformatics

Hola,

hoy damos difusión a las pŕoximas Jornadas de Bioinformática, el mayor evento científico sobre biología computacional en España. Esta es la información que tengo de momento:

The XII Symposium on Bioinformatics (XII Jornadas de Bioinformática) will take place on 21-24 September in Sevilla, Spain, at cicCartuja (CSIC-US).

The 21st will be the student symposium, and the main conference will start on Monday the 22nd. The URL for the meeting is:

http://www.bioinformaticsconference2014.org/

(programme/committees are still preliminar, but will be updated periodically)

With the aim of encouraging the participation of younger bioinformaticians this year’s symposium main theme is “Bioinformatics: The New Breed”.Abstracts topics include but are not limited to:

Integrative Biology (NGS, -omics technologies...)
Structural Bioinformatics and function prediction
Algorithms, method, and tools development
Metagenomics
Medical Informatics

Abstract submission closes Thursday, July 31, 2014

PD 25 de Agosto: nuestro laboratorio presentará dos charlas seleccionadas en las secciones de Metagenómica y Estructura y Función. Además Álvaro Sebastián, colaborador habitual del blog presentará un libro de texto sobre Bioinformática en español, en la sección The Unworkshop format.

26 de enero de 2012

Apuntes sobre las XI Jornadas Bioinformáticas

Hola,
tras el anuncio de hace unas semanas, voy a comentar un poco mis impresiones sobre las XI Jornadas de Bioinformática. Después de la sesión inaugural del lunes, a su vez precedida por el simposio de estudiantes, a las que no pude asistir, el día 24 realmente empezaron mis jornadas. Como valoración general, creo que los asistentes hemos tenido ocasión de aprender y de discutir sobre los problemas del campo, y hemos tenido la oportunidad de escuchar charlas muy buenas. Para los que no pudieron venir, ahí va mi resumen de las charlas a las que asistí y notas sobre algunos pósters.


Modelo 3D de la region cromosómica ENCODE ENm008, que contiene el locus de la α-globina, adaptado de www.ncbi.nlm.nih.gov/pmc/articles/PMC3056208.

24 de Enero
Hoy hemos podido escuchar un montón de charlas sobre temas variopintos, y me ha llamado la atención la abrumadura presencia de la palabra mágica NGS (Next Generation Sequencing) en muchas de ellas. También en los pósters expuestos ha habido muchos ejemplos de la aplicación de estas herramientas, sobre todo de RNAseq.

De lo que he visto muy poco hoy ha sido de ChIPseq, tan sólo el póster de Ionas Erb con el software Pro-Coffee para alinear secuencias de DNA de promotores, publicado en NAR.

Otro póster que me llamó la atención fue el trabajo de Minoche sobre la evaluación sistemática de los errores típicos de la plataforma de secuenciación Solexa, publicada en Genome Biology.

Sonia Tarazona me explicó su póster sobre RNAseq y me invitó a probar el software Qualimap, que permite evaluar el efecto del coverage sobre la interpretación de las diferencias de expresión medidas en RNAseq.

Leo Mirny nos explicó en detalle la técnica de Hi-C para localizar regiones de cromatina cercanas en el espacio celular y cómo en su grupo han usado este tipo de datos para entender el empaquetamiento del núcleo de levaduras y de Homo sapiens, construyendo una matriz que se parece mucho a un mapa de contactos de proteínas, algo que también por la tarde explicó Davide Bau en su trabajo sobre la transcripción y la estructura de la cromatina en un locus de alfa globina.

Juan Ramón González nos comentó los métodos predominantes actuales para la normalización de conteos de lecturas RNAseq (TMM, EDAseq y CQN) y presentó los problemas que tienen las distribuciones de Poisson (con un parámetro libre) y la binomial negativa (con dos) para modelar algunos datos reales, y mostró ejemplos convincentes del uso de la de Poisson-Tweedie como lo mejor de los dos mundos, con un tercer parámetro para elegir según el caso el mejor modelo estadístico, dada la dispersión de los datos reales de esta teconología. Propone su paquete de Bioconductor/R tweeDEseq como herramienta para esta tarea.

Eva María Novoa nos dió una clase magistral sobre el uso de codones en procariotas y eucariotas, presentando evidencia de la importancia de las enzimas UMS (en proka) y hetADATS (adenosine deaminasas de euka), que modifican terceras bases de los tRNAs, para explicar las diferentes frecuencias de codones en todos los bichos conocidos. Su trabajo se publica en Cell.

Nacho Medina nos deslumbró con la capacidad de su equipo del CIPF para crear una tubería de análisis de datos de NGS que nos permitirá como usuarios hacerlo todo en sus servidores en "tiempos de minutos", aprovechando la optimización que han hecho de los distintos algoritmos y del hardware subyacente, que incluye, si no recuerdo mal, CPUs, GPUs dedicadas y discos de estado sólido. Me llamó mucho la atención su navegador genómico HTML5, que se puede probar en http://genomemaps.org.

Tomas Marques nos volvió a hablar de primates, ya lo había hecho en Málaga en el 2010. Esta vez trató de convencernos de la importancia de mirar con lupa los datos de NGS, en su caso de ensamblaje genómico, de usar el software adecuado para nuestros objetivos, y de hacer el control de calidad en casa, sin delegarlo. Menciona que en su labo usan GATK como software para variant calling tras haberlo comparado con otros.

Tanya Vavouri nos explicó, si lo entendí bien, que los espermatozoides humanos maduros conservan sólo un 4% de los nucleosomas, pero que justo esos pueden ser muy importantes para pasar información epigenéticas al nuevo cigoto, porque se correlacionan con picos de %GC muy cercanos a promotores.

Javier Macia nos mostró ejemplos de cómo modelar circuitos electrónicos a base de puertas lógicas implementadas con células de levadura modificadas.

Ya hacia el final del día Toni Giorgino nos mostró dinámicas moleculares espectaculares de un dominio SH2 y su ligando, y Pablo Minguez publicó un montón de resultados sobre la conservación de sitios en proteínas eucariotas que pueden sufrir modificaciones postraduccionales. Lo siento, a las dos últimas charlas no me pude quedar.

25 de Enero
El tercer y último día del congreso arrancó con una conferencia plenaria de Luis Serrano donde nos resumió los estudios de su grupo sobre Mycoplasma pneumoniae, un parásito bacteriano con genoma extremadamente reducido que se puede cultivar en el laboratorio. Su charla se puede resumir como la aplicación de todas las herramientas bioinformática, genómicas, proteómicas y metabolómicas disponibles para tratar de caracterizar la biología de este bicho, que tiene solamente unos 10 factores de transcripción homólogos de otros conocidos en otras especies. Por destacar algo de una charla muy densa pero amena, Luis habló que encontraban una correlación <0.50 entre los niveles de expresión génica y las cantidades de proteína detectadas por MS en distintas condiciones. Esta observación no es muy novedosa, pero sí la explicación que proponía, basada en la divergencia de las secuencias Shine-Dalgarno en los mensajeros, que motivarían menores afinidades de los ribosomas y por tanto menores tasas de traducción.

Antonio Mérida presentó el software Sma3s para la anotación de genomas, que comparó con otros programas como Blast2GO. Roderic Guigó apuntaba tras la charla que la anotación de un genoma actualmente debe incluir no sólo genes codificantes sino también RNAs reguladores, por ejemplo.

Paolo Ribeca dió la primera charla del día dedicada al tema estrella (NGS). En esta conferencia Paolo repasó los principales problemas del mapeo de lecturas (reads) sobre un genoma de referencia y las limitaciones de los principales programas (Bowtie,BWA,SOAP,MrFAST,MrsFAST) a la hora de hacer búsquedas exhaustivas y flexibles sobre posibles dianas genómicas, algo que su propia plataforma GEM parece haber resuelto y acelerado considerablemente. Su mensaje de precaución es que el usuario de este tipo de software debe conocer con cierta precisión cómo funciona el programa que va a usar y qué limitaciones tiene, en vez de confiar en el programa a ciegas y dejar que tome decisiones, no siempre transparentes, por ti.

Darío Guerrero mostró datos sobre la validación de una tubería de preprocesamiento de lecturas NGS y el ensamblaje de datos de RNAseq, con seqtrimnext y fulllengther, respectivamente. Uno de los programas con los que comparó sus resultados fue Mira.

Beatriz García nos contó el desarrollo de software de aprendizaje automático para la asignación de secuencia de proteínas sin anotar a rutas metabólicas.

Ya en la tarde, Patrick Aloy nos contó un proyecto de su grupo que reconstruye una red de interacciones de proteínas implicadas en la enfermedad de Alzheimer y su uso, junto con una base de datos de fármacos y sus efectos terapéuticos, para predecir el efecto de nuevos compuestos para su tratamiento, así como para replantearse el uso de otros. Parte de este trabajo está publicado aquí.

Ana Rojas nos explicó como su grupo había reconstruido la filogenia de la superfamilia de proteínas RAS, encontrando por el camino los residuos funcionales responsables de las diferencias funcionales de las diferentes familias.

Mar Gonzàlez nos resumió resultados de su reciente artículo sobre la variabilidad del splicing alternativo en poblaciones humanas.

Alberto Pascual García nos mostró cómo, a partir de datos de presencia/ausencia de rRNA en muestras de diferentes ambientes, se puede inferir la composición bacteriana en un ambiente y por medio de una aproximación basada en la arquitectura de las redes resultantes estudiar si los diferentes géneros tienden a agregarse o segregarse.

Hernán Dopazo nos contó resultados de un trabajo suyo que está en revisión donde sostiene que la composición de los genomas, en cuanto a elementos como genes, rRNAs, promotores, elementos repetidos, etc, se distribuye de manera parecida a la distribución de especies que se observa en ecosistemas naturales, en un proceso donde aparentemente la selección tiene poco que decir.

En la última charla que pude escuchar Jaime Huerta nos contó los progresos de su grupo para hacer filogenias anidadas, que se pueden entender como un proceso recursivo donde vamos refinando el árbol inicial recalculando de manera recursiva la topología de las ramas a medida que vamos de la raíz a las hojas, añadiendo nuevos genes ortólogos a medida que avanza el proceso.

Entre los pósters del segundo día tomé nota del servidor iLOOP para la predicción de interacciones proteína-proteína, del software TAPyR para el alineamiento de reads largos como los de 454 y del programa Pyicos para el procesamiento de datos de ChIPseq.

PD Una oferta de trabajo que se publicó en el congreso:

The Evolutionary Genomics Group in the Comparative and Computational Genomics program of the IBE (http://www.ibe.upf-csic.es/) is willing to recruit a PhD student. More information is available in the attached document. For queries, please contact Tomás Marquès-Bonet (tomas.marques@upf.edu)

29 de diciembre de 2011

Jornadas Bioinformáticas JBI 2012 (XI Edición)

Aprovecho esta última entrada del año para dar difusión a las Jornadas de Bioinformática JBI 2012. Como muchos sabréis, este congreso es el principal punto de encuentro anual de nuestra comunidad en la península ibérica, así que nuestro laboratorio también estará en Barcelona del 23 al 25 de Enero. El programa completo de las jornadas se puede descargar en este enlace.

http://sgu.bioinfo.cipf.es/jbi2012

Este año presentaremos parte de nuestro trabajo reciente:

"Genome-wide clustering of transcription factors by comparison of predicted protein-DNA interfaces"

donde explicamos y evaluamos la anotación de interfaces de reconocimiento de DNA en secuencias de proteínas por medio de diferentes aproximaciones como BLAST, TFmodeller, DP-Bind y DISIS.

El tema principal de las jornadas será "Arquitectura genómica, anotación y diseño", sobre el cual se discutirán los diferentes avances en la integración de los campos de la Biología, Medicina e Informática en el campo de la Genómica. Además se tratarán los siguientes temas:
- Análisis de datos de secuenciación de alto rendimiento (NGS)
- Bioinformática estructural
- Algoritmos de biología computacional y computación de alto rendimiento
- Análisis de sequencias, filogenética y evolución
- Bases de datos, herramientas y tecnologías en biología computacional
- Bioinformática en transcriptómica y proteómica
- Biología de sistemas

ENGLISH:

The XIth Spanish Symposium on Bioinformatics (JBI2012) will take place in January 23-25, 2012 in Barcelona, Spain. Co-organised by the Spanish Institut of Bioinformatics and the Portuguese Bioinformatics Network and hosted by the Barcelona Biomedical Research Park (PRBB). The full program can be downloaded from this link.

This year, the reference topic is “Genome Architecture, Annotation and Design” for which the conference will provide the opportunity to discuss the state of the art for the integration of the fields of biology, medicine and informatics. We invite you to submit your work and share your experiences in the following topics of interest including, but not limited to:

- Analysis of high throughput data (NGS)
- Structural Bioinformatics
- Algorithms for computational biology and HPC
- Sequence analysis, phylogenetics and evolution
- Databases, Tools and technologies for computational biology
- Bioinformatics in Transcriptomics and Proteomics
- System and Synthetic Biology

Our contribution to the congress:

Genome-wide clustering of transcription factors by comparison of predicted protein-DNA interfaces

Transcription Factors (TFs) play a central role in gene regulation by binding to DNA target sequences, mostly in promoter regions. However, even for the best annotated genomes, only a fraction of these critical proteins have been experimentally characterized and linked to some of their target sites. The dimension of this problem increases in multicellular organisms, which tend to have large collections of TFs, sometimes with redundant roles, that result of whole-genome duplication events and lineage-specific expansions. In this work we set to study the repertoire of Arabidopsis thaliana TFs from the perspective of their predicted interfaces, to evaluate the degree of DNA-binding redundancy at a genome scale. First, we critically compare the performance of a variety of methods that predict the interface residues of DNA-binding proteins, those responsible for specific recognition, and measure their sensitivity and specificity. Second, we apply the best predictors to the complete A.thaliana repertoire and build clusters of transcription factors with similar interfaces. Finally, we use our in-house footprintDB to benchmark to what extent TFs in the same cluster specifically bind to similar DNA sites. Our results indicate that there is substantial overlap of DNA binding specificities in most TF families. This observation supports the use of interface predictions to construct reduced representation of TF sets with common DNA binding preferences.

13 de septiembre de 2010

Jornadas Bioinformáticas JBI 2010 (X Edición), nuestro laboratorio estará allí...

Las Jornadas Bioinformáticas son la cita anual obligada para los bioinformáticos españoles. Este año se celebrará su décima edición del 27 al 29 de Octubre en Torremolinos (Málaga). La organización de las mismas corre a cargo de la Universidad de Málaga, el Instituto Nacional de Bioinformática y la Red Portuguesa de Bioinformática. Este año el tema central es "La bioinformática aplicada a la medicina personalizada", sobre el cual se discutirá la integración de los campos de la biología, medicina e informática para el desarrollo de terapias más específicas y efectivas. Sin embargo, éste no será el único tema a tratar, también se compartirán resultados y experiencias en otros campos:
- Análisis de datos en técnicas de alto rendimiento como la secuenciación de nueva generación.
- Bioinformática estructural
- Algoritmos de biología computacional y técnicas de computación de alto rendimiento
- Análisis de secuencias, filogenética y evolución
- Bases de datos, herramientas y tecnologías de biología computacional
- Bioinformática en transcriptómica y proteómica
- Biología sintética y de sistemas

IN ENGLISH:

The Xth Spanish Symposium on Bioinformatics (JBI2010) will take place in October 27-29, 2010 in Torremolinos-Málaga, Spain. Co-organised by the National Institute of Bioinformatics-Spain and the Portuguese Bioinformatics Network and hosted by the University of Malaga (Spain).

This year, the reference topic is “Bioinformatics for personalized medicine” for which the conference will provide the opportunity to discuss the state of the art for the integration of the fields of biology, medicine and informatics. We invite you to submit your work and share your experiences in the following topics of interest including, but not limited to:
- Analysis of high throughput data (NGS)
- Structural Bioinformatics
- Algorithms for computational biology and HPC
- Sequence analysis, phylogenetics and evolution
- Databases, Tools and technologies for computational biology
- Bioinformatics in Transcriptomics and Proteomics
- System and Synthetic Biology

Nuestras aportaciones

Nuestro laboratorio va a participar en las Jornadas Bioinformáticas con tres contribuciones que presentaré a continuación:

3D-footprint: a database for the structural analysis of protein–DNA complexes (paper)
The relation between amino-acid substitutions in the interface of transcription factors and their recognized DNA motifs
101DNA: a set of tools for Protein-DNA interface analysis

3D-footprint: a database for the structural analysis of protein–DNA complexes
3D-footprint is a living database, updated and curated on a weekly basis, which provides estimates of binding specificity for all protein–DNA complexes available at the Protein Data Bank. The web interface allows the user to: (i) browse DNA-binding proteins by keyword; (ii) find proteins that recognize a similar DNA motif and (iii) BLAST similar DNA-binding proteins, highlighting interface residues in the resulting alignments. Each complex in the database is dissected to draw interface graphs and footprint logos, and two complementary algorithms are employed to characterize binding specificity. Moreover, oligonucleotide sequences extracted from literature abstracts are reported in order to show the range of variant sites bound by each protein and other related proteins. Benchmark experiments, including comparisons with expert-curated databases RegulonDB and TRANSFAC, support the quality of structure-based estimates of specificity. The relevant content of the database is available for download as flat files and it is also possible to use the 3D-footprint pipeline to analyze protein coordinates input by the user. 3D-footprint is available at http://floresta.eead.csic.es/3dfootprint with demo buttons and a comprehensive tutorial that illustrates the main uses of this resource.

The relation between amino-acid substitutions in the interface of transcription factors and their recognized DNA motifs

Transcription Factors (TFs) play a key role in gene regulation by binding to DNA target sequences. While there is a vast literature describing computational methods to define patterns and match DNA regulatory motifs within genomic sequences, the prediction of DNA binding motifs (DBMs) that might be recognized by a particular TF is a relatively unexplored field. Numerous DNA-binding proteins are annotated as TFs in databases; however, for many of these orphan TFs the corresponding DBMs remain uncharacterized. Standard annotation practice transfer DBMs of well known TFs to those orphan protein sequences which can be confidently aligned to them, usually by means of local alignment tools such as BLAST, but these predictions are known to be error-prone. With the aim of improving these predictions, we test whether the knowledge of protein-DNA interface architectures and existing TF-DNA binding experimental data can be used to generate family-wise interface substitution matrices (ISUMs). An experiment with 85 Drosophila melanogaster homeobox proteins demonstrate that ISUMs: i) capture information about the correlation between the substitution of a TF interface residue and the conservation of the DBM; ii) are valuable to evaluate TFs alignments and iii) are better classifiers than generic amino-acid substitution matrices and that BLAST E-value when deciding whether two aligned homeobox proteins bind to the same DNA motif.

101DNA: a set of tools for Protein-DNA interface analysis

Analysis of protein-DNA interfaces has shown a great structural dependency. Despite the observation that related proteins tend to use the same pattern of amino acid and base contacting positions, no simple recognition code has been found. While protein contacts with the sugar-phosphate backbone of DNA provide stability and yield very little specificity information, contacts between amino acid side-chains and DNA bases (direct readout) apparently define specificity, in addition to some constrains defined by DNA sequence-dependent features, namely indirect readout.
Recent approaches have proposed bipartite graphs as an structural way of analysing interfaces from a protein-DNA-centric viewpoint. With this perspective in mind, we have developed a set of tools for the dissection and comparison of protein-DNA interfaces. Taking a protein-DNA complex file in PDB format as input, the software generates a 2D matrix that represents a bipartite graph of residue contacts obtained after applying a simple distance threshold that captures all non-covalent interactions. The generated 2D matrices allow a fast and simple visual inspection of the interface and have been successfully produced for the current non-redundant set of protein-DNA complexes in the 3D-footprint database.
As a second utility to compare 2 interfaces, the 101DNA software includes an aligment tool where a dynamic programming matrix is created with the Local Affine Gap algorithm and traced back as a finite state automata. The scores between pairs of interface amino acid residues are calculated as a function of the observed contacts with DNA nitrogen bases. This tool produces local interface alignments which are independent of the underlying protein sequence, but that faithfully represent the binding architecture. Preliminary tests show that these local alignments successfully identify binding interfaces that share striking similarity despite belonging to different protein superfamilies, and these observations support this graph-theory approach.