tras el anuncio de hace unas semanas, voy a comentar un poco mis impresiones sobre las XI Jornadas de Bioinformática. Después de la sesión inaugural del lunes, a su vez precedida por el simposio de estudiantes, a las que no pude asistir, el día 24 realmente empezaron mis jornadas. Como valoración general, creo que los asistentes hemos tenido ocasión de aprender y de discutir sobre los problemas del campo, y hemos tenido la oportunidad de escuchar charlas muy buenas. Para los que no pudieron venir, ahí va mi resumen de las charlas a las que asistí y notas sobre algunos pósters.
Modelo 3D de la region cromosómica ENCODE ENm008, que contiene el locus de la α-globina, adaptado de www.ncbi.nlm.nih.gov/pmc/articles/PMC3056208. |
24 de Enero
Hoy hemos podido escuchar un montón de charlas sobre temas variopintos, y me ha llamado la atención la abrumadura presencia de la palabra mágica NGS (Next Generation Sequencing) en muchas de ellas. También en los pósters expuestos ha habido muchos ejemplos de la aplicación de estas herramientas, sobre todo de RNAseq.
De lo que he visto muy poco hoy ha sido de ChIPseq, tan sólo el póster de Ionas Erb con el software Pro-Coffee para alinear secuencias de DNA de promotores, publicado en NAR.
Otro póster que me llamó la atención fue el trabajo de Minoche sobre la evaluación sistemática de los errores típicos de la plataforma de secuenciación Solexa, publicada en Genome Biology.
Sonia Tarazona me explicó su póster sobre RNAseq y me invitó a probar el software Qualimap, que permite evaluar el efecto del coverage sobre la interpretación de las diferencias de expresión medidas en RNAseq.
Leo Mirny nos explicó en detalle la técnica de Hi-C para localizar regiones de cromatina cercanas en el espacio celular y cómo en su grupo han usado este tipo de datos para entender el empaquetamiento del núcleo de levaduras y de Homo sapiens, construyendo una matriz que se parece mucho a un mapa de contactos de proteínas, algo que también por la tarde explicó Davide Bau en su trabajo sobre la transcripción y la estructura de la cromatina en un locus de alfa globina.
Juan Ramón González nos comentó los métodos predominantes actuales para la normalización de conteos de lecturas RNAseq (TMM, EDAseq y CQN) y presentó los problemas que tienen las distribuciones de Poisson (con un parámetro libre) y la binomial negativa (con dos) para modelar algunos datos reales, y mostró ejemplos convincentes del uso de la de Poisson-Tweedie como lo mejor de los dos mundos, con un tercer parámetro para elegir según el caso el mejor modelo estadístico, dada la dispersión de los datos reales de esta teconología. Propone su paquete de Bioconductor/R tweeDEseq como herramienta para esta tarea.
Eva María Novoa nos dió una clase magistral sobre el uso de codones en procariotas y eucariotas, presentando evidencia de la importancia de las enzimas UMS (en proka) y hetADATS (adenosine deaminasas de euka), que modifican terceras bases de los tRNAs, para explicar las diferentes frecuencias de codones en todos los bichos conocidos. Su trabajo se publica en Cell.
Nacho Medina nos deslumbró con la capacidad de su equipo del CIPF para crear una tubería de análisis de datos de NGS que nos permitirá como usuarios hacerlo todo en sus servidores en "tiempos de minutos", aprovechando la optimización que han hecho de los distintos algoritmos y del hardware subyacente, que incluye, si no recuerdo mal, CPUs, GPUs dedicadas y discos de estado sólido. Me llamó mucho la atención su navegador genómico HTML5, que se puede probar en http://genomemaps.org.
Tomas Marques nos volvió a hablar de primates, ya lo había hecho en Málaga en el 2010. Esta vez trató de convencernos de la importancia de mirar con lupa los datos de NGS, en su caso de ensamblaje genómico, de usar el software adecuado para nuestros objetivos, y de hacer el control de calidad en casa, sin delegarlo. Menciona que en su labo usan GATK como software para variant calling tras haberlo comparado con otros.
Tanya Vavouri nos explicó, si lo entendí bien, que los espermatozoides humanos maduros conservan sólo un 4% de los nucleosomas, pero que justo esos pueden ser muy importantes para pasar información epigenéticas al nuevo cigoto, porque se correlacionan con picos de %GC muy cercanos a promotores.
Javier Macia nos mostró ejemplos de cómo modelar circuitos electrónicos a base de puertas lógicas implementadas con células de levadura modificadas.
Ya hacia el final del día Toni Giorgino nos mostró dinámicas moleculares espectaculares de un dominio SH2 y su ligando, y Pablo Minguez publicó un montón de resultados sobre la conservación de sitios en proteínas eucariotas que pueden sufrir modificaciones postraduccionales. Lo siento, a las dos últimas charlas no me pude quedar.
25 de Enero
El tercer y último día del congreso arrancó con una conferencia plenaria de Luis Serrano donde nos resumió los estudios de su grupo sobre Mycoplasma pneumoniae, un parásito bacteriano con genoma extremadamente reducido que se puede cultivar en el laboratorio. Su charla se puede resumir como la aplicación de todas las herramientas bioinformática, genómicas, proteómicas y metabolómicas disponibles para tratar de caracterizar la biología de este bicho, que tiene solamente unos 10 factores de transcripción homólogos de otros conocidos en otras especies. Por destacar algo de una charla muy densa pero amena, Luis habló que encontraban una correlación <0.50 entre los niveles de expresión génica y las cantidades de proteína detectadas por MS en distintas condiciones. Esta observación no es muy novedosa, pero sí la explicación que proponía, basada en la divergencia de las secuencias Shine-Dalgarno en los mensajeros, que motivarían menores afinidades de los ribosomas y por tanto menores tasas de traducción.
Antonio Mérida presentó el software Sma3s para la anotación de genomas, que comparó con otros programas como Blast2GO. Roderic Guigó apuntaba tras la charla que la anotación de un genoma actualmente debe incluir no sólo genes codificantes sino también RNAs reguladores, por ejemplo.
Paolo Ribeca dió la primera charla del día dedicada al tema estrella (NGS). En esta conferencia Paolo repasó los principales problemas del mapeo de lecturas (reads) sobre un genoma de referencia y las limitaciones de los principales programas (Bowtie,BWA,SOAP,MrFAST,MrsFAST) a la hora de hacer búsquedas exhaustivas y flexibles sobre posibles dianas genómicas, algo que su propia plataforma GEM parece haber resuelto y acelerado considerablemente. Su mensaje de precaución es que el usuario de este tipo de software debe conocer con cierta precisión cómo funciona el programa que va a usar y qué limitaciones tiene, en vez de confiar en el programa a ciegas y dejar que tome decisiones, no siempre transparentes, por ti.
Darío Guerrero mostró datos sobre la validación de una tubería de preprocesamiento de lecturas NGS y el ensamblaje de datos de RNAseq, con seqtrimnext y fulllengther, respectivamente. Uno de los programas con los que comparó sus resultados fue Mira.
Beatriz García nos contó el desarrollo de software de aprendizaje automático para la asignación de secuencia de proteínas sin anotar a rutas metabólicas.
Ya en la tarde, Patrick Aloy nos contó un proyecto de su grupo que reconstruye una red de interacciones de proteínas implicadas en la enfermedad de Alzheimer y su uso, junto con una base de datos de fármacos y sus efectos terapéuticos, para predecir el efecto de nuevos compuestos para su tratamiento, así como para replantearse el uso de otros. Parte de este trabajo está publicado aquí.
Ana Rojas nos explicó como su grupo había reconstruido la filogenia de la superfamilia de proteínas RAS, encontrando por el camino los residuos funcionales responsables de las diferencias funcionales de las diferentes familias.
Mar Gonzàlez nos resumió resultados de su reciente artículo sobre la variabilidad del splicing alternativo en poblaciones humanas.
Alberto Pascual García nos mostró cómo, a partir de datos de presencia/ausencia de rRNA en muestras de diferentes ambientes, se puede inferir la composición bacteriana en un ambiente y por medio de una aproximación basada en la arquitectura de las redes resultantes estudiar si los diferentes géneros tienden a agregarse o segregarse.
Hernán Dopazo nos contó resultados de un trabajo suyo que está en revisión donde sostiene que la composición de los genomas, en cuanto a elementos como genes, rRNAs, promotores, elementos repetidos, etc, se distribuye de manera parecida a la distribución de especies que se observa en ecosistemas naturales, en un proceso donde aparentemente la selección tiene poco que decir.
En la última charla que pude escuchar Jaime Huerta nos contó los progresos de su grupo para hacer filogenias anidadas, que se pueden entender como un proceso recursivo donde vamos refinando el árbol inicial recalculando de manera recursiva la topología de las ramas a medida que vamos de la raíz a las hojas, añadiendo nuevos genes ortólogos a medida que avanza el proceso.
Entre los pósters del segundo día tomé nota del servidor iLOOP para la predicción de interacciones proteína-proteína, del software TAPyR para el alineamiento de reads largos como los de 454 y del programa Pyicos para el procesamiento de datos de ChIPseq.
PD Una oferta de trabajo que se publicó en el congreso:
The Evolutionary Genomics Group in the Comparative and Computational Genomics program of the IBE (http://www.ibe.upf-csic.es/) is willing to recruit a PhD student. More information is available in the attached document. For queries, please contact Tomás Marquès-Bonet (tomas.marques@upf.edu)