La pasada semana, a mediadios de abril, tuvo lugar en Verona, en el norte de Italia, el
cuarto workshop de
StatSeq. Esta es una Action
COST del campo FA (Food and Agriculture) para la coordinación de esfuerzos enfocados al análisis de datos de secuenciación de plantas.
La sede del
workshop era el auditorio Polo Zanotto, junto a uno de los márgenes del río Adigio, que da forma a Verona.
Tras el percance logístico de Michele Morgante, abrió la sesión Alberto Ferrarini, hablando sobre el
ensamblado de novo de un cultivar de
Vitis vinifera. Para la tarea obtuvieron de la planta un total de 45 muestras, representando 16 tejidos y varios estados de desarrollo. Por lo visto, obtuvieron bastantes intrones cuando mapearon los resultados de la secuenciación de RNA con la referencia existente en esa especie. Entre los posters presentados al evento se encontraban otros trabajos relacionados con el de Ferrarini y el grupo de Delledonne. Andrea Acquaviva presentaba un
framework para caracterización de transcriptomas de cultivares distintos de la referencia genómica. Michele Perazzolli mostró un experimento de expresión para estudio de
ISR (Induced Systemic Resistance) y
Plasmopara viticola en vid.
Otros experimentos de expresión se presentaron entre los posters, como la comparación de expresión en corona y hojas, en
respuesta al frío, en cebada, por Jaroslava Ovesná; y una comparativa de
métodos de normalización, de Elie Maza.
Entre las muy diversas herramientas y paquetes que se presentaron citamos el
workflow engine Conveyor, presentado por Berkhard Linke; MotifLab, para análisis exhaustivo de secuencias reguladoras, con Finn Drablos; NarrowPeaks, un paquete R para análisis de picos de datos de ChIPseq, en póster presentado por Pedro Madrigal; y BioMark, también paquete de R, en éste caso para aplicar métodos que mejoren la selección de variables en problemas p >> n, típico de GWAS (Genome-Wide Assisted Selection), con Ron Wehrens como ponente. Al ser StatSeq una acción enfocada a los métodos estadísticos, el tema de
selección de variables acogió también la excelente charla de Patrick Waldmann, en la que mostraba la capacidad del método
elastic net para tener en cuenta el LD (Linkage Disequilibrium) entre marcadores cuando se trabaja en GWAS. Además, Willem Kruijer asoló al personal con una tira de ecuaciones que no facilitó la comprensión general del uso de algoritmos secuenciales de Monte Carlo para el mismo asunto.
Enlazando esto con otros asuntos bayesianos, Jimmy Vandel presentó el uso de una
red bayesiana para modelizar una red de regulación génica basándose en RILs (Recombinant Inbred Lines) de
Arabidopsis thaliana. También Martin-Magniette expuso su preferencia por métodos probabilísticos en la aplicación de
técnicas de clustering para análisis de perfiles de expresión. Una ventaja que explicó radicaría en la posibilidad de que cada gen reporte una probabilidad de pertenecer a cada
cluster, en lugar de la pertenencia de todo o nada típica de los métodos como
k-means. Además, informó de que obtuvieron mejores resultados con unos algoritmos que otros, a la hora de estimar los parámetros y al determinar el número de clusters, siendo EM > CEM e ICL > BIC, respectivamente. Por otro lado, como método de validación, Micha Bayer, junto a David Marshall, presentaba un póster donde se trataban las
deficiencias del uso de N50 para la calificación de ensamblajes, y proponen el mapeo de flcDNAs a los contigs para comprobar la integración del
gene space, sin duda mucho más relevante biológicamente hablando. Más tímidamente, Julie Aubert presentó una comparativa de métodos de normalización para RNAseq.
Una de las charlas que más pareció gustar fue la de Jonathan Marchini, sobre estimación de
haplotipos mediante SHAPEIT. Quizás lo más llamativo era la heurística del algoritmo y su buena escalabilidad.
También sobre haplotipos trató la charla de Jan de Boer, el sorprendente ponente de Wageningen. Utilizaron
captura de secuencias con sondas de 120 bp con un overlap de 20 bp, para aproximadamente 800 genes de tomate tetraploide. Luego siguen un pipeline de GBS (Genotyping By Sequencing), a partir de reads 2x100 de Illumina. Si en esta ponencia los resultados resultaron nebulosos, más transparente y desafortunado pareció Thomas Odong en su análisis de poblaciones naturales de
Arabis alpina, un potencial modelo para plantas perennes. Interesantes charlas sobre genotipado fueron también las de Jeff Glaubitz y Jaap Buntjer. El último proponía un nuevo método de mejora que hibrida ideas de MAS (Marked-Assisted Selection) y GS (Genomic Selection), denominada Genomic Breeding. Glaubitz, por su parte, presentó el pipeline de
GBS en maíz que utilizan en la Cornell University. Usando captura, esta vez para análisis de
CNV (Copy Number Variation), Guillem Rigaill propuso modelar la cobertura de la muestra como una función lineal de los controles, en lugar de clásico uso de
logratios, que desprecian la cobertura total en un locus, llevando a la pérdida de información.
Exposiciones de proyectos de gran envergadura fueron la de Dan Bolser, sobre
TransPLANT; Mark A. De Pristo,
1000 Genomes; y el poster informando sobre el estado actual de
MELONOMICS, de Walter Sanseverino.
Sin duda, destacados en la conferencia fueron Michele Morgante y Lauren M. McIntyre. Esta contagió su ímpetu y expresividad a la hora de presentar lo que básicamente recoje su artículo "RNAseq: technical variability and sampling" de BMC Genomics. A ver quién se atreve a no utilizar réplicas técnicas y métodos de
agreement delante de la amiga de Florida. En cuanto a Morgante, además del retraso, perfectamente entendible, y de la anécdota que protagonizó cuando tuvieron que ir a buscarle porque el sonido del micrófono era para él ruido de fondo desde hacía rato y no se percataba de la llamada a la mesa redonda; hizo una buena presentación de lo que él llama catálogos verticales, sobre
LSV (Large Structural Variation), y horizontales (en éste caso metabolismo de lignina en chopo). En cuanto a LSV, utilizan el software BreakDancer para análisis de mapeo paired-end, a la búsqueda de PAV (Presence-Abscence Variation), y DOC (Depth Of Coverage) para CNV. En cuanto a los 5 genes de lignina en chopo, parece que el
análisis de las frecuencias alélicas mediante pools de 64 individuos fue suficiente para analizqar 768 árboles con una buena correlación.
Finalmente, quizás la charla más sorpredente fue la de Maria Colomé-Tatché y sus
EpiRILs (Epigenetic RILs). Mediante BSseq (BiSulphite sequencing) y MeDIP-chip (Methylated DNA InmunoPrecipitation chip) de una población obtenida cruzando parentales con DNA casi idéntico, pero perfil de metilación muy distinto, obtienen DMRs (Differentially Methylated Regions) en mapas genómicos. Esperan poder aplicar estos marcadores recombinantes robustos, basados en metilación del DNA, para análisis de QTL.
La reunión más informal tuvo como protagonistas el risotto, la pasta, la carne, los postres y los interesantes vinos de la llanura italiana.