#!/perl/bioinfo

4 de julio de 2012

Matrices de sustitución y alineamiento de secuencias

Llevo unos días redactando un texto académico sobre alineamientos y he decidido publicar la parte de matrices de sustitución PAM y BLOSUM en este blog. Alguna vez hemos hablado sobre el tema sin entrar en profundidad, pero esta vez prometo una revisión más profunda.

La historia de las matrices de sustitución se remonta a los años 70, cuando la investigadora Margaret Oakley Dayhoff se afanaba en recopilar todas las secuencias de proteína existentes en su libro 'Atlas of Protein Sequence and Structure' (Dayhoff and Schwartz 1978). Dayhoff y colaboradores estudiaron el modelo evolutivo de los cambios en los aminoácidos de las proteínas, para ello estudiaron 1572 cambios en 71 grupos de proteínas, dentro de cada grupo las secuencias compartían más del 85% de identidad. De esta forma anotaron el número de cambios para todas las combinaciones posibles de 2 aminoácidos, observando que 35 de las posibles mutaciones nunca ocurrían, estas se correspondían con aminoácidos poco frecuentes. También observaron que las mutaciones más frecuentes se daban entre aminoácidos con similares propiedades físico-químicas, como por ej. Asp y Glu. Muchos de los cambios de aminoácido esperados por modificación de un sólo nucleótido en los codones codificantes no se daban o eran infrecuentes, lo que demostró una mayor presión evolutiva a nivel de secuencia proteica que a nivel de DNA.

El cambio de un aminoácido por otro se denominó 'mutación puntual aceptada' (PAM). Normalizando los datos de las PAMs de acuerdo a la probabilidad de mutación de cada aminoácido en los datos estudiados (mutabilidad) se obtuvo la famosa matriz PAM1 en la que cada elemento de la matriz M{ij} cuantifica la probabilidad de que un aminoácido i sea remplazado por otro aminoácido j en el intervalo evolutivo de 1 PAM. 1 PAM se define como el intervalo evolutivo en que cambia un 1% de los aminoácidos en el alineamiento de 2 secuencias (1 cambio o PAM por cada 100 aminoácidos).

La matriz PAM1 sirve para simular cambios evolutivos en secuencias de proteínas. Para ello basta tomar un número aleatorio (entre 0 y 1) para cada aminoácido de una secuencia dada y asignarle un cambio si la probabilidad es menor que la anotada en la matriz para conservar el aminoácido. El proceso se puede repetir múltiples veces hasta alcanzar la distancia PAM deseada. Las matrices PAM también tienen unas propiedades my interesantes: i) la matriz PAM0 sólo posee unos en la diagonal y el resto son ceros; ii) la matriz se puede multiplicar por sí misma para calcular matrices de N PAMs; iii) si la matriz se multiplica infinitas veces por sí misma obtendremos la frecuencia del aminoácido j para todas las columnas de i.

Los intervalos evolutivos medidos en PAMs los podemos relacionar con porcentajes de residuos conservados idénticos por medio de la fórmula:

Siendo f{i} la frecuencia normalizada de aparición de un aminoácido y M{ii} el valor en la diagonal de la matriz PAM. Algunas equivalencias calculadas entre identidad y PAMs se pueden consultar en la siguiente tabla:

Toda la anterior explicación teórica de las matrices PAM está muy bien, pero volviendo al tema de alinear y comparar secuencias, ¿para qué nos sirven las matrices PAM? Las matrices PAM no nos son útiles directamente, pero sí el odd-ratio (R{ij}) calculado dividiendo un elemento de la matriz M{ij} entre la frecuencia normalizada de j (f{j}):

M{ij} nos da la probabilidad de que un aminoácido i sea sustituido por otro j en una distancia evolutiva definida por la matriz PAM y f{j} es la probabilidad de encontrar el aminoácido j en una posición de la secuencia por casualidad. El odd-ratio R{ij} cuantifica la probabilidad de que una sustitución se de en una posición dada. Un odd-ratio de valor 10 significaría que la sustitución es 10 veces más frecuente que la probabilidad de encontrar alineados ambos aminoácidos. Por el contrario, un odd-ratio de valor 0.5 significaría que la probabilidad de encontrar alineados ambos aminoácidos es el doble de probable que la mutación.

Podríamos puntuar un alineamiento de dos secuencias multiplicando los odd-ratios calculados para cada posición. Sin embargo, en informática las multiplicaciones son costosas y se prefieren las sumas, así que se calcula el log-odd multiplicado por 10 de R{ij}, estos números son más intuitivos y sencillos de sumar y serán la base de las puntuaciones de los alineamientos:

Las matrices de log-odds calculados con la anterior ecuación son las que habitualmente denominamos PAM y usamos para calcular valores de similitud en alineamiento de secuencias (puntuaciones). En la siguiente figura se puede consultar la matriz PAM250, una de las más usadas para puntuar alineamientos:

Si queremos encontrar un significado probabilístico de los valores log-odd de una matriz, bastaría con volver a calcular el odd-ratio (R{ij}):

Otras nuevas versiones de las matrices PAM han sido calculadas con un número mayor de grupos de secuencias homólogas alineadas, sin embargo no han conseguido mejorar sustancialmente las matrices originales de Dayhoff (Gonnet, Cohen et al. 1992; Jones, Taylor et al. 1992).

Otro tipo de matrices de sustitución que sí han conseguido mejorar a las PAM son las matrices BLOSUM (BLOcks of Amino Acid SUbstitution Matrix), creadas por Henikoff (Henikoff and Henikoff 1992). Las matrices BLOSUM fueron creadas a partir de datos de más de 500 grupos de alineamientos de secuencias de proteínas y con el objetivo de mejorar los alineamientos de secuencias divergentes donde las matrices PAM fallaban. Para definir diferentes matrices BLOSUM se marcaron diferentes umbrales de identidad de secuencias, de forma que las secuencias con mayor o igual identidad que el umbral se agruparon para disminuir su contribución en la matriz. Por ejemplo, para calcular la matriz BLOSUM62 se agruparon las proteínas con identidad mayor o igual que 62%. Con los bloques de secuencias alineadas se calcula una tabla de frecuencias de cada pareja de aminoácidos alineados, obteniendo 210 parejas posibles con sus respectivas frecuencias de aparición que permitirán calcular los (R{ij}) entre las frecuencias observadas (q{ij}) y las frecuencias esperadas por casualidad (e{ij}):

Henikoff decidió calcular los log-odds (R{ij}) de una manera ligeramente diferente a Dayhoff, usando logaritmos en base 2:

En la siguietne figura se representa la matriz BLOSUM62, ésta es la matriz preferida para usar por defecto por algoritmos tan famosos como BLASTP.

Las matrices BLOSUM demostraron ser más sensibles a la hora de identificar alineamientos de proteínas homólogas (Henikoff and Henikoff 1992). Las principales diferencias entre ambos tipos de matrices es que las PAM son generadas por extrapolación de datos de alineamientos de secuencias muy conservadas y las BLOSUM, por contra, son derivadas de datos reales de alineamientos de secuencias menos conservadas. A continuación se muestra la equivalencia entre diferentes matrices PAM y BLOSUM, a menor distancia evolutiva PAM, mayor porcentaje de identidad BLOSUM y al contrario:

Equivalencia de matrices PAM y BLOSUM

Como norma general se prefiere el uso de matrices BLOSUM, sin embargo, cuando se realizan comparaciones de secuencias muy conservadas, las matrices PAM pueden conseguir mejores resultados.

Todo lo explicado hasta ahora sobre matrices de sustitución ha sido en el contexto de alineamientos proteicos. ¿Qué sucede en el caso de alineamientos de secuencias de DNA o RNA? Para los nucleótidos también se han calculado matrices PAM de forma similar a la explicada para proteínas (States, Gish et al. 1991), teniendo en cuenta las diferentes probabilidades de mutaciones por transición (A<->G, C<->T/U) o transversión (A/G<->C/T/U). Sin embargo, programas como BLAST emplean por defecto puntuaciones de 1 y -2 para evaluar coincidencia/no coincidencia de nucleótidos respectivamente. Aunque el uso de matrices PAM puede mejorar alineamientos de nucleótidos con identidades <70%, normalmente su mayor sensibilidad no compensa el mayor tiempo necesario para realizar los alineamientos, especialmente cuando estamos trabajando con genomas. Cuando se requiere alinear secuencias de DNA o RNA divergentes se prefiere traducirlas a secuencias proteicas antes de realizar su alineamiento.

13 de junio de 2012

Alineamiento con transformadas de Fourier

En 1992 el grupo de Ilya Vakser publicó en PNAS el método fundamental para poder hacer simulaciones de docking de biomoléculas de manera eficiente, disminuyendo considerablemente el tiempo de cálculo aplicando transformadas rápidas de Fourier. Diez años más tarde se publicó la primera versión del exitoso programa de alineamiento múltiple de secuencias MAFFT, del que ya hemos hablado en otras entradas, que aplica ideas similares para el problema de encajar secuencias similares, como se hace al alinear secuencias.

Figura tomada de http://www.ncbi.nlm.nih.gov/pubmed/12136088. donde se muestran dos picos del análisis de Fourier que se corresponden con dos subalineamientos locales.

En esta entrada mi intención es explicar el fundamento de esta técnica recurriendo al lenguaje Octave, la versión open source de MatLab. El código es el siguiente:

 % alineamiento (sin gaps) de secuencias proteicas usando la FFT  
 % escrito en Octave, que es compatible con Matlab   
 % requiere la libreria 'bioinfo'   
   
 clear all  
   
 %% Conversor binario de secuencias   
 %% Parametros:   
 %% 1) longitud de la secuencia S  
 %% 2) longitud del fragmento F (de S)  
 function [S , F] = aa2bits( sequence , fragment )  
   
 % cada residuo se representa por un numero del 1 al 20  
 % http://www.mathworks.com/help/toolbox/bioinfo/ref/aa2int.html  
 [ seq ]= aa2int( sequence )  
 [ frag ] = aa2int( fragment )   
   
 % codificamos residuos como cadenas binarias de ancho fijo (20 columnas)  
 S=[];  
 for i=1:length(seq)  
   % cada residuo ocp  
   S=[S ones(1,seq(i)) zeros(1,20-seq(i)) ];  
 end  
   
 F=[];  
 for i=1:length(frag)  
   F=[F ones(1,frag(i)) zeros(1,20-frag(i)) ];  
 end  
   
 % completa F hasta igualar la longitud de S  
 F=[F zeros(1,length(S)-length(F))];  
   
 endfunction % no se usa en Matlab  
   
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%  
   
 % define la secuencia S y el fragmento F que queremos alinear  
 sequence = 'SDEVRKNLMDMFRDRQAFSEHTWKMLLSVCRSWAAWCKLNNRKWFPAEPEDVRDYLLY';  
 fragment = 'KMLNSVCRSWWWWC';  
   
 % convertimos ambas secuencias en dos segnales binarias,  
 % de manera que cada residuo se representa por un natural del 1 al 20  
 [S , F] = aa2bits(sequence,fragment);  
   
 % calculamos el alineamiento de F con S optimizando la funcion objetivo Fobj,  
 % que en este ejemplo es simplemente el producto (como un AND binario)  
 % obtenido al desplazar F de izq a der sobre S:   
 % producto(n) = sum { F(i) * S(i-n) }  
 %        i   
 % aprovechamos que Fobj se puede expresar por medio de transformadas  
 % de Fourier para reducir las operaciones necesarias (de N^2 a 4NlogN)  
 % https://sites.google.com/site/cartografiaygeodesia/prac7.pdf  
 % http://www.pnas.org/content/89/6/2195.abstract  
   
 FTsec = fft(S);  
 FTfrag = fft(F);  
   
 FTproducto = conj(FTfrag) .* FTsec; % producto termino a termino  
   
 % Deshacemos transformacion y localizamos valor maximo,   
 % la posicion que optimiza el alineamiento   
 producto = ifft(FTproducto);   
 [valor maxpos] = max(producto);  
   
 % imprime alineamiento sobre secuencicas binarias   
 tit = sprintf("Optimal alignment, optimal position = %d",maxpos);  
 plot(S*0.75)  
 title(tit)  
 xlabel('sequence position')  
 hold on  
 plot([zeros(1,maxpos) F*0.9] , 'r');  
 axis([0 length(S) 0 1]);  
 legend('sequence','fragment');  
 print -dpng figure_align.png;  
   
 % alineamiento sobre secuencias originales, cambiando maxpos de escala  
 align = printf("Alignment:\nS %s\nF %s%s\n",sequence,blanks((maxpos-1)/20),fragment);

Como resultado obtendremos un alineamiento como éste, que :

S SDEVRKNLMDMFRDRQAFSEHTWKMLLSVCRSWAAWCKLNNRKWFPAEPEDVRDYLLY
F                        KMLNSVCRSWWWWC

Que se corresponde con éste producto de Fourier:

En Perl podríamos usar el módulo Math::FFT para este fin, o la GNU Scientific Library que ya revisamos en otra entrada. Un saludo,
Bruno

5 de junio de 2012

WINTER SCHOOL: ALGORITHMS IN STRUCTURAL BIOINFORMATICS

Hola,
ha llegado a mis manos un anuncio de un curso con contenidos muy cercanos a algunas entradas de este blog e incluso a nuestro material de Algoritmos en Bioinformática Estructural. El curso tendrá lugar en Diciembre en la riviera francesa y acogerá a 20 estudiantes. Os pego los detalles en inglés, el enlace al curso es www-sop.inria.fr/manifestations/algoSB :

Dear Colleague,

please find below the announcement for a Winter School on Algorithms
in Structural Bioinformatics: we would appreciate your forwarding it
to PhD students and postdocs who could be interested.

With best regards,
The organizers :
Frédéric Cazals, INRIA Sophia Antipolis - Méditerranée
Juan Cortés, LAAS-CNRS, Toulouse

%%i%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
ALGORITHMS IN STRUCTURAL BIOINFORMATICS : WINTER SCHOOL
2-7 DECEMBER 2012, INRIA SOPHIA ANTIPOLIS, FRANCE
http://www-sop.inria.fr/manifestations/algoSB/
%%i%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

We are pleased to announce a one-week school on Algorithms in
Structural Bioinformatics. The aim is to introduce advanced methods in
this domain, giving special attention to interdisciplinary
approaches. The main focus will be on methodological developments
meant to analyze and predict macromolecular assemblies, as well as on
the corresponding software. The following topics will be taught:

I. Obtaining and organizing structural information for modeling studies (J. Janin, C. Robert)
II. Modeling protein complexes and assemblies with Voronoi diagrams (F. Cazals)
III. Molecules as robots: mining the flexibility of proteins (J. Cortés)
IV. Structural comparisons (R. Andonov, N. Malod-Dognin)
V. Docking algorithms (C. Prévost, M. Zacharias)

The program will span 5.5 days. The first afternoon will consist of a
mini research symposium during which each participant will present
his/her research interests and achievements. Each of the five
subsequent days will consist of a lecture (morning session) and a
hands-on computer lab (afternoon session).

Additional information can be found at
http://www-sop.inria.fr/manifestations/algoSB/

INTENDED AUDIENCE. The school is primarily intended for twenty
European PhD students and postdoctoral researchers, but
applications from other parts of the world will also be
considered if space is available.

DEADLINE FOR APPLICATIONS. A one-page application (pdf format) should
be sent by email to algosb-coordinators@inria.fr with Subject "AlgoSB
application", by September 7th, 2012.

The application should provide a mini-vitae or a pointer to the full
vitae, a brief presentation of the applicant's research interests, and
a few lines commenting on expected synergy between one's research and
the courses that will be taught.

Notification of acceptance will be provided by September 30th. It is
expected that all accepted students will participate in the entire
school period.

VENUE AND PARTICIPATION FEES. The Algorithmics in Structural
Bioinformatics school will take place on the French Riviera, at INRIA
Sophia Antipolis - Méditerranée.

The participation fees will be of 390 euros, which include lunches,
coffee breaks, and social events.

This school is sponsored by INRIA (http://www.inria.fr/), the CNRS/GDR
Bioinformatique Moleculaire (http://www.gdr-bim.u-psud.fr/), and by
SANOFI (http://en.sanofi.com/).

The organizers :
Frédéric Cazals, INRIA Sophia Antipolis - Méditerranée
Juan Cortés, LAAS-CNRS, Toulouse

18 de mayo de 2012

beca FPU en genómica comparada de cereales

El laboratorio de Biología Computacional de la Estación Experimental de Aula Dei/CSIC (en Zaragoza, España) busca un candidato/a para desarrollar un proyecto de investigación sobre genómica comparativa de cereales y la planta modelo Brachypodium distachyon.

El grupo tiene amplia experiencia en diferentes áreas de la Bioinformática y actualmente participa en diversos proyectos de genómica y secuenciación de plantas, incluyendo Arabidopsis thaliana, arroz y cebada, con un interés especial en el estudio funcional y evolutivo de las redes de regulación genética y en el descubrimiento de las raíces genéticas de la biodiversidad vegetal y agrícola en relación con la adaptación al medio ambiente. Para una lista completa de las publicaciones del grupo consultar http://www.eead.csic.es/compbio y http://www.eead.csic.es/index.php?id=99 .

Las personas interesadas deberán cumplir los requisitos para solicitar una beca FPU (2 años beca + 2 años contrato, ver convocatoria en http://tinyurl.com/863o6cr y requisitos en http://tinyurl.com/7klg24g). Se requiere expediente académico superior a 1.6, preferiblemente superior a 2, y se valorará positivamente la experiencia previa en Bioinformática y el haber terminado un Máster oficial. La convocatoria especifica una fecha límite de terminación de los estudios de licenciatura/grado/ingeniería posterior al 1 de enero de 2009.

Interesados contactar con el Dr. Bruno Contreras Moreira (bcontreras@eead.csic.es) o el Dr. Ernesto Igartua (igartua@eead.csic.es) antes del 31 de Mayo de 2012.

25 de abril de 2012

StatSeq WorkShop 4 - Verona

La pasada semana, a mediadios de abril, tuvo lugar en Verona, en el norte de Italia, el cuarto workshop de StatSeq. Esta es una Action COST del campo FA (Food and Agriculture) para la coordinación de esfuerzos enfocados al análisis de datos de secuenciación de plantas. La sede del workshop era el auditorio Polo Zanotto, junto a uno de los márgenes del río Adigio, que da forma a Verona.

Tras el percance logístico de Michele Morgante, abrió la sesión Alberto Ferrarini, hablando sobre el ensamblado de novo de un cultivar de Vitis vinifera. Para la tarea obtuvieron de la planta un total de 45 muestras, representando 16 tejidos y varios estados de desarrollo. Por lo visto, obtuvieron bastantes intrones cuando mapearon los resultados de la secuenciación de RNA con la referencia existente en esa especie. Entre los posters presentados al evento se encontraban otros trabajos relacionados con el de Ferrarini y el grupo de Delledonne. Andrea Acquaviva presentaba un framework para caracterización de transcriptomas de cultivares distintos de la referencia genómica. Michele Perazzolli mostró un experimento de expresión para estudio de ISR (Induced Systemic Resistance) y Plasmopara viticola en vid.

Otros experimentos de expresión se presentaron entre los posters, como la comparación de expresión en corona y hojas, en respuesta al frío, en cebada, por Jaroslava Ovesná; y una comparativa de métodos de normalización, de Elie Maza. Entre las muy diversas herramientas y paquetes que se presentaron citamos el workflow engine Conveyor, presentado por Berkhard Linke; MotifLab, para análisis exhaustivo de secuencias reguladoras, con Finn Drablos; NarrowPeaks, un paquete R para análisis de picos de datos de ChIPseq, en póster presentado por Pedro Madrigal; y BioMark, también paquete de R, en éste caso para aplicar métodos que mejoren la selección de variables en problemas p >> n, típico de GWAS (Genome-Wide Assisted Selection), con Ron Wehrens como ponente. Al ser StatSeq una acción enfocada a los métodos estadísticos, el tema de selección de variables acogió también la excelente charla de Patrick Waldmann, en la que mostraba la capacidad del método elastic net para tener en cuenta el LD (Linkage Disequilibrium) entre marcadores cuando se trabaja en GWAS. Además, Willem Kruijer asoló al personal con una tira de ecuaciones que no facilitó la comprensión general del uso de algoritmos secuenciales de Monte Carlo para el mismo asunto.

Enlazando esto con otros asuntos bayesianos, Jimmy Vandel presentó el uso de una red bayesiana para modelizar una red de regulación génica basándose en RILs (Recombinant Inbred Lines) de Arabidopsis thaliana. También Martin-Magniette expuso su preferencia por métodos probabilísticos en la aplicación de técnicas de clustering para análisis de perfiles de expresión. Una ventaja que explicó radicaría en la posibilidad de que cada gen reporte una probabilidad de pertenecer a cada cluster, en lugar de la pertenencia de todo o nada típica de los métodos como k-means. Además, informó de que obtuvieron mejores resultados con unos algoritmos que otros, a la hora de estimar los parámetros y al determinar el número de clusters, siendo EM > CEM e ICL > BIC, respectivamente. Por otro lado, como método de validación, Micha Bayer, junto a David Marshall, presentaba un póster donde se trataban las deficiencias del uso de N50 para la calificación de ensamblajes, y proponen el mapeo de flcDNAs a los contigs para comprobar la integración del gene space, sin duda mucho más relevante biológicamente hablando. Más tímidamente, Julie Aubert presentó una comparativa de métodos de normalización para RNAseq.

Una de las charlas que más pareció gustar fue la de Jonathan Marchini, sobre estimación de haplotipos mediante SHAPEIT. Quizás lo más llamativo era la heurística del algoritmo y su buena escalabilidad.

También sobre haplotipos trató la charla de Jan de Boer, el sorprendente ponente de Wageningen. Utilizaron captura de secuencias con sondas de 120 bp con un overlap de 20 bp, para aproximadamente 800 genes de tomate tetraploide. Luego siguen un pipeline de GBS (Genotyping By Sequencing), a partir de reads 2x100 de Illumina. Si en esta ponencia los resultados resultaron nebulosos, más transparente y desafortunado pareció Thomas Odong en su análisis de poblaciones naturales de Arabis alpina, un potencial modelo para plantas perennes. Interesantes charlas sobre genotipado fueron también las de Jeff Glaubitz y Jaap Buntjer. El último proponía un nuevo método de mejora que hibrida ideas de MAS (Marked-Assisted Selection) y GS (Genomic Selection), denominada Genomic Breeding. Glaubitz, por su parte, presentó el pipeline de GBS en maíz que utilizan en la Cornell University. Usando captura, esta vez para análisis de CNV (Copy Number Variation), Guillem Rigaill propuso modelar la cobertura de la muestra como una función lineal de los controles, en lugar de clásico uso de logratios, que desprecian la cobertura total en un locus, llevando a la pérdida de información.

Exposiciones de proyectos de gran envergadura fueron la de Dan Bolser, sobre TransPLANT; Mark A. De Pristo, 1000 Genomes; y el poster informando sobre el estado actual de MELONOMICS, de Walter Sanseverino.

Sin duda, destacados en la conferencia fueron Michele Morgante y Lauren M. McIntyre. Esta contagió su ímpetu y expresividad a la hora de presentar lo que básicamente recoje su artículo "RNAseq: technical variability and sampling" de BMC Genomics. A ver quién se atreve a no utilizar réplicas técnicas y métodos de agreement delante de la amiga de Florida. En cuanto a Morgante, además del retraso, perfectamente entendible, y de la anécdota que protagonizó cuando tuvieron que ir a buscarle porque el sonido del micrófono era para él ruido de fondo desde hacía rato y no se percataba de la llamada a la mesa redonda; hizo una buena presentación de lo que él llama catálogos verticales, sobre LSV (Large Structural Variation), y horizontales (en éste caso metabolismo de lignina en chopo). En cuanto a LSV, utilizan el software BreakDancer para análisis de mapeo paired-end, a la búsqueda de PAV (Presence-Abscence Variation), y DOC (Depth Of Coverage) para CNV. En cuanto a los 5 genes de lignina en chopo, parece que el análisis de las frecuencias alélicas mediante pools de 64 individuos fue suficiente para analizqar 768 árboles con una buena correlación.

Finalmente, quizás la charla más sorpredente fue la de Maria Colomé-Tatché y sus EpiRILs (Epigenetic RILs). Mediante BSseq (BiSulphite sequencing) y MeDIP-chip (Methylated DNA InmunoPrecipitation chip) de una población obtenida cruzando parentales con DNA casi idéntico, pero perfil de metilación muy distinto, obtienen DMRs (Differentially Methylated Regions) en mapas genómicos. Esperan poder aplicar estos marcadores recombinantes robustos, basados en metilación del DNA, para análisis de QTL.

La reunión más informal tuvo como protagonistas el risotto, la pasta, la carne, los postres y los interesantes vinos de la llanura italiana.