2 de octubre de 2017

1-O en Sitges (Plant Genome Evolution 2017)

Hola,
espero que hayáis tenido un mejor domingo que yo.
Llegué ayer a Sitges con la ilusión de visitar de nuevo Catalunya, y un poco de inquietud por lo que pudiera pasar a lo largo del día con motivo del 1-O. Cuando empezó el congreso ya muchos habíamos visto las imágenes de violencia, y según iban pasando las sesiones se me fueron quitando las ganas de ciencia, y eso que la charla de Ed Buckler fue impresionante. Pero es que ayer vimos de frente a dos monstruos que son vecinos nuestros y que no esperan a nadie. De un lado, a los provocadores que se creen dueños de la democracia y no dudan en dividir esta tierra saltándose las reglas que le convienen, y del otro a los que no tienen nada que escuchar, ya se lo saben todo, pero no dudan en sacar las porras. Los que estamos en medio llevamos demasiado tiempo callados, hasta cuándo nos lo podremos permitir? A los que nos gusta este país, con su riqueza de gentes y culturas, no nos representan ni los unos ni los otros, ahora es el momento de hacernos oír.

PD


Ed Buckler repasó la historia de la mejora de plantas hasta el estado actual, que él llama breeding 4.0. Si la versión 1.0 se basaba en la selección fenotípica, la 2.0 en ensayos controlados y la 3.0 en la selección genómica, el paradigma actual es la mejora por diseño de genomas. Defiende el uso de información evolutiva en mejora por aumentar el poder estadístico. En maíz el límite de detección de diferencias es de 5/granos (kernels) por planta, mientras que usando información evolutiva y tamaños efectivos de población grandes es posible llegar a detectar diferencias de 1 grano entre 250 plantas. El resto de la charla podría resumirse en cómo se acumulan o pierden los alelos en las variedades élite respecto a los cultivares antiguos o landraces. Tras analizar maíces de los últimos 10.000 años concluyen que sólo 5% del genoma ha estado bajo selección en ese periodo, y por tanto la mayor parte de la variabilidad genética es neutra. Sin embargo, una parte significativa son mutaciones deletéreas que explican la heterosis del maíz. Éstas se van eliminando a base de recombinación y son menos frecuentes en las variedades élite que en los maíces antiguos. Dado que los alelos deletéreos en regiones centroméricas son eliminadas con muy baja eficiencia, comenta que se están eliminando con la tecnología CRISPR. Para ello deben caracterizarlos desde el punto de vista de su efecto sobre una proteína, con algoritmos como GERP (https://doi.org/10.1038%2fnmeth0410-250) o SIFT (http://sift.jcvi.org), o por su efecto sobre la regulación de un gen vecino. En concreto observan que SNPs en promotores de hasta 5kb que explican % de variación significativos de patrones de expresión, presentes en frecuencias alélicas bajas, que en general tienen un efecto desregulador. Finalmente, menciona un estudio en el contexto del proyecto https://www.panzea.org donde estudian maíces de toda América por asociación genómica tanto con fenotipos observados en campo, en múltiples localizaciones, como con datos biogeográficos (GIS, por ejemplo latitud).

Stefan Rensing, pionero del estudio de Physcomitrella patens, explica como la comparación de segmentos sinténicos entre genomas de plantas terrestres y P. patens ha permitido diseccionar genes de adaptación al medio terrestre. También menciona en su charla como muchos factores de transcripción (TFs) importantes en el desarrollo de las plantas aparecieron muy pronto en las plantas acuáticas, y como su acumulación está estrechamente relacionada con la complejidad. En concreto menciona que el número de TFs en diferentes genomas de plantas terrestres se correlaciona con el número total de tipos celulares (https://www.ncbi.nlm.nih.gov/pubmed/20644220).


James Schnable. El número de genes en el genoma de maíz no para de aumentar a causa de genes accesorios (presencia/ausencia, PAV), lnRNAs y secuencias que se transcriben como helitrones. Podemos permitirnos anotarlos todos? Qué es un gen? Definición pragmática: algo que si lo mutas tiene fenotipo en alguna condición interesante. Dice que estos suelen ser sinténicos al comparar especies (https://genomevolution.org/coge). Cómo se originan los fenotipos? Por cambios en la proteína o en su regulación. Sin embargo, sólo un pequeña parte de los cambios no sinónimos tienen fenotipo. A continuación explica las secuencias no codificantes conservadas entre especies (CNS), que se definen como palabras de al menos 15 bases conservadas, a menudo más que un sitio cis típico. Muestra datos de maíz, sorgo y Setaria italica que sugieren que genes ortólogos sinténicos a menudo no comparten secuencias reguladoras, ni CNS, ni patrones de expresión, al menos en sus experimentos de frío (maíz vs sorgo, posiblemente no la mejor condición experimental para estas especies). Entre los ortólogos que no comparten expresión hay más TFs que los esperados. Su conclusión es que la regulación es un carácter que cambia muy rápido y potencialmente neutral para muchos genes en muchos contextos.

Victor Albert habla sobre plantas carnívoras, que han aparecido varias veces entre las angiospermas. Están ensamblando dos genomas del género Drosera combinando datos Illumina, PacBio y HiC. A pesar de que tienen ensamblajes sin terminar ya han podido comprobar por autoalineamiento que hay varios eventos de duplicación de cromosomas cuando los comparan con otras especies, como Vitis vinifera. Menciona que el hábito carnívoro parece haber evolucionado a partir de una estrategia de defensa frente a insectos herbívoros, y que esto se ve reflejado en un enriquecimiento en genes relacionados y en tándem.

Mike Sanderson habla sobre genómica de cactus columna de Arizona, como los saguaros. Su mensaje es que cuando hacen filogenias génicas encuentran muchos árboles (https://academic.oup.com/sysbio/article/57/3/503/1666092/Hemiplasy-A-New-Term-in-the-Lexicon-of).

28 de septiembre de 2017

contrato FPI: QTL, genes y caracteres para mejora de cebada


Oferta de contrato FPI para trabajar en la Estación Experimental de AulaDei, Zaragoza, Departamento de Genética y Producción vegetal.
Proyecto: Descubrimiento y aplicación de QTL, genes y caracteres para la mejora genética de la cebada. Investigadores responsables: Ernesto Igartua, Ana M. Casas.
El trabajo se centrará en la búsqueda de caracteres fisiológicos de la cebada asociados al rendimiento en condiciones de sequía. La cebada es el principal cultivo español por superficie, y se cultiva especialmente en zonas vulnerables a los estreses abióticos. El trabajo se realizará fundamentalmente sobre poblaciones de cebada bien caracterizada por marcadores moleculares, por lo que se planteará la búsqueda de loci relacionados con los fenotipos. Se emplearán técnicas de análisis de imagen en campo, usando índices espectrales y térmicos relacionados con el comportamiento de la cebada frente a la sequía, en ensayos con y sin riego, y también de fenotipado de raíces, mediante una estancia en un grupo colaborador en Italia. Si se encontrara algún carácter de relevancia especial, se explorarán las posibilidades de continuar la experimentación hacia la identificación de los genes responsables.
La convocatoria está disponible en
Se busca una persona con un buen nivel de inglés y se valorará la experiencia previa (a nivel de máster o de prácticas) en genética, fisiología vegetal o agronomía. Dirección de contacto: mailto:igartua@eead.csic.es

25 de septiembre de 2017

PhD in Brachypodium perennial species

We seek candidates for a PhD FPI contract associated to our project “Evolution of biological traits and speciation processes in the model genus Brachypodium (Poaceae) through comparative and functional genomic” (CGL2016-79790-P). The PhD thesis will investigate the origins and evolutionary changes of perenniality/annuality switches and the pangenomic diversity and phylogeography of model grass species of Brachypodium.

The work (2018-2021) will be carried out at the High Polytechnic School of Huesca (University of Zaragoza, Spain) with research stays at CSIC (with Bruno Contreras-Moreira @ EEAD and Pilar Hernández @ IAS) and international institutes and participation in CSP Joint Genome Institute projects. The PhD thesis will include field and greenhouse work, genomic and transcriptomic data generation and processing, and development of computational pipelines for genomics and phylogenomic analyses of perennial and annual species of Brachypodium.

The research team has a large experience in evolutionary genomics (www.bifi.es/bioflora), computational biology (www.eead.csic.es/compbio) and translational genomics (https://goo.gl/RSnfw3) studies of grasses.

Applicants should comply with the requirements to apply for a Spanish PhD contract (open to European Community and other countries citizens, see information at https://goo.gl/5Bp6YW). Experience in plant evolutionary biology, genomics and bioinformatics will be highly valued.

Interested applicants please contact Prof. Pilar Catalan (pcatalan@unizar.es) and send Curriculum Vitae and a brief motivation letter before October 3 2017.

 

7 de septiembre de 2017

acogemos un estudiante o postdoc del programa EMHE

Hola,
nuestro laboratorio tiene interés en acoger a un estudiante de doctorado o posdoc de Argentina, Costa Rica, Perú y Uruguay del programa EMHE “Enhancing Mobility between Latin-American and Caribean countries and Europe”. Las instrucciones para participar en la convocatoria están en http://www.csic.es/programa-emhe

Nuestra propuesta, que podréis encontrar en en las páginas web de las agencias financiadoras latinoamericanas MINCYT (ar), MICITT (cr), CONCYTEC (pe) y ANII (uy), gira en torno a la idea de que el pangenoma de una especie, la unión de todos los genomas de sus individuos, contiene variabilidad genética (codificante y no codificante) útil para estudiar el fenotipo, tanto en microorganismos como plantas. Sin embargo, construir y manejar pangenomas supone un reto. Este proyecto contribuirá a facilitar este tipo de análisis, en base a nuestra experiencia previa con https://github.com/eead-csic-compbio/get_homologues .

El candidato o candidata deberá tener conocimientos de Biología Molecular, Genómica y Biología Computacional, incluyendo experiencia real en el uso de lenguajes de programación en entornos Linux, como por ejemplo Perl, Python, R, Java o C++. Este blog es una buena muestra del trabajo en el grupo. Por favor contacta con bcontreras@eead.csic.es (https://digital.csic.es/cris/rp/rp02661).

Un saludo,
Bruno

5 de septiembre de 2017

one-liner for insert size histogram from BAM

Hola,
ayer necesitábamos obtener rápidamente un histograma con el tamaño de los insertos de una librería de lecturas/reads paired-end. Lo logramos con este one-liner que requiere haber instalado R:

$ samtools view -q 30 -F 3916 mapped_reads.bam | cut -f 9 | \
   Rscript -e 'data=abs(scan(file="stdin")); pdf("hist.pdf"); hist(data,xlab="insert size (bp)")'

$ evince hist.pdf

Lo explico por pasos:

1) Previamente habíamos alineado/mapeado las lecturas contra una referencia y convertido el alineamiento a formato BAM. Podemos hacernos una idea qué mapeos contiene el fichero mapped_reads.bam con ayuda de samtools:

$ samtools flagstat mapped_reads.bam 

497656 + 0 in total (QC-passed reads + QC-failed reads)
0 + 0 duplicates
497409 + 0 mapped (99.95%:-nan%)
497656 + 0 paired in sequencing
248828 + 0 read1
248828 + 0 read2
492706 + 0 properly paired (99.01%:-nan%)
...

2) con -q 30 le pedimos a samtools que nos devuelve solamente lecturas con calidad de mapeo (MAPQ) >= 30

3) con -F 3916 le pedimos que ignore, según podemos averiguar aquí, los siguientes tipos de lecturas: "read unmapped, mate unmapped, first in pair, not primary alignment, read fails platform/vendor quality checks, read is PCR or optical duplicate, supplementary alignment"

NOTA1: Si el fichero BAM es muy grande se puede hacer lo mismo con una muestra al azar de las lecturas, por ejemplo el 10%, con samtools view -s 0.10.

NOTA2: Si la distribución de mapeos contiene algunos insertos anormalmente grandes el histograma por defecto puede quedar demasiado ancho. En ese caso puede ser buena idea probar algo como:

hist(data[data < quantile(data,0.99)])

Hasta luego,
Bruno