Mostrando entradas con la etiqueta plantas. Mostrar todas las entradas
Mostrando entradas con la etiqueta plantas. Mostrar todas las entradas

15 de septiembre de 2022

Las plantas, grandes beneficiadas de AlphaFold2

Hola,

hace poco más de un año compartíamos en este blog que las predicciones estructurales de AlphaFold2 estaban ya disponibles para un total de 21 especies en UniProt, incluyendo 4 plantas (Arabidopsis thaliana, soja, arroz y maíz). El artículo donde se describió formalmente es https://doi.org/10.1093/nar/gkab1061

Qué ha pasado en este tiempo? Pues al grupo de Christine Orengo y sus colaboradores les ha dado tiempo a analizar estas 365.184 predicciones en el contexto de su base de datos de plegamientos de proteínas CATH (puedes leer un poco de contexto aquí) y han descubierto varias cosas interesantes:

  • las especies que han ganado más anotaciones estructurales de proteínas en proporción son plantas (soja, arroz y maíz)
     


  • Tras seleccionar los modelos 3D de AlphaFold2 que consideran de buena calidad (tras eliminar los desordenados por ejemplos), el 92% se pueden asignar a superfamilias ya existentes en CATH. Por tanto, hay indicios de que AlphaFold2 podría haber descubierto nuevos plegamientos. Sin embargo, hará falta más trabajo para confirmarlo.
  • Los modelos de AlphaFold2 enriquecen de manera significativa (36%) las conformaciones de las superfamilias de plegamientos conocidas en CATH:

 


 

Puedes leer el artículo completo en https://www.biorxiv.org/content/10.1101/2022.06.02.494367v1 y una digestión alternativa en Twitter: https://twitter.com/ewanbirney/status/1568970047720235010


Cómo acceder a estos modelos 3D? Ahora mismo lo más fácil es UniProt pero se están integrando también en Ensembl Plants (ver ejemplo).

Hasta pronto,

Bruno

3 de octubre de 2017

Plant Genome Evolution 2017 (y III)

Hola,
termino esta serie con las del último día de este congreso. El próximo en dos años.

Edit09102017
Our poster "Pan-genomes: estimating the true genomic diversity of plant species" is available at https://digital.csic.es/handle/10261/156147



Pamela Soltis habla de los genomas de los helechos, que tienen muchos cromosomas y pueden haber sufrido varias rondas de poliploidización y por tanto experimentan silenciamiento genómico a gran escala. Encuentran que los individuos estudiados han perdido al menos un alelo, pero no son pérdidas fijadas en la población. Han estudiado la expresión específica de genes homeólogos en tetraploides y ven que aproximadamente la mitad muestran un sesgo hacia uno de los parentales.  Después habla de la aneuploidía compensada, donde los individuos de una población conservan el número de cromosomas pero no el patrón aditivo de los parentales, con trisomías y monosomías por ejemplo. Luego pasa a hablar de que no siempre coinciden en el tiempo la producción de duplicaciones genómicas (WGD) con la radiación de especies. Mientras las Asteraceas sí coinciden, en muchos otros ejemplos hay un retraso (http://www.sciencedirect.com/science/article/pii/S1369526612000465).

Jeffrey Chen continúa la sesión de poliploides, que normalmente son más grandes y vigorosos y experimentan un efecto de dominancia parental epigenética, que en muchos casos es heredable y reversible. Ellos trabajan con Arabidopsis suecica y hacen híbridos inter-específicos con A. thaliana y A. arenosa para estudiar cómo se modifican los ritmos circadianos y la fotosíntesis. También estudian el algodón tetraploide, porque hasta ahora no tienen el genoma de arenosa y en Gossypium hay más recursos genómicos. En estos materiales están estudiando como los subgenomas A y D tienen diferentes marcas en histonas que explican la dominancia de uno sobre el otro (https://genomebiology.biomedcentral.com/articles/10.1186/s13059-017-1229-8). Entre los genes con silenciamiento específico hay genes de domesticación, floración y dormancia. Termina con un repaso de los efectos de la poliploidización en diferentes espeicies, donde hay cambios genéticos (Brassica), epigenético (A. thaliana, algodón) o ambos (trigo).

Michael Barker habla precisamente de poliploides del género Brassica. Empeiza recordando que un tercio de las plantas son poliploides, y que incluso muchas diploides son derivadas de eventos de poliploidización antiguos. Recuerda también que la poliploidización ha sido en general previa a la domesticación. Su pregunta es si los paleólogos, genes de poliploidizaciones ancestrales, están enriquecidos entre los genes de domesticación y sus datos en Brassica apuntan en esa dirección. En general sus datos indican que la edad del evento de duplicación más reciente de una especie determina su variabilidad genética.

Arp Schnittger explica como la poliploidización inducida con colchicina se usa en mejora y como, en general, para generar gametos aneuploides debe fallar algo en el control del huso en la meiosis (splindle checkpoint).  Encuentran que a diferencia de los animales, la formación del huso en plantas se aborta muchos antes en caso de estrés y eso podría explicar la facilidad de formación de poliploides (https://www.ncbi.nlm.nih.gov/pubmed/27816818).


Toni Gabaldón explica las herramientas desarrolladas en su grupo que en este caso usaron para el estudio filogenómico del olivo (Lamiales). Muestra datos de profundidad de sintenia con respecto al café. Muestra como definen eventos de duplicación sobre árboles de genes con el algoritmo de solapamiento de especies (https://academic.oup.com/bioinformatics/article/27/1/38/201693/Assigning-duplication-events-to-relative-temporal). Explica en detalle como genes de un híbrido aparecerán en un árbol como parálogos, pero se pueden distinguir porque la topología resultante tendrá menos copias ancestrales que las esperadas para una duplicación. Le preguntan si ha cruzado sus datos de árboles génicos con datos de sintenia, y dice que todavía no, porque su ensamblaje y el de las especies vecinas están fragmentados todavía.

Steve Maere también habla de duplicaciones genómicas y de cómo se retienen o pierden genes después. Destaca que los TFs parecen preferir multiplicarse por duplicaciones completas antes que por cambios a menor escala (http://www.pnas.org/content/102/15/5454.full). Relaciona estos patrones con el balance de dosis, que se preserva en el primer caso, pero no en el segundo. Se pregunta si balance de dosis realmente está detrás de estos patrones y quieren responder mirando familias de proteínas en diferentes especies. Encuentran que ninguna familia se retiene por completo, y que hay un rango amplio de pérdida, cuando mapean los genes sobre bloques sinténicos. Las familias más conservadas tienen anotaciones relacionadas con regulación y señalización, y destacan los TFs. Cuando miran a familias de TFs, los WRKY y F-box aparecen mucho más conservados que los MADS-box. Además, las familias más retenidas divergen menos en secuencia. Finalmente muestra que las familias con más retención, candidatas a ser más sensibles al balance de dosis, contienen genes que tienen fenotipos sensibles a dosis.

Pat Edger habla de dominancia en los genomas híbridos y alopoliploides estudiando dos especies parentales del género Mimulus y su híbrido, comparando después la expresión de genes de ambos subgenomas, observando una dominancia clara de M. luteus en la mayor parte de los casos. (http://www.plantcell.org/content/early/2017/08/16/tpc.17.00010). Luego introduce su trabajo sobre Fragaria vesca, todavía sin publicar.

Olivier Panaud empieza hablando sobre la variabilidad de tamaños genómicos de angiospermas, con una distribución con la moda en 600Mb pero llegando a superar los 5Gb (valores C). Sin embargo, los genes ocupan generalmente entre 100 y 200 Mb, lo que muestra que la diferencia es el espacio que ocupan los transposones (TEs). El modelo actual supone que el tamaño aumenta a medida que se acumulan TEs y se reduce por deleción. Por ejemplo, Oryza australiensis es 2x O. sativa a causa solamente de 3 familias de TEs. Han mirado un montón de especies del género con esta perspectiva (por ejemplo; http://www.nature.com/ng/journal/v46/n9/full/ng.3044.html). Han estimado que la vida media de transposones LTR-RT en arroz es mucho más corta que en animales, de aproximadamente 1.7Myr. Actualmente están analizando TEs en 3000 variedades de arroz y para hacerlo rápidamente indexan secuencias de TEs con la transformada BW y mapean los reads de esos genomas. Termina con una diapo donde hacen GWAS con el fenotipo de CNV de familias de TEs y encuentran un pico en el transposón en sí, lo que sugiere que son factores ambientales los que lo hacen saltar. En principio se puede GWAS usando TEs en vez de SNPs con cualquier carácter fenotípico.

Ezrha Mizrachi habla de la regulación de crecimiento secundario en leñosas, sobre todo Eucaliptus. Su trabajo reciente es sobre la identificación de genes y rutas metabólicas implicadas en la producción de xilema, sobre todo en cloroplastos y mitocondrias   (http://www.pnas.org/content/114/5/1195.short). Menciona que encuentran copias casi completas de más de 100 genes cp en el genoma nuclear, pero con sus datos de RNAseq descubren que no se expresan. Tiene un artículo reciente donde ponen a punto métodos de ensamblaje de transcriptomas de novo, pero no lo encuentro todavía, creo que en PLoS ONE. Solo menciona que no le gusta SOPAdenovo.

Jen Wisecaver centra su charla en el estudio de redes de coexpresión en metabolismo secundario, en rutas especializadas, combinando datos de expresión de diferentes condiciones y especies (http://www.plantcell.org/content/early/2017/04/13/tpc.17.00009). Dice que cada genoma tiene decenas de módulos coexpresados de 10 a 40 genes, y que capturan todos los que hay descritos que se agrupen en el mismo cromosoma.

Klass Vandepoele habla de inferencia de redes de TFs en plantas. Usa datos de Y1H,ChIPseq, DNAase-seq, coexpression data (GENIE3), PBMs, phylogenetic –profile sites (http://www.plantphysiol.org/content/early/2016/06/03/pp.16.00821). Los combinan y los comparan con el conjunto de datos de AtRegNet y calculan especificidad y sensibilidad (los mejores son Y1H y ChIPseq). Entonces entrenan un predictor supervisado que es mucho mejor que todos los métodos por separado. Usan enriquecimiento como estadístico. Usando este predictor anotan TFs y sus dianas con gran acierto en A. thaliana (https://www.biorxiv.org/content/early/2017/08/09/173559).
 
O Tzfadia habla de TranSeq, un protocolo barato de secuenciación de extremos 3’ de transcritos, que en sus manos usaron para mejor de manera significativa los modelos de genes en el genoma de referencia de tomate. Además, observan que este tipo de lecturas capturan con precisión los patrones de expresión de genes que obtuvieron por TruSeq. Finalmente cuenta que este tipo de secuencias capturan CNV con gran precisión.