9 de enero de 2025

Proteínas y dominios en la inmunidad de las plantas

Un tema recurrente en la literatura genómica de plantas son los genes de resistencia a enfermedades, que tienen valor agronómico y son sospechosos habituales en los estudios a escala pangenómica. Hemos hablado de ellos en este blog, por ejemplo aquí

Trabajos recientes, resumidos por JL Dangl y JDG Jones, sugieren que hay mecanismos de defensa mediados por derivados de nucleótidos (pRib-AMP y pRib-ADP) que convergen a una ruta común en especies mono y dicotiledóneas.

Fuente: https://doi.org/10.1126/science.adu4930

Estas son las proteínas y dominios que debes aprender a reconocer para entender estos mecanismos:

  • Nucleotide-binding leucine-rich repeat (NLR o NB-LRR). Cuando contienen dominios N-terminales Toll/interleukin-1 receptor (TIR) forman parte de la clase de receptores de inmunidad innata de las dicotiledóneas (TNLs).
  • Las monocotiledóneas no tienen TNLs. En cambio, tienen proteínas “TIR-only” proteins, ROD1 (Ca2+-binding C2 class) y EDS1, PAD4, y ADR1 (que perciben las moléculas señal). Tras la infección ROD1 es degradada por ubiquitina ligasas E1 (RIP1, APIP6).
  • Nicotinamide adenine dinucleotide glycohydrolases (NADasas) con dominios TIR oligomerizan con TNLs y efectores de virulencia para producir moléculas señal basadas en nucleótidos.
  • Lipase-like EDS1 (enhanced disease susceptibility 1). Forma heterodímeros con SAG101 (senescence-associated gene 101) or PAD4 (phytoalexin-deficient 4).
  • NLR ayudantes ADR1 (activated disease resistance 1) o NRG1 (N required gene 1), reclutados por EDS1 para formar canales de calcio membranales que desencadenan muerte celular.

7 de enero de 2025

footprintDB January 2025 version

Hi, we just updated the motifs, transcription factors and sites in the database footprintDB

The January 2025 version adds:

1)  Motifs inferred from  protein-DNA complexes at the Protein Data Bank, added to 3d-footprint by  19/12/2024; note the complexes are also used to annotate interface residues  of all transcription factors (TFs).

2) New plant data at EEADannot, with TFs assigned to Plant-TFClass families (see repo).

The current contents include:


totaluniquemetazoaplants
Transcription Factors9976732248391256
DNA motifs (PSSM)171171482888932962
DNA Binding Sites/Sequences68358




The footprintDB motifs have also been synced with RSAT (see repo), see you soon,
Bruno

Nuevos logos de Perl

Hola, por si los encontráis por ahí, estos son los logos actualizados de Perl (la historia completa la cuentan aquí):

Perl new logo - camels

29 de diciembre de 2024

Redes de la bioinformática en España, versión 2024

Hola, antes de que termine 2024 quería recordar las redes que tenemos en España para comunicarnos y colaborar con colegas de profesión y jóvenes investigadores en diferentes momentos de su carrera. Espero esta información sea útil, feliz año!

  • El Instituto Nacional de Bioinformática (INB), que ha organizado desde el principio las Jornadas de Bioinformática que han ido pasando por varios puntos de la geografía. Las de 2025 serán en octubre en Madrid y será ibérica, organizada con colegas de Portugal. Actualmente agrupa a diferentes grupos de investigación que producen software que forma parte del catálogo que ofrece el nodo ES de ELIXIR y su sede está en el Centro Nacional de Supercomputación (BCS). Escribí sobre el evento All Hands de ELIXIR aquí.
  • La Sociedad Española de Bioinformática y Biología Computacional (SEBiBC), constituida en 2020 con la misión de integrar profesionales, sociedades y asociaciones científicas relacionadas con la Bioinformática y la Biología Computacional, con el objeto de representar a este colectivo, promover sus logros y determinar y defender sus intereses. Organizó su primer congreso nacional en octubre de 2024 en Valencia, como contamos aquí, y alternará cada dos años con el INB.
  • La conexión BCB del CSIC, una red "para el establecimiento de conexiones estables entre investigadores de distintas disciplinas en torno a temáticas de frontera", en este caso la bioinformática. Agrupa a numerosos grupos del CSIC, organiza actividades de formación y tiene convocatorias para financiar estancias de jóvenes investigadores en centros distintos al suyo y para que se inicien en esta disciplina. Organiza un congreso de 3 días en marzo de 2025 en Madrid.
  • El Regional Student Group en España del International Society of Computational Biology Student Council, que publica con regularidad en https://x.com/RSGSpain y en otras redes sociales (ver aquí).
  • Es posible que en tu comunidad autónoma haya alguna sociedad de bioinformática que organice eventos. Por ejemplo, en Andalucía llevan unos cuantos años organizando las Jornadas Andaluzas de Bioinformática (JABI), de las que he hablado aquí.

Fuente: https://elixir-europe.org/communities

25 de noviembre de 2024

proyección de variantes genómicas entre genomas

Cuando se acumulan diferentes versiones del mismo genoma, como pasa con la cebada, a menudo necesitaremos proyectar anotaciones de una versión a otra. Esta operación se llama lift-over en la literatura en inglés y tiene sus complicaciones, como se ven en la figura:

Click to expand
fuente: https://doi.org/10.12688/f1000research.14148.2

En una entrada anterior explicaba cómo hacerlo para genes, por ejemplo con el software LiftOff. Sin embargo, a veces lo que queremos mapear son SNPs, que se habían definido sobre una versión del genoma, sobre la siguiente. 

Una manera, para genomas que tengan precalculados alineamientos en UCSC o Ensembl (chain files), es usar el software BCFtools/liftover, que se puede descargar como binario o compilar, y requiere bcftools 1.20 o superior. Puedes leer más sobre esta opción en https://doi.org/10.1093/bioinformatics/btae038 y https://github.com/freeseek/score. Una importante limitación es que solamente hay chain files pare ciertas especies. Por ejemplo, para plantas puedes consultar https://ftp.ebi.ac.uk/ensemblgenomes/pub/plants/current/assembly_chain

Para cualquier pareja de genomas podemos usar una estrategia que usábamos en Ensembl Plants, consiste en cortar la secuencia flanqueante de cada SNP en el genoma1 y mapearla sobre el genoma2 con BWA mem. Esta estrategia tiene como limitación que se pierde una fracción de las variantes originales, aquellas cuyas secuencias no mapeen bien en genoma2, o que estén en regiones repetidas, pero eso no es necesariamente malo. La ventaja que tiene es que no necesitas calcular alineamientos de dos genomas completos, lo cual es complejo y puede requerir grandes cantidades de RAM. Además en todo momento controlas lo que estás haciendo y si algo sale mal lo puedes ver y tratar de corregir. Esta estrategia se describe paso a paso en: https://github.com/eead-csic-compbio/eead-csic-compbio.github.io 

Como resultado produce texto separado por tabuladores (TSV) cómo este (ver fichero completo):

1	51976	-	LR890096.1	77101	C	G
1	51988	-	LR890096.1	77089	C	G
1	51995	-	LR890096.1	77082	G	C
1	52015	-	LR890096.1	77062	C	G
1	263632	+	LR890096.1	148230	G	G
1	263634	+	LR890096.1	148232	A	A
1	263635	+	LR890096.1	148233	A	A
1	263637	+	LR890096.1	148235	T	T
1	263638	+	LR890096.1	148236	G	G
1	263646	+	LR890096.1	148244	C	C
1	263654	+	LR890096.1	148252	C	C
1	263699	+	LR890096.1	148297	C	C
1	263706	+	LR890096.1	148304	A	A
1	270084	+	LR890096.1	154681	C	C
1	270087	+	LR890096.1	154684	G	G

Un control de calidad posible es comprobar que la base de ambos genomas es la misma, aunque a veces estará un el reverso complementario, como se ve en el ejemplo para dos regiones de los cromomas 1 (genoma1) y LR890096.1 (genoma2).

Hasta pronto,

Bruno