#!/perl/bioinfo: 2022

23 de diciembre de 2022

RSAT::Plants updated (Dec2022)

Hi,

if you use the Plants server of the Regulatory Sequence Analysis Tools (RSAT), you might want to know that it has just been updated. Here's a short summary of the changes:

The updated URL is https://rsat.eead.csic.es/plants
It now supports HTTPS connections powered by certbot
It now uses the source code at https://github.com/rsa-tools/rsat-code (I have updated some documentation along the way)
Nine new species have been imported from Ensembl Plants: Lolium perenne, Brassica juncea, Echinochloa crusgalli, Digitaria exilis, Vigna unguiculata, Brassica rapa ro18, Corylus avellana, Ficus carica, Lactuca sativa
One species renamed: Physcomitrium patens
Three updated with a new assembly: Vitis vinifera, Triticum urartum, sunflower
This leaves the total number of supported assemblies in 100; you can see their stats at https://rsat.eead.csic.es/plants/data/stats
Most species now correspond to release 55 of Ensembl Plants, but note that the sequence data is unchanged in many cases. This means that, for instance, that Hordeum_vulgare.MorexV3_pseudomolecules_assembly.52 becomes Hordeum_vulgare.MorexV3_pseudomolecules_assembly.55, but the sequence is exactly the same.

Have a nice break,

Bruno

21 de diciembre de 2022

Mapeando sobre un pangenoma de arroz con minigraph

Hola,

hace unos meses contruí un pangenoma a partir de 15 genomas de arroz obtenidos de Ensembl Plants. Para ello he probado el software minigraph, descrito en https://doi.org/10.1186/s13059-020-02168-z , que es una de las herramientas disponibles para construir un grafo genómico, en este caso por medio de inserciones y deleciones sobre el genoma de referencia (naranja en la figura).

Figura. Mapeo de lecturas sobre un grafo pangenómico, figura tomada de https://doi.org/10.1186/s13059-020-02168-z

Hoy quería resumir aquí cómo se hace por si le ayuda a alguien.

El primer paso es construir el grafo a partir de varios genomas individuales, de arroz en este caso. Para ello deberás partir de ficheros FASTA donde cada cromosoma tenga un nombre único. Eso se puede lograr por ejemplo agregando al nombre de cromosoma original el identificador o accession de cada genoma:

# 1) prepare genome FASTA files, making sure chr names are unique
mkdir fasta
while read core; do 
	echo $core; 
	perl -lne 'BEGIN{ if($ARGV[0] =~ /sativa_([^_]+)/){ $acc=$1 }} if(/^>(\S+)/){ print ">$1_$acc" } else {print}' ${acc}.fna > ${acc}.uniq.fna 
done < ../liftover/list_cores.txt

# build the graph
bsub -M 40G -n 10 -cwd soft/minigraph/minigraph -xggs -t 10 oryza_sativa_core_48_101_7.fna fasta/*.fna -o oryza_sativa.gfa

Este proceso genera la siguiente salida:

[M::main::0.702*0.84] loaded the graph from "oryza_sativa_core_48_101_7.fna"
[M::mg_index::9.913*1.50] indexed the graph
[M::mg_opt_update::10.576*1.47] occ_weight=20, occ_max1=178; 95 percentile: 2
[M::ggen_map::11.491*1.42] loaded file "fasta/oryza_sativa_Azucena_core_48_101_1.fna"
[M::ggen_map::168.948*6.05] mapped 37 sequence(s) to the graph
[M::mg_ggsimple::170.379*6.01] inserted 15028 events, including 39 inversions
[M::mg_index::180.913*5.75] indexed the graph
...
[M::main] Real time: 13152.427 sec; CPU: 82007.142 sec; Peak RSS: 47.687 GB

Ahora podemos probar a mapear secuencias de cDNA sobre el grafo:

# read
https://twitter.com/zhigui_bao/status/1417028758725222400
https://github.com/lh3/minigraph/issues/37

# Note in rice -N 0 /-N 100 made no difference!
soft/minigraph/minigraph -t 4 -j 0.02 oryza_sativa.gfa -N 100 \
	oryza_nivara.cdna.fna | sort -k1,1 -k10,10nr > Onivara.cdna.graph.sort.gaf
soft/minigraph/minigraph -t 4 -j 0.02 oryza_sativa.gfa -N 100 \
	oryza_sativa.cdna.fna | sort -k1,1 -k10,10nr > Osativa.cdna.graph.sort.gaf
soft/minigraph/minigraph -t 4 -j 0.02 oryza_sativa.gfa -N 100 \
	oryza_indica.cdna.fna | sort -k1,1 -k10,10nr > Oindica.cdna.graph.sort.gaf

Hasta pronto, Bruno

21 de noviembre de 2022

A la memoria de Javier Abadía

Hola,

empezamos la semana tristes porque el viernes nos dejó de repente Javier Abadía, un colega querido de la Estación Experimental de Aula Dei (EEAD-CSIC). Javier fue un estupendo colega, gestor, maestro de una larga lista de investigadores y profesionales en diferentes rincones del mundo, y ejemplo para muchos de los que le conocimos en la EEAD. Podéis ver su trayectoria en Google Scholar por ejemplo.

Con las emociones de estos días me vienen a la memoria muchas situaciones que viví con él, pero me gustaría destacar aquí solamente un par, por las que le estoy más agradecido, por si sirven de inspiración a otros colegas.

Desde mi llegada a la EEAD a finales de 2007, como investigador novato del programa ARAID, tuve la oportunidad de conversar con Javier sobre las múltiples posibilidades que se abren si se combinan las aproximaciones metabolómicas y proteómicas, en las que su grupo es experto, con la genómica y la bioinformática. Estas discusiones informales nos llevaron a que él me invitara a colaborar en varios trabajos que cristalizaron en varios artículos a lo largo de los años. Además del placer de la interacción con su grupo, esos trabajos me permitieron conocer mejor lo que se hacía en otros departamentos y enriquecieron mi CV, que en esta profesión lo es todo. No tengo ninguna duda de que Javier sabía lo que hacía. Es una buena lección para los que nos dedicamos a esto, la de ayudar y dar un empujón a los colegas más noveles al principio de sus carreras.

Cuando ya llevaba más de una década en la EEAD tuve la oportunidad de irme tres años a trabajar al Instituto Europeo de Bioinformática (EMBL-EBI). Ese tipo de movimientos no son tan habituales en la academia española porque son complejos. Javier fue uno de los compañeros que más me apoyó y me aconsejó en cómo dar los pasos para que no me perjudicara de cara a mi posible regreso al CSIC. De hecho, cuando aprobé la oposición y obtuve el permiso para reincorporarme en 2021, el propio Javier me escribió de puño y letra:

Congratulations, ha sido como subir al Everest..

J

Seguro que muchos de los compañeros que se presentan estos días a las oposiciones a científico titular suscriben estas palabras.

Con esta referencia montañera termino, porque Javier fue además un guía del Pirineo para nosotros y nos regalaba fotos como la de abajo en sus felicitaciones de navidad, hasta siempre.

PD: obituario de la EEAD-CSIC

16 de noviembre de 2022

Algoritmos en Bioinformática Estructural v2022

Hola,

tras un parón de casi 4 años acabo de actualizar el curso de Algoritmos en Bioinformática Estructural que llevaba manteniendo desde 2008 para mis antiguos alumnos de la Licenciatura en Ciencias Genómicas de la UNAM en Cuernavaca.

Puedes encontrar la v2022 en:

http://eead-csic-compbio.github.io/bioinformatica_estructural

Figura. Comparación de predicciones de AlphaFold2 y OpenFold para la estructura 7KDX:B. Figura tomada de https://github.com/aqlaboratory/openfold.

Principales novedades:

Código fuente en el repositorio https://github.com/eead-csic-compbio/bioinformatica_estructural; puedes proponer cambios y correciones.
Formateado con el paquete de R Bookdown en Rstudio; ahora es más fácil de leer en cualquier pantalla.
Se retiraron algunas URLs .
Nuevas referencias añadidas con TexMed .
Actualizada la sección "El Protein Data Bank y sus formatos".
Añado Foldseek en seccion "Comparación de estructura terciaria entre proteínas".
Nuevo capítulo "AlphaFold y la revolución del aprendizaje automático" ordenando y completando lo que de este tema hemos ido compartiendo en este blog.

Hasta pronto,

Bruno