26 de septiembre de 2022

Probamos miniprot para mapear proteínas sobre genomas

Hola, 

hoy escribo a mi regreso del X Congreso Nacional de Mejora Genética de Plantas, donde se habló y mucho de herramientas de genómica computacional.

Justo esos días me enteré de la liberación de las primeras versiones de miniprot, un programa de Heng Li, el creador de minimap, del que ya hablamos aquí comparándolo con BLASTN

Esto me recordó que hace unos años, mientras Carlos Cantalapiedra empezaba a desarrollar BARLEYMAP, nos preguntamos qué programas había disponibles para mapear secuencias de genes, tránscritos y proteínas sobre genomas. Para los dos primeros tipos de secuencias encontramos GMAP, que adoptamos para nuestro nuevo software, pero para el tercero no encontramos ninguno que nos gustara del todo más allá de BLASTX y spaln. Justo para eso es miniprot. Lo he probado con una proteína de cebada:

#installation
git clone https://github.com/lh3/miniprot.git
cd miniprot/
make

# index barley genome
./miniprot -t 8 -d GCA_904849725.1_MorexV3.mpi GCA_904849725.1_MorexV3.fna

# example: map protein HORVU3Hr1G095240
./miniprot --gff GCA_904849725.1_MorexV3.fna HvOs2/HORVU3Hr1G095240.pep.fa


Cómo veis pedí la salida en formato GFF y me la ha devuelto precedida del mismo resultado en formato PAF, que incluye CIGARs y en la columna 10 el número nucleótidos alineados (477 en el ejemplo) y :

##gff-version 3
##PAF	transcript:HORVU3Hr1G095240.2	159	0	159	...
chr3H_LR890098.1	miniprot	mRNA	577160564	577200549	...
chr3H_LR890098.1	miniprot	CDS	577200365	577200549	...
chr3H_LR890098.1	miniprot	CDS	577162212	577162293	...
chr3H_LR890098.1	miniprot	CDS	577161755	577161804	...
chr3H_LR890098.1	miniprot	CDS	577161575	577161671	...
chr3H_LR890098.1	miniprot	CDS	577160567	577160629	...
chr3H_LR890098.1	miniprot	stop_codon	577160564	577160566	...

Lo que coincide con los resultados de BARLEYMAP cuando busco la secuencia de nucleótidos (CDS) correspondiente:

HORVU3Hr1G095240.2	chr3H_LR890098.1 577160564 577200549

 

El manual está en https://lh3.github.io/miniprot/miniprot.html , si encontráis errores podéis comunicarlos en https://github.com/lh3/miniprot/issues

 

Hasta pronto,

Bruno

15 de septiembre de 2022

Las plantas, grandes beneficiadas de AlphaFold2

Hola,

hace poco más de un año compartíamos en este blog que las predicciones estructurales de AlphaFold2 estaban ya disponibles para un total de 21 especies en UniProt, incluyendo 4 plantas (Arabidopsis thaliana, soja, arroz y maíz). El artículo donde se describió formalmente es https://doi.org/10.1093/nar/gkab1061

Qué ha pasado en este tiempo? Pues al grupo de Christine Orengo y sus colaboradores les ha dado tiempo a analizar estas 365.184 predicciones en el contexto de su base de datos de plegamientos de proteínas CATH (puedes leer un poco de contexto aquí) y han descubierto varias cosas interesantes:

  • las especies que han ganado más anotaciones estructurales de proteínas en proporción son plantas (soja, arroz y maíz)
     


  • Tras seleccionar los modelos 3D de AlphaFold2 que consideran de buena calidad (tras eliminar los desordenados por ejemplos), el 92% se pueden asignar a superfamilias ya existentes en CATH. Por tanto, hay indicios de que AlphaFold2 podría haber descubierto nuevos plegamientos. Sin embargo, hará falta más trabajo para confirmarlo.
  • Los modelos de AlphaFold2 enriquecen de manera significativa (36%) las conformaciones de las superfamilias de plegamientos conocidas en CATH:

 


 

Puedes leer el artículo completo en https://www.biorxiv.org/content/10.1101/2022.06.02.494367v1 y una digestión alternativa en Twitter: https://twitter.com/ewanbirney/status/1568970047720235010


Cómo acceder a estos modelos 3D? Ahora mismo lo más fácil es UniProt pero se están integrando también en Ensembl Plants (ver ejemplo).

Hasta pronto,

Bruno

6 de septiembre de 2022

Hacia un nuevo modelo de CV científico

Hola,

hace unos días me enteré en Twitter de que la Fundación Alemana de Investigación (DFG) ha actualizado su modelo de CV para personas que solicitan financiación. La principal motivación es "propiciar un cambio cultural en la evaluación científica". 

Para mi las principales novedades aquí son las dos siguientes frases:

1. "In addition to a maximum of ten publications in the more common publication formats, the CV can therefore now list up to ten further sets of research outcomes and findings that have been publicised in a variety of other ways, including articles on preprint servers, data sets or software packages, for example"

Traducción para bioinformáticos: además de 10 artículos, ahora investigadores e investigadoras pueden enumerar manuscritos en https://www.biorxiv.org o proyectos de software en plataformas como GitHub. En 2022 este tipo de aportaciones no contaban por ejemplo en nuestro programa de doctorado de la Universidad de Zaragoza, cuando son muy importantes en nuestro campo y pueden tener más impacto en la comunidad que un artículo convencional.

2. "No information on quantitative metrics such as impact factors and h-indices is required in the CV or the proposal, and such information is not to be considered in the review"

Traducción para bioinformáticos: se acabó la tortura de ponerte a buscar IFs  y cuartiles en JCR. En 2022 este tipo de indicadores se han usado por ejemplo en el CSIC para evaluar candidatos, aunque tengo entendido que ya no se usan en el Plan Nacional.

Puedes leer todos los detalles aquí.

Hasta luego,

Bruno