#!/perl/bioinfo: enero 2026

19 de enero de 2026

adiós a Peer Bork

Hola, igual esta semana habéis leído por ahí que nos dejaba Peer Bork, que era actualmente unos de los directores interinos del EMBL. Yo me enteré por una nota de prensa, de la que saqué la foto que pego más abajo. En las redes podéis leer testimonios de sus colegas, como en este hilo. Sí vale la pena recordar que fue uno de los integrantes del famoso grupo de Chris Sander en el EMBL, por el que pasaron muchos pioneros de la biología computacional, como por ejemplo Alfonso Valencia.

Yo no le conocí personalmente, pero le escuché en alguna conferencia y sobre todo me encontré con regularidad con artículos y recursos importantes que producía su grupo y que han sido muy importantes para la comunidad. Enumero aquí algunos de ellos por si no los conocíais, podéis ver la lista completa de publicaciones en scholar:

filogenias en base al contenido de genes, no secuencias [https://doi.org/10.1038/5052, 1999]
STRING, una base de datos de interacciones conocidas y predichas entre proteínas [https://doi.org/10.1093/nar/28.18.3442, 2000]
eggNOG para anotación automatizada de genes ortólogos a medida que se publican nuevos genomas, que desde hace tiempo creo que gestiona Jaime Huerta desde el CBGP (UPM-INIA/CSIC) [https://doi.org/10.1093/nar/gkm796, 2007]
iTOL para construir y visualizar filogenias de todos los seres vivos (Tree of Life) a partir de la comparación de secuencias de genes compartidos [https://doi.org/10.1126/science.1123061, 2007]

https://www.embl.org/news/embl-announcements/in-remembrance-of-peer-bork

Descansa en paz, y un abrazo a los heridas y familias del descarrilamiento 😢

8 de enero de 2026

NCBI Blast 2.17.0+ es más rápido y acepta FASTAs comprimidos

ola de nuevo.

Siguiendo con la serie de entradas sobre BLAST en este blog, hoy os comento que mientras actualizaba el código de https://github.com/eead-csic-compbio/get_homologues he descubierto que había una versión de NCBI Blast, la 2.17.0+, publicada el pasado verano.

Revisando la lista de cambios respecto a la versión anterior me llamaron la atención estos dos:

makeblastdb supports compressed FASTA in gzip, bzip2, and zstd formats
Improved search speed of blastp with -task blastp-fast

La primera resuelve un problema que me ha afectado muchas veces, y evita que tengas que descomprimir un fichero FASTA de gran tamaño antes de indexar un conjunto de secuencias, una operación que a veces tarda mucho tiempo.

La segunda, que en realidad se estrenó en la versión 2.2.30+, permite acelerar las búsquedas con blastp, blastx y tblastn. Según los autores, acelera las búsquedas contra la colección no redundante de proteínas (nr) un 20%, siendo 2-3x más rápido con colecciones más pequeñas como swissprot o pdbaa. Para blastp y blastx se pierde un 3% de sensibilidad.

Hice una prueba rápida en mi máquina:

time ncbi-blast-2.17.0+/bin/blastp -task blastp-fast -query fnr.faa \
	-db sprot.fasta -outfmt 6 > f

real    0m1.113s
user    0m0.713s
sys    0m0.028s

time ncbi-blast-2.17.0+/bin/blastp -task blastp -query fnr.faa \
	-db sprot.fasta -outfmt 6 > s

real    0m3.945s
user    0m2.925s
sys    0m0.040s

wc -l s f
  113 s
   32 f

diff <(head -30 s) <(head -30 f)

Observo que los primeros 30 resultados son idénticos en ambas búsquedas, y que la estrategia -task blastp en este caso es mucho más sensible, produciendo 81 alineamientos más, todos ellos cortos y con identidades bajas. Si no necesitas estos últimos -task blastp-fastp es para ti.

Hasta pronto,

Bruno

7 de enero de 2026

Parecidos ocultos entre proteínas revelados por inmersión

Hola de nuevo, y feliz año. En la primera entrada del año quería compartir una reseña que me he encontrado en https://doi.org/10.1073/pnas.2524802122 y que me ha recordado que en las JBI2025 me perdí la charla de Ana Rojas, donde creo que habló de este tema. Se resume en la siguiente figura:

A three-panel figure shows protein language model embeddings, site-by-site approach, and sequence and embedding space.

Detección de convergencia molecular usando inmersiones de modelos de lenguaje proteico, tomada de https://doi.org/10.1073/pnas.2524802122.

En el diagrama se explica cómo un modelo de lenguaje proteico (PLM), entrenado en grandes conjuntos de secuencias de aminoácidos para predecir letras enmascaradas, permiten calcular inmersiones o embeddings para cada posición de una secuencia. Éstos son vectores multidimensionales que capturan información sobre la evolución de cada posición de la secuencia y que finalmente se pueden usar para calcular distancias o similitudes entre proteínas. Lo interesante es que permiten ir más allá que los métodos convenciones de construcción de perfiles, como PSI-BLAST o HMMER, puesto que pueden encontrar huellas de convergencia indetectables por éstos (homólogos de murciélago y ballena en la figura, hay más ejemplos en artículo completo).

NOTA: sobre la traducción de embedding por parte de un matemático (Carlos Castro): "Es una inmersión. Se usa para representar un conjunto que puede verse como parte de otro. Se dice que hay una inmersión del conjunto pequeño en el grande.".