Hasta pronto, Bruno
#!/perl/bioinfo
Ideas y código para problemas de genómica de plantas, biología computacional y estructural
27 de abril de 2026
Notas de la 3ª asamblea general de la conexiónBCB del CSIC
17 de abril de 2026
Lecturas con SEQ y QUAL de diferente longitud en FASTQ
Hola, si alguna vez te encuentras un mensaje como éste:
[E::sam_parse1] SEQ and QUAL are of different length
Se debe a que el fichero FASTQ en cuestión contiene líneas de secuencia (SEQ) y calidad (QUAL) de diferente longitud, lo cual viola el formato y es posiblemente un error. El siguiente oneliner te sirve para encontrar las secuencias problemáticas:
$ zcat file.fastq.gz | perl -lne 'if($.%4==1){$n=$_}elsif($.%4==2){$l=length($_)}elsif($.%4==0){print $n if(length($_) != $l)}' > lista.errores.txt
Luego puedes eliminar las secuencias del fichero FASTQ como se explica por ejemplo aquí con seqtk, hasta luego,
Bruno
31 de marzo de 2026
Obtén taxonomías del NCBI desde el terminal
Hola, en una entrada anterior comentaba cómo aprendimos a descargar datos del NCBI desde el terminal, usando el binario datasets, en mi caso para Linux.
Hoy os cuento cómo se puede utilizar para obtener de manera sencilla la taxonomía completa correspondiente a un taxonID, como los que utiliza la base de datos https://www.ncbi.nlm.nih.gov/taxonomy . Lo explico con un ejemplo, buscando en dicho portal la primera especie que se me ocurre:
- En la página de resultados (ver imágen) paso el ratón sobre el nombre de la especie y me fijo en el navegador a qué URL me lleva, en este caso https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=56046
- Deduzco que el taxonID de esta especie es el 56046
- Invoco el binario datasets con este identificador, obteniendo resultados en formato JSON:
Cuando nos interesa solamente un taxonID es realmente más cómodo hacerlo en la Web, como se ha explicado. Esta operación tiene más sentido en el terminal cuando queremos hacerlo para toda una lista. Por ejemplo, podemos hacer una búsqueda con BLASTN contra la colección core_nt, obteniendo el taxonID de cada resultado en la columna 13:
$ blastn -query test.fna -db core_nt -outfmt "6 std staxids" -out results.tsv
Con un comando como el siguiente podemos repetir la llamada a datasets para ese fichero:
$ perl -lane 'foreach $i (split(";",$F[12])){ $t=$see{$i}||`datasets summary taxonomy taxon $i`; printf("%s\t%s\t\%s",$F[0],$i,$t); $see{$i}=$t }' results.tsv
Hasta pronto, Bruno
4 de marzo de 2026
footprintDB March 2026 version
18 de febrero de 2026
IV Jornada de Bioinformática en Aragón
Hola, el 13 de febrero la USJ organizó otro año más la Jornada de Bioinformática en Aragón, esta vez al mando de Paula Esquivias. Esta vez fuimos varias personas del grupo, entre ellos Rubén Sancho, que dió la charla plenaria con la que cerró el evento. Aquí van mis notas.
En sus estudios de múltiples taxones de plantas, el grupo de Aureliano Bombarely ha encontrado que https://github.com/xjtu-omics/ANNEVO es un anotador genómico de novo, de esos que mapea secuencias de proteína conocidas sobre genomas sin anotar, que generaliza bien con proteínas de hasta 80M años de distancia dentro de Brassicáceas, pero en cambio falla en helechos. Un anotador basado en evidencias como BRAKER3 va mejor en este caso.
Continuando trabajos como https://doi.org/10.1093/molbev/msaf148, están usando FANTASIA en plantas, subiendo el % de proteínas con algún término GO asignado del 80% al 99% en Arabidopsis thaliana. Explica ejemplos de alucinación porque la versión actual de FANTASIA siempre te asigna algún GO.
Menciona al final un estudio del efecto de los transposones en la domesticación del arroz (https://doi.org/10.1016/j.xplc.2021.100270) que usa https://github.com/yanhaidong1/TEmarker.
En la mesa redonda de mujeres en bioinformática, Fátima Al-Shahrour, Rebeca Sanz-Pamplona, mi compañera Inmaculada Yruela y Ana Conesa nos entretuvieron contando detalles de sus trayectorias personales en la ciencia y lo que habían disfrutado haciendo formación y divulgación de sus trabajos por todos los rincones del mundo. Terminaron recordando a los más jóvenes la necesidad de poner la pregunta científica antes que los métodos.
Antes del café conocimos algunas empresas e instituciones locales como biamics.es (sede en Zaragoza), ita.es (da soporte a empresas, 4 ramas, la más cercana es tech digital con 80 personas) u origen.bio/origen-genetics (genomas personales para personalizar salud y nutrición).
En la mesa one health, Luis Mata, Enrique Navarro, Sarah Delacour y Laura Espina hablaron de los problemas a los que se enfrentan empresas y administraciones a la hora de compartir y gestionar datos de investigación en un marco de confianza. Las empresas tienen derecho a los datos públicos, pero son reacias a hacer públicos según qué datos porque les pueden causar daños de imagen pública, deben anoninimizarse.
La jornada terminó con la charla magistral de Rubén Sancho, actualmente postdoc en nuestro departamento, titulada "Herramientas bioinformáticas aplicadas a estudios evolutivos y mejora genética en plantas", donde resumió más de 10 años de trabajo descifrando las relaciones evolutivas entre especies del genéro Brachypodium (modelo para cereales) y sus firmas transcripcionales en estrés hídrico, mostrando al final trabajos más recientes en cebada. Entre las herramientas que desarrolló explicó con cierto detalle chloroplast_assembly_protocol (ya superado por otras herramientas), phyloSD y AlloSHP. La siguiente figura, tomada de la charla de Rubén, muestra las tripas de AlloSHP (10.1186/s13007-025-01458-6) y cómo partiendo de mapeos de lecturas en genomas de diploides podemos llegar a SHPs, Single Homeologous Polymorphisms, que permiten estudiar la evolución de subgenomas en especies poliploides:
Los artículos los podéis encontrar en scholar.