Hola, en una entrada anterior comentaba cómo aprendimos a descargar datos del NCBI desde el terminal, usando el binario datasets, en mi caso para Linux.
Hoy os cuento cómo se puede utilizar para obtener de manera sencilla la taxonomía completa correspondiente a un taxonID, como los que utiliza la base de datos https://www.ncbi.nlm.nih.gov/taxonomy . Lo explico con un ejemplo, buscando en dicho portal la primera especie que se me ocurre:
- En la página de resultados (ver imágen) paso el ratón sobre el nombre de la especie y me fijo en el navegador a qué URL me lleva, en este caso https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=56046
- Deduzco que el taxonID de esta especie es el 56046
- Invoco el binario datasets con este identificador, obteniendo resultados en formato JSON:
Cuando nos interesa solamente un taxonID es realmente más cómodo hacerlo en la Web, como se ha explicado. Esta operación tiene más sentido en el terminal cuando queremos hacerlo para toda una lista. Por ejemplo, podemos hacer una búsqueda con BLASTN contra la colección core_nt, obteniendo el taxonID de cada resultado en la columna 13:
$ blastn -query test.fna -db core_nt -outfmt "6 std staxids" -out results.tsv
Con un comando como el siguiente podemos repetir la llamada a datasets para ese fichero:
$ perl -lane 'foreach $i (split(";",$F[12])){ $t=$see{$i}||`datasets summary taxonomy taxon $i`; printf("%s\t%s\t\%s",$F[0],$i,$t); $see{$i}=$t }' results.tsv
Hasta pronto, Bruno

