Hola,
recientemente Heng Li publicó un trabajo (
https://doi.org/10.1093/bioinformatics/bty191) describiendo un nuevo alineador genérico de nucleótidos que se llama minimap2, que podéis descargar en
https://github.com/lh3/minimap2.
En el artículo se compara minimap2 en diferentes escenarios contra otros softwares alternativos, incluyendo su antecesor BWA mem y se destaca su velocidad y su versatilidad, ya que es capaz de alinear lecturas cortas, secuencias largas e incluso también puede alinear saltando intrones.
Yo lo que he hecho ha sido una prueba rápida para compararlo con BLASTN en el escenario habitual de
GET_HOMOLOGUES-EST, donde se comparan por ejemplo todos los genes de una planta (
Brachypodium distachyon) contra todos los genes de otra especie cercana (
Oryza sativa). Esto es lo que he hecho:
# how many sequences
$ grep -c "^>" *fna
Bdistachyon.fna:36647
Osativa.fna:42189
# index and BLASTN search
$ ncbi-blast-2.6.0+/bin/makeblastdb -in Osativa.fna -dbtype nucl
$ ncbi-blast-2.6.0+/bin/blastn -query Bdistachyon.fna -db Osativa.fna \
-out Bdistachyon.Osativa.blastn.tsv -dbsize 100000000 -evalue 1e-5 -outfmt 6
real 0m40.937s
user 0m40.280s
sys 0m0.636s
# index [assuming up 80% sequence identity] and minimap2 search
$ minimap2/minimap2 -x asm20 -d Oryza.mmi Osativa.fna
$ time minimap2/minimap2 Oryza.mmi Bdistachyon.fna > Bdistachyon.Osativa.minimap.paf
real 0m2.084s
user 0m3.360s
sys 0m0.300s
Ahora echemos un ojo a los alineamientos resultantes. Selecciono un par de secuencias, primero de BLASTN:
BdiBd21-3.2G0760100.1 LOC_Os01g70090.1 87.839 847 95 5 31 876 37 876 0.0 987
BdiBd21-3.2G0521100.1 LOC_Os01g37510.1 85.652 683 92 3 91 773 103 779 0.0 713
y ahora de minimap2, en formato
PAF:
BdiBd21-3.2G0760100.1 876 155 776 + LOC_Os01g70090.1 876 161 776 181 621 60 tp:A:P cm:i:16 s
1:i:179 s2:i:0 dv:f:0.0980
BdiBd21-3.2G0521100.1 777 110 653 + LOC_Os01g37510.1 783 122 659 87 543 60 tp:A:P cm:i:10 s
1:i:85 s2:i:0 dv:f:0.1196
Al maneo para estos dos ejemplos podemos observar que:
i) el mejor hit de BLASTN y minimap coinciden
ii) los alineamiento de BLASTN son más largos
Hasta pronto, buenas vacaciones,
Bruno