recientemente Heng Li publicó un trabajo (https://doi.org/10.1093/bioinformatics/bty191) describiendo un nuevo alineador genérico de nucleótidos que se llama minimap2, que podéis descargar en https://github.com/lh3/minimap2.
Figura tomada de https://doi.org/10.1093/bioinformatics/bty191 |
En el artículo se compara minimap2 en diferentes escenarios contra otros softwares alternativos, incluyendo su antecesor BWA mem y se destaca su velocidad y su versatilidad, ya que es capaz de alinear lecturas cortas, secuencias largas e incluso también puede alinear saltando intrones.
Yo lo que he hecho ha sido una prueba rápida para compararlo con BLASTN en el escenario habitual de GET_HOMOLOGUES-EST, donde se comparan por ejemplo todos los genes de una planta (Brachypodium distachyon) contra todos los genes de otra especie cercana (Oryza sativa). Esto es lo que he hecho:
# how many sequences $ grep -c "^>" *fna Bdistachyon.fna:36647 Osativa.fna:42189 # index and BLASTN search $ ncbi-blast-2.6.0+/bin/makeblastdb -in Osativa.fna -dbtype nucl $ ncbi-blast-2.6.0+/bin/blastn -query Bdistachyon.fna -db Osativa.fna \ -out Bdistachyon.Osativa.blastn.tsv -dbsize 100000000 -evalue 1e-5 -outfmt 6 real 0m40.937s user 0m40.280s sys 0m0.636s # index [assuming up 80% sequence identity] and minimap2 search $ minimap2/minimap2 -x asm20 -d Oryza.mmi Osativa.fna $ time minimap2/minimap2 Oryza.mmi Bdistachyon.fna > Bdistachyon.Osativa.minimap.paf real 0m2.084s user 0m3.360s sys 0m0.300s
Ahora echemos un ojo a los alineamientos resultantes. Selecciono un par de secuencias, primero de BLASTN:
BdiBd21-3.2G0760100.1 LOC_Os01g70090.1 87.839 847 95 5 31 876 37 876 0.0 987 BdiBd21-3.2G0521100.1 LOC_Os01g37510.1 85.652 683 92 3 91 773 103 779 0.0 713
y ahora de minimap2, en formato PAF:
BdiBd21-3.2G0760100.1 876 155 776 + LOC_Os01g70090.1 876 161 776 181 621 60 tp:A:P cm:i:16 s 1:i:179 s2:i:0 dv:f:0.0980 BdiBd21-3.2G0521100.1 777 110 653 + LOC_Os01g37510.1 783 122 659 87 543 60 tp:A:P cm:i:10 s 1:i:85 s2:i:0 dv:f:0.1196
Al maneo para estos dos ejemplos podemos observar que:
i) el mejor hit de BLASTN y minimap coinciden
ii) los alineamiento de BLASTN son más largos
Hasta pronto, buenas vacaciones,
Bruno
https://academic.oup.com/bioinformatics/article/38/Supplement_1/i169/6617497
ResponderEliminar