23 de octubre de 2017

BLASTP: diferentes versiones dan diferentes alineamientos de secuencias de baja complejidad



El alineamiento de secuencias repetitivas o regiones de baja complejidad en la version ncbi-blast-2.2.27+ muestra diferentes "Best hits" en los alineamientos comparado con las versiones más recientes de blast como la version ncbi-blast-2.2.30+ y la versión ncbi-blast-2.6.0+ a pesar de mantener los mismos parámetros en ambos casos y la misma base de datos.

Ejemplo de query: proteína de la familia PE de Mycobacterium tuberculosis asociada con virulencia y caracterizada por presentar regiones de baja complejidad.

>UT08
MSLVIATPQLLATAALDLASIGSQVSAANAAAAMPTTEVVAAAADEVSAAIAGLFGAHARQYQALSVQVAAFHEQFVQALTAAAGRYASTEAA

VERSLLGAVNAPTEALLGRPLIGNGADGTAPGQPGAAGGLLFGNGGNGAAGGFGQTGGSGGAAGLIGNGGNGGAGGTGAAGGAGGNG
GWLWGNGGNGGVGGTSVAAGIGGAGGNGGNAGLFGHGGAGGTGGAGLAGANGVNPTPGPAASTGDSPADVSGIGDQTGGDGGTGGH
GTAGTPTGGTGGDGATATAGSGKATGGAGGDGGTAAAGGGGGNGGDGGVAQGDIASAFGGDGGNGSDGVAAGSGGGSGGAGGGAFVHI
ATATSTGGSGGFGGNGAASAASGADGGAGGAGGNGGAGGLLFGDGGNGGAGGAGGIGGDGATGGPGGSGGNAGIARFDSPDPEAEPDV
VGGKGGDGGKGGSGLGVGGAGGLLFGNGGNGGNAGAGGDGGAGVAGGVGGNGGGGGTATFHEDPVAGVWAVGGVGGDGGSGGSSLG
VGGVGGAGGVGGKGGASGMLIGNGGNGGSGGVGGAGGVGGAGGDGGNGGSGGNASTFGDENSIGGAGGTGGNGGNGANGGNGGAG
GIAGGAGGSGGFLSGAAGVSGADGIGGAGGAGGAGGAGGSGGEAGAGGLTNGPGSPGVSGTEGMAGAPG


Versión ncbi-blast-2.2.27+:
Empleando los parametros por defecto para enmascarar las secuencias de baja complejidad:

Linea de ejecución:

~ncbi-blast-2.2.27+/bin/blastp -query UT08.fasta -db UT105.fa -outfmt 7 -max_target_seqs 5 -seg yes -soft_masking true

Alineamiento:

Fields: query id, subject id, % identity, alignment length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score
# 5 hits found

UT08    BNAKEEDD_03025    65.12    129    42    1    1    126    1    129    4e-45     167
UT08    BNAKEEDD_02663    72.80    125    31    1    1    122    1    125    2e-43     166
UT08    BNAKEEDD_01601    61.48    122    40    1    1    115    1    122    8e-36     141
UT08    BNAKEEDD_02274    63.89    144    49    3    1    141    1    144    5e-34     130
UT08    BNAKEEDD_00693    64.75    122    41    2    1    121    1    121    4e-33     134


Versión ncbi-blast-2.2.30+

 Linea de ejecución:

~ncbi-blast-2.2.30+/bin/blastp -query UT08.fasta -db UT105.fa -outfmt 7 -max_target_seqs 5 -seg yes -soft_masking true


Alineamiento:
Fields: query id, subject id, % identity, alignment length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score
# 5 hits found
UT08    BNAKEEDD_02661    98.27    694    0    1    1    682    1    694    0.0     1116

UT08    BNAKEEDD_03025    65.12    129    42    1    1    126    1    129    4e-45      167
UT08    BNAKEEDD_02663    74.82    139    32    1    1    136    1    139    1e-40      157
UT08    BNAKEEDD_01601    61.48    122    40    1    1    115    1    122    8e-36      141
UT08    BNAKEEDD_02274    63.89    144    49    3    1    141    1    144    5e-34      130



Versión ncbi-blast-2.6.0+

 Linea de ejecución:

~ncbi-blast-2.6.0+/bin/blastp -query UT08.fasta -db UT105.fa -outfmt 7 -max_target_seqs 5 -seg yes -soft_masking true


Alineamiento:

Fields: query id, subject id, % identity, alignment length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score
# 5 hits found
UT08    BNAKEEDD_02661    98.271    694    0    1    1    682    1    694    0.0    1116
UT08   BNAKEEDD_03025    65.116    129    42    1    1    126    1    129    3.79e-45    167
UT08    BNAKEEDD_02663    74.820    139    32    1    1    136    1    139    1.34e-40    157
UT08    BNAKEEDD_01601    61.475    122    40    1    1    115    1    122    7.24e-36    141
UT08    BNAKEEDD_02274    63.889    144    49    3    1    141    1    144    1.85e-34    130
 

 

Al realizar el alineamiento de la proteína query UT08 con la versión de blast 2.2.30 o 2.6.0 toma como segundo mejor hit el alineamiento que es el hit número uno para la versión 2.2.27. Sin embargo, al realizar la busqueda, para el alineamiento de UT08 usando en la versión 2.2.27 no fue posible identificar el hit número uno (BNAKEEDD_02661) de las versiónes 2.2.30 o 2.6.0 en los primeros 20 hits, siendo las que tuvieron el mayor procentaje de identidad (98.27%), mejor evalue y bit score para estas dos ultimas versiones.

Lo anterior indica que el alineamiento de secuencias en regiones de baja complejidad fue optimizado a partir de la versión ncbi-blast-2.2.30+ (ver Bug fixed https://www.ncbi.nlm.nih.gov/books/NBK131777/) .  Esta es una de las varias razónes que dan importancia a realizar periodicamente las actualizaciónes a las versiones más recientes de software para análisis de datos biológicos como Blast, sobre todo para corregir los posibles errores que traen las antiguas versiones, como en este caso paticular asociado a los alineamientos en secuencias repetitivas o de baja complejidad.








No hay comentarios:

Publicar un comentario