en esta entrada quería enterrar al ya vetusto ClustalW, el programa de alineamiento múltiple más citado de la historia. En realidad lo acaban de enterrar sus propios autores en este artículo, donde presentan a su sucesor Clustal Omega. Como es habitual en Bioinformática, los autores ponen a prueba el nuevo programa de alineamiento comparándolo con las principales opciones de software disponibles, incluyendo al viejo ClustalW. Las comparaciones son bastante extensas, usando hasta 3 baterías de alineamientos, como son BALiBASE y HomFam (creadas por el entorno de Clustal) y Prefab, creada por el autor de MUSCLE, Robert Edgar. En la siguiente tabla, abreviada de la original, se muestran los resultados promediados sobre el conjunto BALiBASE de 218 familias de proteínas:
Aligner | Av score (218 families) | Tot time (s) | |||||||
---|---|---|---|---|---|---|---|---|---|
MSAprobs | 0.607 | 12 382.00 | |||||||
Probalign | 0.589 | 10 095.20 | |||||||
MAFFT (auto) | 0.588 | 1475.40 | |||||||
Probcons | 0.558 | 13 086.30 | |||||||
Clustal Ω | 0.554 | 539.91 | |||||||
T-Coffee | 0.551 | 81 041.50 | |||||||
Kalign | 0.501 | 21.88 | |||||||
MUSCLE | 0.475 | 789.57 | |||||||
MAFFT (default) | 0.458 | 68.24 | |||||||
FSA | 0.419 | 53 648.10 | |||||||
Dialign | 0.415 | 3977.44 | |||||||
PRANK | 0.376 | 128 355.00 | |||||||
ClustalW | 0.374 | 766.47 |
Sin embargo, las tablas del artículo (1 , 2 , 3) muestran que la inclusión de modelos ocultos de Markov (HMMs) y árboles guía mBed produce alineamientos de mucha mayor calidad (y en menor tiempo) que ClustalW, que es más lento para producir peores alineamientos. Clustal Omega puede alinear conjuntos de miles de secuencias, pero por el momento, sólo de aminoácidos, por lo que talvez sigamos usando ClustalW o MAFFT para alinear nucleótidos, no?
Por cierto, al compilar el código fuente de http://www.clustal.org/omega/clustal-omega-1.0.3.tar.gz en mi Ubuntu 10.04 tuve que instalar el paquete libargtable2-dev , un saludo,
Bruno