13 de julio de 2010

Eliminar secuencias redundantes y transcritos repetidos (II, con CD-HIT)

Como complemento a la entrada anterior de Álvaro os paso un enlace al programa
CD-HIT, que es una opción muy cómoda y eficiente para eliminar redundancia dentro de un conjunto de secuencias de proteínas o de DNA. El artículo donde se describe la primera versión de CD-HIT se publicó en Bioinformatics en 2006.


Aunque hay una serie de servidores web que pueden ayudarnos en esta tarea, si tienes un volumen realmente grande de secuencias lo más probable es que necesites descargar el código fuente (en C++) y compilarlo con make. Una vez compilado, el programa tiene múltiples opciones, pero su uso es muy sencillo.  El algoritmo se basa en calcular la identidad de todas las secuencias (previamente ordenadas por longitud) por parejas para ir generando clusters de secuencias con una identidad superior al umbral deseado. Por defecto el umbral de identidad es del 90%, medida a lo largo de toda la secuencia (global), no sólo la alineada. Por supuesto se puede modificar este comportamiento y elegir por ejemplo umbrales más bajos o identidades locales.


Terminaré con un ejemplo de uso. Por ejemplo, dado el mismo archivo FASTA de la entrada anterior de Álvaro, para obtener el subconjunto no redundante al 80% sería necesario el siguiente comando en el terminal Linux:

$ cd-hit/cd-hit -i redundante.faa -o noredundante.faa -c 0.8 

Como resultado, además del fichero noredundante.faa, se obtienen otros dos archivos (noredundante.faa.clstr y noredundante.faa.bak.clstr) que contienen
los clusters encontrados y las secuencias redundantes observadas.

3 comentarios:

  1. CD-Hit se puede utilizar para eliminar secuencuas paralogas o duplicadas del proteoma de una sola sp o de la comparacion de dos sp, por ejemplo de un patogeno y su hospedero?

    ResponderEliminar
  2. Hola anónimo, al eliminar redundantes probablemente estés eliminando muchos parálogos, pero ten en cuenta que lo harás con un criterio fijo de % de identidad de secuencia; todos aquellos parálogos que tengan menos identidad sobrevivirán, no sé si me explico, Bruno

    ResponderEliminar
  3. Otra opción más reciente:
    https://github.com/soedinglab/MMseqs
    http://bioinformatics.oxfordjournals.org/content/32/9/1323.full

    ResponderEliminar