Comments on #!/perl/bioinfo: Algunas ideas del uso de CD-HIT-EST 4.6 y USEARCH 5.2.32

Parece que no tengo activado algún sistema de alar...

2012-11-04T17:21:07.015+01:00

Parece que no tengo activado algún sistema de alarmas. En fin, ya lo siento. En cualquier caso, por si alguien más pasa por aquí y tiene la misma duda...
David,
creo que recordar que selecciono los clusters con más de un miembro porque me interesaba ver qué secuencias estaban siendo agrupadas. Los clusters de un miembro son por tanto los que tienen secuencias que han resultado ser independientes. Si te interesa quedarte con todo el conjunto nuevo de secuencias, tanto las independientes, como los nuevos clusters, efectivamente seleccionarías también los clusters de un miembro.

Saludos

Carlos, por qué descartarías los clusters que sólo...

2012-07-26T09:18:20.961+02:00

Carlos, por qué descartarías los clusters que sólo tienen un único miembro? acaso son menos informativos o menos fiables?

David

Gracias Alvaro, me vendrá bien ese script, seguro....

2012-07-10T12:23:42.725+02:00

Gracias Alvaro,
me vendrá bien ese script, seguro. Yo por ahora sólo tengo para filtrar/extraer en base a cabeceras.

Veo que el problema está en las Ns, ahora sí que m...

2012-07-09T19:30:39.114+02:00

Veo que el problema está en las Ns, ahora sí que me creo que CDHIT falle. Se me olvidó comentarte en el lab que quizás por ello yo usaba un script de Perl casero para filtrar redundancias en genomas:
http://bioinfoperl.blogspot.com.es/2010/07/eliminar-secuencias-redundantes-y.html