#!/perl/bioinfo: noviembre 2013

21 de noviembre de 2013

GET_HOMOLOGUES for pan-genome analysis

Hola,

en el último número de Applied and Environmental Microbiology mi colega Pablo Vinuesa y yo publicamos un artículo describiendo el software GET_HOMOLOGUES, que tiene como abstract:

GET_HOMOLOGUES is an open source software package that builds upon popular orthology-calling approaches making highly customizable and detailed pan-genome analyses of microorganisms accessible to non-bioinformaticians. It can cluster homologous gene families using the bidirectional best-hit, COGtriangles or OrthoMCL clustering algorithms. Clustering stringency can be adjusted by scanning the domain-composition of proteins using the HMMER3 package, by imposing desired pair-wise alignment coverage cut-offs or by selecting only syntenic genes. Resulting homologous gene families can be made even more robust by computing consensus clusters from those generated by any combination of the clustering algorithms and filtering criteria. Auxiliary scripts make the construction, interrogation and graphical display of core and pan-genome sets easy to perform. Exponential and binomial mixture models can be fitted to the data to estimate theoretical core and pan-genome sizes, and high quality graphics generated. Furthermore, pan-genome trees can be easily computed and basic comparative genomics performed to identify lineage-specific genes or gene family expansions. The software is designed to take advantage of modern multiprocessor personal computers as well as computer clusters to parallelize time-consuming tasks. To demonstrate some of these capabilities, we survey a set of 50 Streptococcus genomes annotated in the Orthologous Matrix Browser as a benchmark case.

El software se puede descargar de http://www.eead.csic.es/compbio/soft/gethoms.php y también de http://maya.ccg.unam.mx/soft/gethoms.php y está escrito mayoritariamente en Perl, aunque contiene también trozos en R.

El manual del programa describe en detalle ejemplos de uso y está disponible en http://www.eead.csic.es/compbio/soft/manual.pdf .

Este paquete de programas se diseñó para el estudio de los pan y core-genomas de grupos de microorganismos, que es con lo que trabaja el grupo de Pablo fundamentalmente, y permite generar figuras como éstas:

Un saludo,

Bruno

9 de noviembre de 2013

Trucos para la biología computacional

Buenas,
hoy quiero invitaros a leer lo que nos cuentan dos bioinformáticos (Mick Watson y Nick Loman) sobre el trabajo y el aprendizaje de este oficio, publicado en Nature Biotechnology. Además de tocar temas más relacionados con el desarrollo de software (como el control de versiones) y la construcción de tuberías de análisis, el artículo repasa obviedades que no obstante conviene no olvidar, como

"knowledge of biology is vital in the interpretation of computational results"

u otra más concreta:

"Laboratory scientists wouldn’t dream of running experiments without the necessary positive and negative controls... tests are the computational biology equivalent".

El texto, breve, toca temas importantes como la elección apropiada de métodos en bioinformática, la validación de tu propio código y el que te descargaste de otros autores, y la búsqueda de opiniones expertas en foros como SEQanswers. Si te interesa, puedes seguir leyendo en http://www.nature.com/nbt/journal/v31/n11/full/nbt.2740.html?WT.ec_id=NBT-201311,
un saludo,
Bruno