15 de mayo de 2014

Cuando Blastn no es Blastn


BLAST cambió hace ya algún tiempo a mejor con su versión BLAST+ pero por el camino se olvidó de algún detalle que puede confundir a más de uno.

El antiguo BLAST se ejecutaba con el comando 'blastall':

Blastall
--------

Blastall may be used to perform all five flavors of blast comparison. One
may obtain the blastall options by executing 'blastall -' (note the dash). A
typical use of blastall would be to perform a blastn search (nucl. vs. nucl.) 
of a file called QUERY would be:

blastall -p blastn -d nr -i QUERY -o out.QUERY

The output is placed into the output file out.QUERY and the search is performed
against the 'nr' database.  If a protein vs. protein search is desired,
then 'blastn' should be replaced with 'blastp' etc.

De esta forma un alineamiento de proteínas comenzaría como 'blastall -p blastp' y uno de ácidos nucleicos como 'blastall -p blastn' y si queremos usar MEGABLAST tenemos el comando diferente 'megablast'.

Sin embargo en la 'nueva' versión BLAST+, se separaron el alineamiento de proteínas y el de ácidos nucleicos en dos comandos: 'blastp' y 'blastn' (ver manual). Hasta aquí todo parece lógico y normal, lo que no todo el mundo sabe es que LA OPCIÓN POR DEFECTO DE BLASTN ES MEGABLAST, si ejecutamos 'blastn -help' encontraremos lo siguiente:


 *** General search options
 -task                 'megablast' 'rmblastn' >
   Task to execute
   Default = `megablast'

Y es que no todo el mundo está interesado en la velocidad de búsqueda de alineamientos, muchos de los que todavía usamos Blastn es porque apreciamos su gran sensibilidad para detectar alineamientos. En la actualidad usamos Blast para alinear miles de secuencias en tiempos muy razonables de minutos e incluso segundos. Para ganar velocidad en alineamientos de millones de secuencias existen otras mejores alternativas como Bowtie2.

La CONCLUSIÓN de todo esto, si usamos Blastn y nos interesa la sensibilidad deberemos ejecutarlo como:

 blastn -task blastn

Si lo hacemos sin añadir esta opción estaremos ejecutando MEGABLAST y correremos el peligro de perder una gran sensibilidad y no encontrar los alineamientos que deseamos. Por ejemplo, busquemos homología entre la 2'beta microglobulina humana (NM_004048.2) y la de ratón (NM_009735.3) usando la herramienta online de Blastn con las opciones por defecto ('Highly similar sequences (megablast)'):


Sin embargo si cambiamos la opción de búsqueda a 'Somewhat similar sequences (blastn)':


La diferencia es considerable, ¿no creéis? pasamos de no encontrar similaritud a un alineamiento con E-valor de 1.5E-56!!!!






9 de mayo de 2014

2nd CNB Course on Introduction to Research

Hola,
pego un anuncio de un curso para estudiantes interesados en investigar que se realizará en Madrid del  30 de Junio al 25 de Julio en el Centro Nacional de Biotecnología-CSIC, que me parece puede ser una excelente oportunidad para algunos de los seguidores del blog. Los alumnos elegidos tendrán la oportunidad de interaccionar con investigadores de todas las áreas del centro, y en concreto en el departamento de Biología de Sistemas hay varios grupos con tradición en la formación en biología computacional.




Toda la información en http://tinyurl.com/lnqtmgp.
 
Un saludo,
Bruno

25 de marzo de 2014

XII Jornadas de Bioinformática / XII Symposium on Bioinformatics

Hola,
hoy damos difusión a las pŕoximas Jornadas de Bioinformática, el mayor evento científico sobre biología computacional en España. Esta es la información que tengo de momento:


The XII Symposium on Bioinformatics (XII Jornadas de Bioinformática) will take place on 21-24 September in Sevilla, Spain, at cicCartuja (CSIC-US). 

The 21st will be the student symposium, and the main conference will start on Monday the 22nd. The URL for the meeting is: 


http://www.bioinformaticsconference2014.org/

(programme/committees are still preliminar, but will be updated periodically)
With the aim of encouraging the participation of younger bioinformaticians this year’s symposium main theme is “Bioinformatics: The New Breed”.Abstracts topics include but are not limited to:
  • Integrative Biology (NGS, -omics technologies...)
  • Structural Bioinformatics and function prediction
  • Algorithms, method, and tools development
  • Metagenomics
  • Medical Informatics 

    Abstract submission closes Thursday, July 31, 2014 

PD 25 de Agosto: nuestro laboratorio presentará dos charlas seleccionadas en las secciones de Metagenómica y Estructura y Función. Además Álvaro Sebastián, colaborador habitual del blog presentará un libro de texto sobre Bioinformática en español, en la sección The Unworkshop format.

20 de marzo de 2014

Copia de seguridad de todas nuestras bases de datos MySQL, usuarios y demás

Esta mañana me he puesto a migrar el servidor MySQL y quiero compartir un par de comandos que me han salvado horas de tiempo y muchos dolores de cabeza...

El primero permite hacer una copia de seguridad de todas nuestras bases de datos, incluso las internas de MySQL en un solo archivo:
  • mysqldump -u username -p -–all-databases > file.sql
No preocuparse si aparece el mensaje: "-- Warning: Skipping the data of table mysql.event."

Si queremos comprimir el archivo podemos ejecutar el comando anterior de la siguiente forma:
  • mysqldump -u username -p -–all-databases | gzip > file.sql.gz

Y para instalar en el nuevo servidor nuestras bases de datos y configuraciones (o para recuperar la copia de seguridad en nuestro ordenador) basta con ejecutar:
  • mysql -u username -p < file.sql

Finalmente deberemos reiniciar el servicio MySQL para recargar usuarios, permisos y demás:
  • sudo /etc/init.d/mysql restart

 Espero que estas simples indicaciones le salven la base de datos a más de uno.


27 de febrero de 2014

contrato: Anotación y diagnóstico molecular de polimorfismos en secuencias genómicas

Anotación y diagnóstico molecular de polimorfismos en secuencias genómicas

El Grupo de Biología Computacional y Estructural de la EEAD-CSIC oferta un CONTRATO de personal investigador PREDOCTORAL para la formación de doctores, renovable hasta 4 años, cofinanciado por el Gobierno de Aragón.

Plazo de solicitud finaliza el 10 de marzo de 2014.

El proyecto plantea el desarrollo de un entorno bioinformático eficiente, escalable y sencillo para el usuario final, para la anotación de secuencias genómicas obtenidas de cualquier especie y los polimorfismos observados. Por medio de algoritmos de inteligencia artificial este software deberá además aprender de las secuencias analizadas previamente para hacer predicciones de fenotipo, por ejemplo de mutaciones en un gen. Los resultados del proyecto serán directamente aplicables a los trabajos del laboratorio  en genómica de plantas y también a enfermedades humanas donde el diagnóstico molecular es una herramienta clave, como el cáncer de mama o la fibrosis quística. Para ello esta propuesta cuenta con la participación de la empresa local Blackhills Diagnostic Resources, que desarrolla este tipo de kits en Zaragoza, y que suministrará experiencia y secuencias para el adecuado desarrollo del proyecto en su vertiente clínica.

Los candidatos deben cumplir los requisitos de la convocatoria publicada en el BOA 17.02.2014 (http://tinyurl.com/nfulqbe) y estar empadronados en la Comunidad Autónoma de Aragón. Buscamos i) ingenieros o licenciados con Máster o ii) graduados con 300 créditos ECTS en Biología, Bioquímica, Biotecnología, Química, Veterinaria o Farmacia, Informática o Agronomía.

Para más información sobre el grupo consulta:
www.eead.csic.es/compbio , bioinfoperl.blogspot.com.es (este blog)

Contacto

Bruno Contreras      (bcontreras at eead.csic.es)                            
Inmaculada Yruela  (yruela at eead.csic.es)

Ubicación
Estación Experimental de Aula Dei-CSIC,
Av Montañana 1005, Zaragoza