4 de mayo de 2021

Acceso a FTP de Ensembl desde un navegador web

En abril de 2021 Mozilla Firefox dejó de soportar el protocolo FTP (ver anuncio). Tras Google Chrome y Safari fue el último navegador en dar el paso, al parecer por los fallos de seguridad de ese vetusto protocolo. 


Dado que FTP sigue siendo la principal forma de descargar grandes volúmenes de datos desde Ensembl, hay dos alternativas para navegar el servidor FTP:

1) Instalar el cliente filezilla y decirle a Firefox al abrir un enlace FTP que use siempre FTP para abrirlo.

2) Acceder a los mismos datos con el protocolo HTTP, tal como me explicó mi colega Michal Szpak, cambiando la URL de 

ftp://ftp.ensemblgenomes.org/pub/plants/

a

http://ftp.ebi.ac.uk/ensemblgenomes/pub/plants


Hasta pronto,

Bruno

21 de abril de 2021

Dos versiones del mismo genoma: el caso de la cebada

Hola,

una de las plantas con las que hemos trabajado más en los últimos años es la cebada (Hordeum vulgare), un cultivo de enorme importancia en el secano de la península ibérica (ver por ejemplo https://www.eead.csic.es/barley). Puedes leer aquí sobre otros genomas de plantas y para qué los usamos.

La cebada es una especie diploide con un genoma haploide de 5.3 Gbp repartidos en 7 cromosomas, con un %GC=44.5. Es un genoma de gran complejidad que ha requerido un esfuerzo de al menos un década por parte de un consorcio internacional. Las diferentes etapas de la secuenciación y ensamblaje del cultivar Morex se pueden recorrer en:

Mi intención es mostrar cuánto pueden cambiar dos versiones del mismo genoma a medida que se incorporan nuevas tecnologías, en este caso lecturas largas PacBio (circular consensus sequencing, CCS). 

En este ejemplo comparamos la versión más reciente (MorexV3) respecto a una anterior (IBSC_v2). Si consultamos el European Nucleotide Archive, podemos ver sus estadísticas generales (verás que he puesto en negrita los cambios más notables):
 

IBSC_v2 (GCA_901482405.1)

Total Length:           4,833,791,107
Ungapped Length:        4,446,895,020
Chromosomes & Plasmids:             0
Spanned Gaps:               1,030,196
Scaffolds:                          8
Scaffold N50:             657,224,000
Contigs:                    1,030,204
Contig N50:                    19,388
MorexV3 (GCA_904849725.1)
Total Length:           4,225,577,519
Ungapped Length:        4,224,251,725
Chromosomes & Plasmids:             7
Spanned Gaps:                     162
Scaffolds:                        290
Scaffold N50:             610,333,535
Contigs:                          452  
Contig N50:                69,630,691 

Se puede ver que el nuevo ensamblaje es más pequeño, contiene muchos menos huecos (gaps) y tiene 7 cromosomas construidos a partir de un conjunto de apenas 452 contigs enormes.

En cuanto a la anotación, tomando datos de Ensembl Plants, si la versión IBSC_v2 tenía 39,841 genes codificantes de proteínas de "alta confianza, HC", la más reciente tiene 35,825. Finalmente, si mapeamos con bwa SNPs de IBSC_v2 en ventanas de 150 nucleótidos contra el nuevo genoma, de un total de 16.5M logramos 13.4M mapeos únicos y perdemos 2.7M SNPs por el camino (un 16%).

En la versión de 2021 Mascher et al hacen incapié en la significante ganancia en la calidad de las anotaciones de elementos repetidos, como se ve en la figura para los retrotransposones del tipo BARE1: 

 

                               Fuente: https://doi.org/10.1093/plcell/koab077

En resumen, el nuevo genoma es sustancialmente diferente al anterior y visto lo visto, seguramente no sea el último, aunque todos ellos han sido muy útiles sin duda,

Bruno

6 de abril de 2021

Dependencias del sistema de un módulo Perl

Hola, 

un problema con el que tropecé recientemente al preparar un fichero .travis.yaml para un repositorio en GitHub es que algunos módulos Perl pueden fallar al ser instalados porque dependen de software adicional que no está instalado en el sistema operativo. La solución pasa por instalar esas dependencias antes de los módulos en cuestión, tal como se hace por ejemplo con libgd-dev en https://github.com/eead-csic-compbio/get_homologues/blob/master/.travis.yml

En esta entrada lo que quería compartir es el módulo CPAN-Plugin-Sysdeps, que sirve precisamente para averiguar qué dependencias del sistema tiene cualquier módulo. Un ejemplo vale más que mil palabras:

# instalamos cpan-sysdeps
cpanm CPAN::Plugin::Sysdeps
--> Working on CPAN::Plugin::Sysdeps
Fetching http://www.cpan.org/authors/id/S/SR/SREZIC/CPAN-Plugin-Sysdeps-0.68.tar.gz ... OK
Configuring CPAN-Plugin-Sysdeps-0.68 ... OK
Building and testing CPAN-Plugin-Sysdeps-0.68 ... OK
Successfully installed CPAN-Plugin-Sysdeps-0.68
1 distribution installed

# ahora comprobamos las dependencias de cualquier módulo
cpan-sysdeps --cpanmod DB_File
libdb5.3-dev

# si quieres ver solamente las que faltan por instalar
cpan-sysdeps --cpanmod DB_File --uninstalled

# finalmente, puedes instalar directamente esas dependencias
apt-get install $(cpan-sysdeps --uninstalled --cpanmod DB_File)

Hasta pronto,

Bruno



18 de marzo de 2021

la invisible ciencia básica detrás de las vacunas SARS-CoV-2

Hola,

la pandemia que estamos viviendo, un año después, nos está poniendo a prueba. A pesar de la improvisación de los políticos a escala global, de la desinformación en las redes sociales y los brotes de desconfianza, a pesar de la economía bajo mínimos y del cole en casa, ahora la mayoría tenemos la esperanza de que las vacunas resuelvan el problema. 

En este artículo solamente pretendo recordar el largo camino de la investigación básica que nos ha traído hasta el presente. Estas vacunas son ya grandes hitos de la humanidad, a la altura de la llegada a la luna, pero el camino ha sido largo, de al menos 25 años. Por tanto, nada de milagros, son el fruto de mucho trabajo acumulado que fue explotado con mucho éxito por empresas como BioNTech y Moderna. Como pasó con CRISPR para la edicion de genomas, para que alguien llegara a la cima fueron necesarios muchos pasos previos, muchos de los cuales fuera de contexto serían objeto de "y eso para qué sirve". Aquí enumero los más importantes para las vacunas de ARN, extraídos de este hilo (no están los de los otros tipos de vacunas):

1970 T7 ARN polimerasa: nature.com/articles/22822 . Esta enzima permite sintetizar moléculas de ARN a medida, como las de las vacunas.

1978 Liposomas para llevar ARN mensajeros (mRNA): nature.com/articles/27492 . Estos vehículos permiten que el ARN de las vacunas pueda atravesar
la doble capa lipídica de la membrana celular.

1990 Inyecciones de ADN y ARN para expresar genes de manera transitoria en tejidos: science.sciencemag.org/content/247/49 .  Este trabajo demostró que es posible expresar genes a medida tras ser inyectados en tejidos, de manera que se traducen como proteínas.

2005 Ribonucleótidos modificados no disparan respuestas inmunes: cell.com/immunity/fullt .
Esto permite que el ARN inyectado no desencadene una reacción inmune por si mismo, lo que se pretende es que la reacción la desencadene la proteína codificada por ese ARNm.

2017 Estabilización de proteínas expuestas de los coronavirus MERS-CoV y SARS-CoV: pnas.org/content/114/35. Esto permite que la proteína modificada del coronoavirus que expresa el ARNm sea más estable y desencadene una reacción inmune más robusta.

Esta sucesión de descubrimientos y la tecnología actual permitieron que el tiempo de desarrollo de las vacunas haya sido el más corto de la historia:

 


En mi actual institución, el Instituto Europeo de Bioinformática (EBI), también hemos contribuído con el https://www.covid19dataportal.org y el navegador de genomas https://covid-19.ensembl.org

Espero haberos convencido de que la ciencia financiada con fondos públicos y transparente, muchas veces invisible e ingrata, es una parte fundamental e integral del avance de nuestra sociedad, y que de ella beben las empresas que nos venden luego los productos.

Hasta pronto,

Bruno

PD1 Me preguntan si "mucha de esa investigación no la financian las farmacéuticas de forma privada, con escasos beneficios en mucho casos. Esto me recuerda a cuando proponen nacionalizar farmacéuticas". 
 
Mi respuesta es que mi argumento no iba en esa dirección. De hecho creo que esta historia es un buen ejemplo de cómo lo iniciativa privada puede agilizar el desarrollo y las pruebas clínicas de las vacunas llevando a buen puerto en tiempo récord lo que empezó solamente como investigación básica. Mi argumento es que el riesgo es que la opinión pública, y los políticos que deciden, se queden sólo con el final del proceso y no vea la utilidad de la investigación básica. Quién les iba a decir a los autores de los artículos citados que iban a ser instrumentales para dos vacunas en el año 2020?
 
En cuanto a la financiación, como no es mi campo no me atrevo a opinar, pero sí puedo copiar aquí los que dicen al respecto los artículos citados más arriba:
 
1970 "This investigation was supported by a US Public Health Service research grant and training grant from the Institute of General Medical Sciences."
 
1978 "I thank Dr J. R. Tata for the freedom to pursue my own research goals... G.J.D. is in receipt of an EMBO long-term fellowship."
 
1990 "Supported in part by the NIH (grant numbers HD00669-05 and HD03352) and the Lynn F. Taylor Memorial Fund."
 
2005 "This work was supported by National Institutes of Health grants AI060505, AI50484, and DE14825."
 
2017 "This work was supported by Grants P20GM113132 ... and R01AI127521 ..., NIH Contract HHSN261200800001E Agreement 6x142 ..., and intramural funding from National Institute of Allergy and Infectious Diseases to support work at the VRC. Argonne is operated by UChicago Argonne, LLC, for the US Department of Energy (DOE), Office of Biological and Environmental Research under Contract DE-AC02-06CH11357. Use of the Stanford Synchrotron Radiation Lightsource (SSRL), SLAC National Accelerator Laboratory, is supported by the DOE, Office of Science, Office of Basic Energy Sciences under Contract DE-AC02-76SF00515. The SSRL Structural Molecular Biology Program is supported by the DOE Office of Biological and Environmental Research and by the NIH, National Institute of General Medical Sciences (including P41GM103393)."
 
PD2 Parece ser que Uğur Şahin, uno de los dos fundadores de BioNTech, dirige actualmente un proyecto ERC financiado con dinero público de la UE: https://twitter.com/ERC_Research/status/1372962936856190982

9 de marzo de 2021

contenido GC de un fichero FASTA

Hola,

una pregunta habitual cuando analizas un fichero de nucleótidos, por ejemplo un ensamblaje de un genoma, es qué porcentaje GC tiene.  Asumiendo que el fichero está en formato FASTA, podemos obtener fácilmente ese valor con un mini-programa (one-liner) escrito en lenguaje perl. Por ejemplo, para el genoma comprimido de Brachypodium distachyon obtenido de Ensembl Plants, podríamos obtenerlo así:

zcat Brachypodium_distachyon.Brachypodium_distachyon_v3.0.dna.toplevel.fa.gz | \
   perl -lne 'if(!/^>/){ $SQ=uc($_); while($SQ =~ /([ACTG])/g){ $stat{$1}++; $tot++ } } 
   END{ printf("%%GC=%1.1f\n",100*($stat{"G"}+$stat{"C"})/$tot);  
      foreach $nt (keys(%stat)){ print "$nt\t$stat{$nt}" } }'

%GC=46.4
A	72549289
T	72561114
C	62839311
G	62789747

Si quieres calcular el %GC solamente para ciertas regiones del genoma entonces puedes codificarlas en un fichero BED y usar bedtools nuc, como se explica en https://www.biostars.org/p/47047

Hasta pronto,

Bruno