4 de abril de 2022

Dominios de función desconocida (DUF) en proteínas

Hola,

como ya hemos mencionado en otras ocasiones aquí, las proteínas habitualmente tienen uno o más dominios con determinadas funciones. Por eso cuando analizas secuencias de proteínas recursos como Pfam (incluída en Interpro) o CDD son muy útiles.

El crecimiento de las colecciones de secuencias es tan rápido que a veces se definen dominios o familias de proteínas sin saber realmente qué función tienen. Sabemos que existen, porque sus secuencias están conservadas en los genomas de diferentes organismos y se pueden alinear, pero todavía no hay evidencias de en qué procesos bioquímicos participan. Son los llamados Domains of Unknown Function (DUF).

Hace unos unos años Carlos Cantalapiedra y yo descubrimos tránscritos en cebada y en Arabidopsis thaliana que contenían dominios DUF. Entre ellos está por ejemplo DUF3615, pero todavía no sabemos si son importantes o no:

https://www.frontiersin.org/files/Articles/238135/fpls-08-00184-HTML/image_m/fpls-08-00184-g005.jpg

Figura 1. Dominios de Pfam encontrados en tránscritos accesorios de Arabidopsis thaliana (izq) y cebada (der). Fuente: https://doi.org/10.3389/fpls.2017.00184

La continuación de esta historia la encontramos en un artículo muy reciente, donde los autores descubren una pareja de proteínas, una de ellas DUF1644, que tanto en arroz como maiz interaccionan entre ellas y, al hacerlo, afectan al número de granos producidos, un caracter de enorme interés en la agricultura:

Figura 2. Interacción entre KRN2 y DUF1644 confirmada en ensayos Y1H (A) y ensayos de complementación con luciferasa en hojas de tabaco(B). Adaptada de https://doi.org/10.1126/science.abg7985

 

Queda claro que los dominios DUF son una fuente interesante por explorar. Lo lógico sería que con el tiempo se vayan convirtiendo en familias de función conocida, pero la verdad es que este ejemplo tampoco nos dice mucho de la  función de DUF1644, solamente que interacciona con otras proteínas.

Hasta pronto,

Bruno

28 de marzo de 2022

Módulos core en Perl

Hola,

esta mañana estaba leyendo una entrada sobre cómo programar una pareja cliente/servidor TCP minimalista en Perl cuando aprendí una manera de obtener información de módulos core de Perl, los que puedes esperar que estén ya instalados en cualquier sistema o, a menudo, en contenedores Docker.

Es muy sencillo, como veremos con el módulo IO::Socket::INET del ejemplo:

$ corelist IO::Socket::INET 

Que en mi sistema devuelve:

Data for 2019-05-22
IO::Socket::INET was first released with perl v5.6.0


Si arranco un contenedor Docker basado en Ubuntu 18.04 obtengo:

Data for 2017-09-22
IO::Socket::INET was first released with perl v5.6.0

Espero que sea útil,

hasta pronto,

Bruno

 



8 de marzo de 2022

CRISPR-Cas9 reloaded

Hola,

a pesar  de que lamentablemente la guerra sigue en Ucrania, hoy continuamos el marcaje que hacemos desde este blog a las enzimas Cas9 y las secuencias CRISPR (ver por ejemplo esta entrada), porque la actualidad nos ha traído novedades. Pero vayamos por partes.

La primera novedad es un trabajo de ingeniería de proteínas (publicado en https://doi.org/10.1038/s41586-022-04470-1) donde los autores avanzan en la comprensión del mecanismo de corte de la enzima Cas9 (Figura 1) y lo aprovechan para hacer una mutagénesis dirigida donde reemplazan algunos aminoácidos para que dejen de estabilizar los nucleótidos 18-20 del ADN diana en caso de no aparear (Figura 2) y sin afectar a la velocidad de la reacción de las secuencias apareadas:

figure 5

Figura 1. Modelo para la activación de la enzima Cas 9 tomado de https://doi.org/10.1038/s41586-022-04470-1.


 

Figura 2. Esquema del complejo PAM-distal gRNA–TS con moléculas de agua como círculos rojos. Los aminoácidos que contactan con los nucleótidos C18, A19 y G20 fueron mutados para comprobar su efecto en el corte de la secuencia diana. Las curvas muestran estudios de la dinámica de la reacción enzimática de corte de la Cas9 comparando moléculas guía que aparean (On-target) con moléculas que contienen mismatches (MM, Off-target) en las posiciones 18-20.  Adaptada de https://doi.org/10.1038/s41586-022-04470-1.

Qué significa esto? Pues que esta versión de Cas9 (SuperFi-Cas9) tiene mayor fidelidad y es un paso adelante en la dirección de conseguir enzimas que no corten donde no se esperaban cortes.


La segunda novedad es que en la batalla legal por los derechos de explotación de las tecnologías CRISPR parece de momento ha ganado la Universidad de Harvard, como podéis leer por ejemplo en https://www.technologynetworks.com/genomics/news/broad-institute-wins-crispr-patent-case-359160 . Ya veremos que consecuencias tiene esto para el uso de las tecnologías Cas9 en ciencia, pero vemos que si los premios Nobel dejaron fuera a algunos investigadoes clave como Francis Mójica (ver por ejemplo esto), ahora la guerra de las patentes deja fuera a las investigadoras que ganaron el Nobel por este trabajo!

Hasta pronto,

Bruno


28 de febrero de 2022

diagramas de flujo y Gantt en Markdown

Hola,

iba a decir buenos días, pero lamentablemente seguimos pendientes de la invasión y resistencia en Ucrania; mejor lo dejo. Espero que sean buenos pronto.

Hoy solamente quería compartir un hallazgo reciente sobre cómo crear diagramas de flujo en Markdown. A mi me resulta especialmente útil en un repositorio GitHub, porque es donde más Markdown escribo para documentar código y datos, y además sin instalar nada. En concreto, la librería js mermaid está ya satisfecha de antemano en GitHub.

 

 Para que veáis qué fácil es pongo como ejemplo el siguiente diagrama, que podéis ver en https://raw.githubusercontent.com/eead-csic-compbio/eead-csic-compbio.github.io/master/README.md :

```mermaid
  graph TD;
      github-->repositories;
      github-->github.io
      github.io-->scripts;
      github.io-->data;
      github.io-->compbio/md;
```

O ya ejecutado en https://github.com/eead-csic-compbio/eead-csic-compbio.github.io :

 Además de diagramas de flujo, otro tipo de diagrama que encuentro muy útil es el diagrama de Gannt, para organizar tareas en el tiempo, por ejemplo en un proyecto:


```mermaid
gantt
dateFormat  YYYY-MM-DD
title Diagrama de GANTT con mermaid

section Sección A
Tarea finalizada       :done,    des1, 2014-01-06,2014-01-08

Tarea en marcha            :active,  des2, 2014-01-09, 3d
Tarea futura1                :         des3, after des2, 5d
Tarea futura2               :         des4, after des3, 5d
```

Hasta pronto,

Bruno

 

 


2 de febrero de 2022

Aplicaciones y limitaciones de AlphaFold2

Hola,

han pasado ya más de 6 meses desde que hablamos aquí de AlphaFold2 (si os fijáis en los comentarios fui pegando artículos relacionados), y entre tanto he ido descubriendo aplicaciones interesantes y una limitación importante. Aquí hablo muy brevemente de ellas.

1. Búsqueda de plegamientos parecidos. Si tienes una estructura o tal vez un modelo de una proteína y quieres saber a qué estructuras conocidas se parece, incluyendo las predicciones de AlphaFold2, puedes hacerlo pegando sus coordenadas en formato PDB en https://search.foldseek.com/search


2. Predicción de resíduos de proteínas que interaccionan con ADN. El algoritmo GraphSite (https://biomed.nscc-gz.cn/apps/GraphSite) es capaz de predecir resíduos de la interfaz proteína-DNA con mayor precisión que cualquier otro método probado en https://doi.org/10.1093/bib/bbab564


3. AlphaFold2 sobreestima el plegamiento de proteínas cortas. En una evaluación reciente contra la colección AntiFam , que contiene proteínas que se cree son errores de anotación, se ha observado que AlphaFold2 tiene una pequeña tendencia (6/131) a dar puntuaciones altas (pLDDT > 80) a secuencias menores de 100 resíduos. Hasta que sepamos más es buena idea ser especialmente cauteloso con secuencias cortas.


Hasta pronto,

Bruno