Mostrando entradas con la etiqueta similitud. Mostrar todas las entradas
Mostrando entradas con la etiqueta similitud. Mostrar todas las entradas

2 de febrero de 2022

Aplicaciones y limitaciones de AlphaFold2

Hola,

han pasado ya más de 6 meses desde que hablamos aquí de AlphaFold2 (si os fijáis en los comentarios fui pegando artículos relacionados), y entre tanto he ido descubriendo aplicaciones interesantes y una limitación importante. Aquí hablo muy brevemente de ellas.

1. Búsqueda de plegamientos parecidos. Si tienes una estructura o tal vez un modelo de una proteína y quieres saber a qué estructuras conocidas se parece, incluyendo las predicciones de AlphaFold2, puedes hacerlo pegando sus coordenadas en formato PDB en https://search.foldseek.com/search


2. Predicción de resíduos de proteínas que interaccionan con ADN. El algoritmo GraphSite (https://biomed.nscc-gz.cn/apps/GraphSite) es capaz de predecir resíduos de la interfaz proteína-DNA con mayor precisión que cualquier otro método probado en https://doi.org/10.1093/bib/bbab564


3. AlphaFold2 sobreestima el plegamiento de proteínas cortas. En una evaluación reciente contra la colección AntiFam , que contiene proteínas que se cree son errores de anotación, se ha observado que AlphaFold2 tiene una pequeña tendencia (6/131) a dar puntuaciones altas (pLDDT > 80) a secuencias menores de 100 resíduos. Hasta que sepamos más es buena idea ser especialmente cauteloso con secuencias cortas.


Hasta pronto,

Bruno

 

17 de mayo de 2019

agrupando secuencias de proteínas con Linclust

Hola,
de vez en cuando tengo que revisar un viejo script para actualizar mi copia local del Protein Data Bank (PDB). El programa descarga solamente las estructuras que han cambiado mediante rsync y otros ficheros de un servidor FTP.
Sin embargo, las rutas a las respectivas carpetas van cambiando y yo tengo que actualizarlas. En concreto, hoy habían cambiado las listas de secuencias no redundantes, que ahora se pueden encontrar en ftp://resources.rcsb.org/sequence/clusters

Leyendo descubro que en el PDB ahora agrupan sus secuencias usando MMseq2 / Linclust, dos métodos relacionados que calculan de manera muy eficiente la similitud entre secuencias a partir de su composición de K-meros con un alfabeto reducido, temas de los que ya hemos hablado por ejemplo aquí y aquí. Me centraré en Linclust.

Algoritmo de clustering de coste lineal. Fuente: https://www.nature.com/articles/s41467-018-04964-5

Según el banco de pruebas publicado por sus autores, a diferencia de otras alternativas, el algoritmo Linclust tiene un coste lineal pero un comportamiento parecido, con pérdidas controlables de sensibilidad. Consta de varias fases:
  1. Transformación de las secuencias originales a una alfabeto reducido de 13 letras. Obtienen resultados óptimos haciendo las siguientes simplificaciones: (L, M), (I, V), (K, R), (E, Q), (A, S, T), (N, D), (F, Y)
  2. Generación de una tabla de K-meros con K entre 10 y 14. De cada secuencia solamente guardan 20 K-meros, elegidos por su frecuencia alta con una función hash.
  3. Búsqueda de secuencias con idénticos K-meros
  4. Pre-clustering en varios pasos, de más a menos eficientes: distancia de Hamming con alfabeto completo, alineamientos locales sin y con gaps.
  5. Clustering voraz con las secuencias ordenadas por longitud
En sus pruebas Linclust es mucho más escalable, al ser lineal, que alternativas como CD-HIT o UCLUST, y obtiene buenos resultados para cortes de identidad entre 90 y 50%. Esto es ideal para exploraciones de metagenomas por ejemplo,
hasta pronto,
Bruno