Mostrando entradas con la etiqueta proteínas. Mostrar todas las entradas
Mostrando entradas con la etiqueta proteínas. Mostrar todas las entradas

17 de mayo de 2019

agrupando secuencias de proteínas con Linclust

Hola,
de vez en cuando tengo que revisar un viejo script para actualizar mi copia local del Protein Data Bank (PDB). El programa descarga solamente las estructuras que han cambiado mediante rsync y otros ficheros de un servidor FTP.
Sin embargo, las rutas a las respectivas carpetas van cambiando y yo tengo que actualizarlas. En concreto, hoy habían cambiado las listas de secuencias no redundantes, que ahora se pueden encontrar en ftp://resources.rcsb.org/sequence/clusters

Leyendo descubro que en el PDB ahora agrupan sus secuencias usando MMseq2 / Linclust, dos métodos relacionados que calculan de manera muy eficiente la similitud entre secuencias a partir de su composición de K-meros con un alfabeto reducido, temas de los que ya hemos hablado por ejemplo aquí y aquí. Me centraré en Linclust.

Algoritmo de clustering de coste lineal. Fuente: https://www.nature.com/articles/s41467-018-04964-5

Según el banco de pruebas publicado por sus autores, a diferencia de otras alternativas, el algoritmo Linclust tiene un coste lineal pero un comportamiento parecido, con pérdidas controlables de sensibilidad. Consta de varias fases:
  1. Transformación de las secuencias originales a una alfabeto reducido de 13 letras. Obtienen resultados óptimos haciendo las siguientes simplificaciones: (L, M), (I, V), (K, R), (E, Q), (A, S, T), (N, D), (F, Y)
  2. Generación de una tabla de K-meros con K entre 10 y 14. De cada secuencia solamente guardan 20 K-meros, elegidos por su frecuencia alta con una función hash.
  3. Búsqueda de secuencias con idénticos K-meros
  4. Pre-clustering en varios pasos, de más a menos eficientes: distancia de Hamming con alfabeto completo, alineamientos locales sin y con gaps.
  5. Clustering voraz con las secuencias ordenadas por longitud
En sus pruebas Linclust es mucho más escalable, al ser lineal, que alternativas como CD-HIT o UCLUST, y obtiene buenos resultados para cortes de identidad entre 90 y 50%. Esto es ideal para exploraciones de metagenomas por ejemplo,
hasta pronto,
Bruno




20 de abril de 2015

curso de verano "Estructura y Función de Proteínas"


Cuándo y dónde: Del 6 al 10 de Julio en el Palacio de Congresos de Jaca, Huesca.

Información completa: https://cursosextraordinarios.unizar.es/curso/2015/estructura-y-funcion-de-proteinas-v-edicion


El curso está dirigido a:
  • Estudiantes de los últimos cursos de los grados en Química, Biología, Física, Farmacia, Medicina, Bioquímica, Biotecnología y Veterinaria.
  • Estudiantes de másteres de Bioquímica, Biología Molecular y Celular, Biotecnología y Tecnología de Alimentos.
  • Estudiantes de doctorado.
Profesionales en activo en cualquiera de las áreas de conocimiento y especialidades arriba indicadas, o de aquellas afines con interés por la Biofísica.

El curso tiene como objetivo mostrar y evaluar diferentes metodologías de uso habitual en los laboratorios de bioquímica y biofísica de proteínas con objeto de mejorar el conocimiento sobre la relación estructura y función en estas macromoléculas, sin olvidar sus posibles aplicaciones para mejorar nuestra sociedad. Como ponentes participan en el curso Profesores e Investigadores especialistas en cada una de las áreas de conocimiento.

Como novedad, respecto a ediciones anteriores, se propone el último día un taller de “Cómo escribir un artículo científico” y “de los entresijos, a nivel editorial, detrás de algunas revistas del grupo Elsevier” (uno de los gigantes en la actualidad en la publicación de textos científicos). Este taller es de interés para cualquier profesional en investigación y docencia.

Organizado por: Milagros Medina y José Luis Neira