#!/perl/bioinfo: Resultados de la búsqueda de alphafold

Mostrando las entradas para la consulta alphafold ordenadas por relevancia. Ordenar por fecha Mostrar todas las entradas

23 de julio de 2021

Alphafold2: estructuras de proteínas para todos los públicos

Hola,

el jueves pasado escribía aquí sobre RoseTTAFold, que ponía al alcance de los programadores una potente herramienta para predecir la estructura de cualquier proteína que tenga suficientes secuencias parecidas en los archivos. Unas horas más tarde me enteré de que su principal competidor, AlphaFold2, del que hemos escrito aquí, aquí y aquí , había hecho también sus deberes y publicaba sus modelos neuronales para predecir el plegamiento de secuencias de aminoácidos. Hay muchos hilos en Twitter, como éstos: 1 y 2 .

En un artículo en Nature repasan sus resultados en CASP14, como su notable precisión de 1.5 Å de RMSD para todos los átomos modelados, y muestran que esos resultados excelentes se sostienen en gran medida en un conjunto de 3144 estructuras recientemente publicadas en el Protein Data Bank tras descartar las estructuras conocidas con % identidad de secuencia > 40. El siguiente vídeo resume el proceso de predicción de una secuencia con múltiples dominios y 863 aminoácidos. Recuerdo que la única información de partida es la secuencia de aminoácidos y un alineamiento múltiple de esa secuencia con otras secuencias no redundantes de proteínas homólogas:

Fuente: https://www.nature.com/articles/s41586-021-03819-2

Alphafold2 no es perfecto, ya que en la validación contra el PDB hay un en torno a un 25% de predicciones con valores de RMSD elevados, pero en la mayor parte de los casos es excelente:

Fuente: https://www.nature.com/articles/s41586-021-03819-2

Una de las fortalezas del método es que es capaz de estimar bien la calidad los modelos que genera (ver Figura 2b de https://www.nature.com/articles/s41586-021-03828-1). Entre las limitaciones reseñadas por los autores del trabajo, destacan:

1) La calidad de las predicciones cae de manera significativa si el alineamiento múltiple de secuencias homólogas a la de interés tiene una profundidad < 30 (leer más aquí).

2) Las estructuas de Alphafold son de menor calidad para dominios poco compactos, con pocos contactos, como los dominios puente. Esto contrasta con las buenas prestaciones observadas (3) para predecir estructuras cuaternarias de homómeros.

Para los que queráis probarlo hay varias opciones:

i) El contenedor Docker descrito en https://github.com/deepmind/alphafold que ojo, requiere 2.2TB de espacio si instalas todas las bases de datos.

ii) Un cuaderno Colab con un predictor simplificado en https://colab.research.google.com/github/deepmind/alphafold/blob/main/notebooks/AlphaFold.ipynb

iii) Las predicciones ya disponibles en UniProt para un total de 21 especies (https://alphafold.ebi.ac.uk/download), incluyendo 4 plantas (Arabidopsis thaliana, soja, arroz y maíz). Puedes leer más en 4, 5 y 6 y 7.

Hasta pronto,

Bruno

16 de julio de 2021

RoseTTAFold: modelado Open Source de proteínas por aprendizaje profundo

Hola,

a finales del año pasado comentaba aquí que el algoritmo propietario AlphaFold suponía un antes y un después en la predicción estructural de proteínas, a la vista de sus resultados en el experimento colectivo CASP14. Muy brevemente, AlphaFold supone un paso de gigante para predecir con moderada resolución la estructura de proteínas que no se parecen en secuencia a otras ya conocidas, es decir, con identidades a nivel de aminoácidos < 20%. Su mayor pega, que a día de hoy no podemos probar AlphaFold con nuestras secuencias. Es posible que Google termine publicando el código y los pesos de sus redes neuronales, pero eso todavía no ha ocurrido.

Unos meses después estamos en una situación mucho mejor, ya que ayer se publicó en Science el método RoseTTAFold, desarrollado por el grupo de David Baker, uno de los contendientes más sólidos en CASP desde hace ya muchos años.

Arquitectura de RoseTTAFold y rendimiento en CASP14 y CAMEO. Figura tomada de https://science.sciencemag.org/content/early/2021/07/14/science.abj8754

En la figura se puede ver que RoseTTAFold se compone de varias redes neuronales interconectadas que se alimentan de datos en 1, 2 y 3 dimensiones y que están interconectadas. Los diagramas B y C resumen el rendimiento del nuevo algoritmo medido como el TM-score entre la predicción y la estructura experimental en dos conjuntos de datos, CASP14 y CAMEO (69 secuencias).

Aunque RoseTTAFold parece todavía inferior a AlphaFold, si supone un paso adelante enorme para todos aquellos investigadores (académicos, eso sí) que quieran modelar sus propias secuencias, ya que el código, los pesos de los modelos entrenados y las instrucciones de uso están disponibles en https://github.com/RosettaCommons/RoseTTAFold .

Un saludo,

Bruno

15 de agosto de 2019

progreso en la predicción estructural de proteínas

Hola,
hace unos meses contaba aquí el algoritmo AlphaFold para plegar proteínas por predicción de distancias entre residuos, que había escuchado de boca de uno de sus creadores. Hoy me he encontrado con la evaluación oficial de estructura terciaria del experimento CASP13, donde AlphaFold se destacó como mejor grupo predictor. La conclusión se resume en esta figura:

Fuente: https://onlinelibrary.wiley.com/doi/10.1002/prot.25787

Parece seguro decir que en CASP13 ha habido un salto en la calidad de las predicciones respecto a ediciones previas, a pesar de que la dificultad en esta edición es comparable a la anterior (Tabla 1 del artículo de Abriata et al de la figura). Los evaluadores achacanla mejoría precisamente a que más allá de predecir contactos, algunos de los mejores predictores, como A7D (AlphaFold), MULTICOM o RaptorX han empezado a predecir directamente distancias entre residuos, algo para la cual hacen falta alineamientos múltiples de secuencia muy profundos. Hasta luego,
Bruno

7 de febrero de 2019

Introducción a AlphaFold

Hola,
vengo de escuchar a Andrew W Senior en el auditorio Kendrew del EMBL-EBI hablar de cómo funciona AlphaFold para predecir la estructura de proteínas. Como titulaba en Diciembre, todavía no sabemos plegar proteínas, pero cada vez tenemos más información en el Protein Data Bank (del orden de 150K estructuras) para poder predecir distancias entre residuos y ángulos diedros.


Fuente: https://deepmind.com/blog/alphafold

Trataré de resumir lo que nos ha contado antes de que salga el artículo, pero ojo, ha advertido que el código no piensan publicarlo por ahora. Su sistema comprende varios módulos que se ejecutan secuencialmente:

1) Extración de correlaciones evolutivas entre residuos de una secuencia de aminoácidos en forma de modelo de Potts (CCMpred) a partir de perfiles de secuencias homólogas obtenidas con PSIBLAST o HHblits, como hace HHpred.

2) Red neuronal profunda, con al menos dos variantes:
2.1) predicción de distancias reales entre C-betas, no contactos, a partir de histogramas precalculados en el rango de 2 a 22 Ansgtrom. En esto se parecen a RaptorX.
2.2) predicción de ángulos diedros phi y psi

NOTA1: Las predicciones de distancias les permiten asignar estructura secundaria con una precisión Q3 del 84% usando las estructuras de CASP11.

NOTA2: Parten la matriz de contactos en submatrices (crops) que comprenden siempre un trozo de la diagonal principal y esa manera, y con la estructura secundaria, propagan localmente las restricciones de distancias entre residuos cercanos.

3) Diferenciación del potencial de distancias/ángulos por métodos de minimización de gradientes. Lo hacen partiendo la secuencia en dominios o con la secuencia entre y observan que la segunda manera funciona mejor.

4) Relajan el esqueleto obtenido y le añaden cadenas laterales completas con Rosetta. En sus manos esto no mejora el modelo de manera significativa.

Hasta luego,
Bruno

30 de septiembre de 2024

protocolo para modelar parejas de proteínas con AlphaFold

Hace un año Homma, Huang y van der Hoorn publicaron en Nature Comms sus experimentos modelando complejos de proteínas híbridos planta:patógeno con AlphaFold-Multimer (AFM). En concreto, encontraron una manera de encontrar SSPs, proteínas pequeñas secretadas por microorganismos patógenos de plantas que se unen de manera específica a proteínas de la planta diana. En total, su cribado con AFM consideró las combinaciones de 1879 SSPs de bacterias y hongos patógenos del tomate y 6 proteasas endógenas que participan en la defensa frente a la infección:

Modelos de parejas de proteínas planta:patógeno modelados con AFM que superan el umbral 0.75, tomada de https://doi.org/10.1038/s41467-023-41721-9.

De 376 complejos proteína:proteína prometedores, elegidos por sus puntuaciones ipTM+pTM, se centraron en 15 complejos donde SSPs sin anotar bloqueaban los sitios activos de quitinasas y proteasas de tomate. De esos, encontraron confirmación experimental para 4.

Dado el interés que despertaron estos resultados, los mismos autores han publicado ahora un protocolo (https://doi.org/10.1111/tpj.16969) para hacer este tipo de predicciones usando ColabFold en la Web y localmente (leer más en blog).

El protocolo tiene los siguientes pasos:

Start with ColabFold online
Use a computing cluster for screens
Small sequences model faster
Curate the input sequences
Remove irrelevant domains
Include positive controls
Include negative controls
Recycle multiple sequence alignments (MSAs)
Control data storage
Separate CPU from GPU-intense steps
Try to get MSA >100
Evaluate the predicted scores
Beware of typical AFM errors
Beware of false negatives
Beware of false positives
Explore hits manually
Categorise hits in classes

Que se resumen en el siguiente diagrama de flujo:

Details are in the caption following the image

Hasta pronto,

Bruno

30 de noviembre de 2020

AlphaFold resuelve el plegamiento de proteínas (en CASP14)

Hola,

estos días está transcurriendo CASP14, la edición 14 del certámen de predicción de estructura de proteínas. La última vez que hablamos de CASP en este blog fue en esta entrada del año pasado. Por recordar un poco, en CASP participan grupos de investigación de todo el mundo que tratan de modelar un conjunto de secuencias de proteínas cuyas estructuras se han resuelto experimentalmente, pero que solamente se publican despúes de la temporada de predicción. Por tanto, los grupos y su algoritmos trabajan relativamente a ciegas en esas predicciones.

Digo relativamente porque en realidad se apoyan en la creciente colección de estructuras conocidas del PDB, del orden 10E5, y en las millones de secuencias de proteínas conocidas (del orden 10E8). Por esa razón unas secuencias son más fáciles, porque se parecen a otras conocidas, y otras más difíciles, porque no se parecen demasiado a nada conocido.

En la edición CASP14 había un total de 92 secuencias de aminoácidos, cada una correspondiente a un dominio. La siguiente figura, obtenida de https://predictioncenter.org/casp14/zscores_final.cgi resume los resultados, mostrando que los dos mejores grupos de la última década (Baker y Zhang) han sido ampliamente superados por AlphaFold2 (columna de la izquierda, del que ya habíamos hablado aquí):

En definitiva, la combinación de estrategias de aprendizaje automático de AlphaFold2, descritas en https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology, han superado con mucho a todos los expertos que más saben de este problema tan difícil.

Qué opinan los expertos? Aquí tenéis por ejemplo a Torsten Schwede , Mohammed AlQuraishi o a Alfonso Valencia.

Supongo que no estará de más esperar a CASP15 para comprobar que este progreso se mantiene en el tiempo, pero por ahora parece que lo han resuelto. Solamente nos queda exigir a DeepMind, la matriz de AlphaFold2, que libere su predictor para fines académicos y de esa manera devuelvan a la comunidad lo que de ella han extraído en estos últimos años.

Un saludo,

Bruno

PD Nota importante: como recuerda Alfonso Valencia en https://twitter.com/Alfons_Valencia/status/1333682759366303745, no es lo mismo predecir la estructura que la reacción de plegamiento

8 de junio de 2023

Janet Thornton, se jubila la madre de la bioinformática estructural

Hola, ayer escuché por videoconferencia un rato de la última charla que dio Janet Thornton en el EMBL-European Bioinformatics Institute antes de jubilarse.

fuente: EMBL

Janet ha sido sin duda una de las madres de la bioinformática, sobre todo en el área de la bioinformática estructural. Por ejemplo, tiene su propio modelo de sustitución de aminoácidos para hacer filogenias (JTT). Podéis ver su enorme influencia en la literatura en EuropePMC, o las palabras que le dedican Alfonso Valencia o Roland Dunbrack. Entre la larga lista de discípulos están por ejemplo David Jones (la J del modelo JTT, parte del equipo de AlphaFold y examinador de mi tesis), Christine Orengo o Nick Luscombe, todos ellos autores a los que he citado innumerables veces.

Yo la conocí personalmente en un congreso en Brasil, el ISMB2006, donde tuve la fortuna de tener una reunión cara a cara con ella donde me dio consejos y ánimos para mi incipiente carrera en la ciencia. Hace 4 años volvimos a coincidir en la cafetería del EMBL-EBI y recordando ese rato me dijo algo como "no te ha ido tan mal, verdad?".

En su charla recordaba observaciones que ella y su grupo habían hecho en las últimas décadas sobre la lista de aminoácidos importantes para explicar la catálisis de las enzimas. Eso le dio pie a repasar los resultados de los últimos años de trabajo, liderados por Antonio Ribeiro, donde se han centrado en sistematizar las reglas y en medir de manera objetiva la similitud entre mecanismos enzimáticos, ganando capacidad predictiva por el camino (ver por ejemplo https://europepmc.org/article/MED/36659981 y https://europepmc.org/article/PPR/PPR540240). Terminó esta parte de la charla, la última que pude seguir, diciendo que lo más difícil de jubilarse era no poder planear nuevos experimentos y estudios para todo lo que queda por saber. Creo que esa curiosidad es el motor para muchos de nosotros, no tengo nada más que añadir,

hasta pronto,

Bruno

17 de diciembre de 2018

no sabemos plegar proteínas (CASP13)

Hola,
en la última entrada de este año, escrita desde Hinxton, UK, me gustaría hablar de CASP13, la edición más reciente del experimento colectivo de predicción a ciegas de estructuras de proteínas (que ya habíamos mencionado aquí).

Entre que esta ocasión ha habido un salto de capacidad predictiva y que el aprendizaje automático está de actualidad, este año CASP ha salido en todas partes: en Science, en The Guardian y hasta en El País.

Yo me centraré aquí en las opiniones de expertos participantes de CASP. Pero antes, para que sepáis de qué hablo, podéis ver los resultados oficiales en predictioncenter.org/casp13

Empezaré por esta figura de Torsten Schwede, que muestra el salto de calidad de las mejores predicciones a lo largo de la historia de CASP. El ajuste entre un modelo y su estructura experimental se calcula con la función GDT_TS:

Fuente: https://www.sib.swiss/about-sib/news/10307-deep-learning-a-leap-forward-for-protein-structure-prediction

Otra visión de los mismos resultados nos la da Mohammed AlQuraishi, mostrando la separación entre los mejores grupos/predictores en ediciones de CASP:

Fuente: https://moalquraishi.wordpress.com/2018/12/09/alphafold-casp13-what-just-happened/

En ambos casos podemos ver una tendencia ascendente que habrá que ver si se mantiene en el tiempo o, si en cambio, se debe a que las secuencias problema de CASP13 eran más fáciles que otras veces.

Qué ha pasado en los últimos años? Seguramente la suma de muchas cosas. Por ejemplo, la llegada del equipo DeepMind en esta edad de oro del aprendizaje automático. Es curioso, porque las redes neuronales se han estado aplicando en CASP desde los años noventa para la predicción de estructura secundaria; sin embargo, desde 2011 sabemos que para muchas familias de proteínas tenemos tantas secuencias diferentes que podemos predecir los contactos que se dan entre las partes plegadas de la proteína.


Fuente: https://doi.org/10.1371/journal.pone.0028766

Por tanto, no sabemos cómo se pliegan las proteínas todavía, pero algunos grupos de investigación han sabido explotar la información evolutiva implícita en alineamientos múltiples de proteínas para saber qué tipo de plegamiento adoptan finalmente. Muchos de esos grupos comparten su código fuente (por ejemplo http://evfold.org/evfold-web/evfold.do), a ver si lo hace DeepMind pronto,

hasta el año que viene!

Bruno

14 de marzo de 2025

asamblea 2025 conexiónBCB

Esta semana nos hemos reunido en la sede central del CSIC la gente de la https://conexion-bcb.csic.es . Ha estado muy bien sentirnos parte de esta comunidad. De la Estación Experimental de Aula Dei-CSIC hemos ido Sara Herrera y yo. Cuelgo aquí mis notas, tenéis un hilo con fotos en https://bsky.app/profile/did:plc:myfqcxmlvdxk2nrywhpxewol

Ana Conesa y el resto de la junta de la conexión durante el repaso al cumplimiento de objetivos.

Deciphering the impact of genomic structural variants with POSTRE (Víctor Sánchez Naya, IBBTEC) https://doi.org/10.1093/nar/gkad225 , currently human only, considers genes within TADs [~LD blocks], TADs are broken/modified by SV, expression and regulation change, podría aplicarse a otras especies que tengan los mismos datos disponibles.

Application of chemo-informatics and AI tools to drug design: success stories (Ana Martínez, Carmen Gil, CIB) hacen modelado de proteínas y docking, también IA (regression, dimension reduction, clustering, classif, SMILE, mol graphs, NN).

Application of lipidomics and transcriptomics techniques for the study of the interaction of West Nile virus and its host (Patricia Mingo, INIA) trabajan con personas y ratones y buscan marcadores de enfermedad por ejemplo en hígado y cerebro, carga viral se dispara a los 7d, también ven cambios de expresión al tratar con fármacos que bajan neuroinflamación.

Ramiro Logares, ICM, talks about microbes in the ocean and the dimensions of their variability, that they approach with metagenomics and MAGs. The have 3 running experiments (including global TARA Oceans and Hesperides, down to -400m) and found that populations (Fst clusters) diverge more with distance than time. Some populations are related to yearly seasons.The tag adaptive genes by computing pN/pS across populations. He explains that defining populations os tricky due to their dynamic nature. Usa recursos de CESGA y codirigen la conexión microbioma: https://bsky.app/profile/csic-vaact.bsky.social/post/3lhe4yqploc2u

Structural modeling of proteins and their interactions in the AI era (Juan Fdez. Recio, ICVV, https://model3dbio.csic.es). Su grupo desarrolla métodos para el modelado de proteínas y sus complejos (el interactoma) como pyDock (https://pubmed.ncbi.nlm.nih.gov/17444519) y pyDockDNA (https://doi.org/10.3389/fmolb.2022.988996). Los han aplicado en múltiples colaboraciones. AlphaFold lo ha cambiado todo, ahora tenemos modelos para 99% de las proteínas humanas. Sin embargo, el panorama no es tan claro para el interactoma, sigue habiendo complejos muy difíciles. Ahora usan pyDock para evaluar modelos AF. Ahora que los grupos de docking han integrado AF-multimer, su capacidad predictiva ha mejorado de manera significativa, a pesar de los ejemplos irresolubles. Menciona también el problema del problema de mutantes, para el que desarrollaron https://life.bsc.es/pid/skempi2 , que podría ser parecido a foldX para PPIs.

Epigenomic signatures of cancer and cell identity (Daniel Rico, CABIMER). Con Miguel A Fortuna definen el epigenoma como la fracción ejecutable del genoma. Usan AVIDA (https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1005414). Quieren clasificar 'chromatypes' en genomas humanos. Más artículos recientes aquí. Toca el tema del cambio de expresión de (onco) genes tras la translocación de fragmentos que contienen enhancers.

Javier de las Rivas (CIC) talks about methods for bulk and single cell analysis of myeloid cell lineages (cell mix deconvolution, RNAseq https://doi.org/10.3390/ijms26020805).

Algunos enlaces de las Flash Talks
código para genómica de poblaciones de https://github.com/sramosonsins
para modelar proteínas de membrana: https://academic.oup.com/bioinformatics/article/40/11/btae662/7879340
BEHAV3D: https://www.nature.com/articles/s41596-024-00972-6

Application of supervised machine learning in the exploration and resolution of evolutionary scenarios (Isabel Sanmartín, RJB). Why some lineages are species rich? what drives diversity? Switch to IA caused by megaphylogenies. Usan CNNs snps + traits y num especies para entrenar, cita https://onlinelibrary.wiley.com/doi/abs/10.1111/1755-0998.13534. She also explains that trees need to be ladderized, transversed and vectorized for DL, see for instance https://doi.org/10.1101/2024.12.13.628187 or https://arxiv.org/html/2405.07110v1

Notas de otras conexiones

En https://aihub.csic.es tienen curso como https://datalab-icmat.github.io/courses_stats.html
En https://pti-cienciadigital.csic.es usan recursos de https://eosc.eu

Justo antes de terminar hemos discutido en la asamblea opciones para que la conexión siga con vida a partir de 2026, tenemos trabajo por delante.

Hasta pronto!

26 de febrero de 2024

Cómo modelar proteínas con colabfold en tu GPU local

Hola,

hoy explicaré cómo he configurado ColabFold para ejecutarlo en hardware local, en concreto en una máquina con Ubuntu 20.04 que tiene una CPU Xeon CascadeLake Silver 4210R y una tarjeta gráfica NVIDIA RTX 3090. Puedes leer más sobre AlphaFold y ColabFold aquí o en este vídeo.

1) Necesité actualizar cuda, en concreto con la versión 11.8, algo que hice como se explica aquí:

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/3bf863cc.pub
sudo add-apt-repository "deb http://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /"
sudo apt update
sudo apt install cuda-toolkit-11-8

2) Tras reinicar, actualicé la variable de ambiente $PATH añadiendo estas líneas a mi fichero .bashrc:

export PATH=/usr/local/cuda/bin:$PATH

export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

3) Seguí las instrucciones para Linux en https://github.com/YoshitakaMo/localcolabfold?tab=readme-ov-file#for-linux . En mi caso tardó unos pocos minutos y sumó 15G al disco duro.

4) Probé que todo funciona con un fichero FASTA qee contiene varias secuencias, guardando los resultados en la carpeta multi/ :

colabfold_batch test.multi.faa multi/

Ahora resumo los resultados que obtuve:

Por defecto colabfold_batch se conecta a https://api.colabfold.com para hacer búsquedas de secuencias similares y construir alineamientos múltiples (MSA) en un formato similar a FASTA que se llama a3m. Por tanto esa parte del trabajo no se hace localmente y tendrás que usarla con medida. Si quieres saber qué versión de las bases de datos de secuencias de ColabFold estás usando puedes consultar https://github.com/sokrypton/ColabFold/wiki/MSA-Server-Database-History
Las primeras secuencias que usé para construir modelos en formato PDB tenían entre 114 y 162 resíduos y tardaban un par de minutos, pego aquí el log:
2024-02-26 13:05:56,639 Running colabfold 1.5.5 (d36504fad856a0e1df511c5b0434957707030319)
2024-02-26 13:05:56,862 Running on GPU
2024-02-26 13:05:57,354 Found 5 citations for tools or databases
2024-02-26 13:05:57,355 Query 1/29: test1 (length 114)
2024-02-26 13:05:58,348 Sleeping for 6s. Reason: PENDING
2024-02-26 13:06:05,308 Sleeping for 10s. Reason: RUNNING
2024-02-26 13:06:30,822 Padding length to 124
2024-02-26 13:06:58,791 alphafold2_ptm_model_1_seed_000 recycle=0 pLDDT=67.9 pTM=0.31
2024-02-26 13:07:00,321 alphafold2_ptm_model_1_seed_000 recycle=1 pLDDT=68.8 pTM=0.329 tol=9.09
2024-02-26 13:07:01,845 alphafold2_ptm_model_1_seed_000 recycle=2 pLDDT=69.7 pTM=0.358 tol=2.28
2024-02-26 13:07:03,373 alphafold2_ptm_model_1_seed_000 recycle=3 pLDDT=69.8 pTM=0.367 tol=3.04
2024-02-26 13:07:03,374 alphafold2_ptm_model_1_seed_000 took 32.6s (3 recycles)
2024-02-26 13:07:04,871 alphafold2_ptm_model_2_seed_000 recycle=0 pLDDT=71.2 pTM=0.308
2024-02-26 13:07:06,323 alphafold2_ptm_model_2_seed_000 recycle=1 pLDDT=71.6 pTM=0.346 tol=2.14
2024-02-26 13:07:07,848 alphafold2_ptm_model_2_seed_000 recycle=2 pLDDT=71.7 pTM=0.358 tol=2.38
2024-02-26 13:07:09,345 alphafold2_ptm_model_2_seed_000 recycle=3 pLDDT=71.8 pTM=0.365 tol=1.31
2024-02-26 13:07:09,346 alphafold2_ptm_model_2_seed_000 took 5.9s (3 recycles)
2024-02-26 13:07:10,984 alphafold2_ptm_model_3_seed_000 recycle=0 pLDDT=68.1 pTM=0.298
2024-02-26 13:07:12,529 alphafold2_ptm_model_3_seed_000 recycle=1 pLDDT=68.6 pTM=0.34 tol=4.11
2024-02-26 13:07:13,992 alphafold2_ptm_model_3_seed_000 recycle=2 pLDDT=69.2 pTM=0.36 tol=2.49
2024-02-26 13:07:15,484 alphafold2_ptm_model_3_seed_000 recycle=3 pLDDT=68.8 pTM=0.367 tol=1.67
2024-02-26 13:07:15,485 alphafold2_ptm_model_3_seed_000 took 6.1s (3 recycles)
2024-02-26 13:07:16,987 alphafold2_ptm_model_4_seed_000 recycle=0 pLDDT=66.1 pTM=0.289
2024-02-26 13:07:18,435 alphafold2_ptm_model_4_seed_000 recycle=1 pLDDT=66.8 pTM=0.283 tol=5.61
2024-02-26 13:07:19,933 alphafold2_ptm_model_4_seed_000 recycle=2 pLDDT=67.7 pTM=0.298 tol=1.03
2024-02-26 13:07:21,444 alphafold2_ptm_model_4_seed_000 recycle=3 pLDDT=67.9 pTM=0.318 tol=2.04
2024-02-26 13:07:21,445 alphafold2_ptm_model_4_seed_000 took 5.9s (3 recycles)
2024-02-26 13:07:22,931 alphafold2_ptm_model_5_seed_000 recycle=0 pLDDT=66.8 pTM=0.322
2024-02-26 13:07:24,403 alphafold2_ptm_model_5_seed_000 recycle=1 pLDDT=68.2 pTM=0.345 tol=9.46
2024-02-26 13:07:25,860 alphafold2_ptm_model_5_seed_000 recycle=2 pLDDT=68.8 pTM=0.354 tol=2.3
2024-02-26 13:07:27,342 alphafold2_ptm_model_5_seed_000 recycle=3 pLDDT=69.4 pTM=0.358 tol=1.58
2024-02-26 13:07:27,342 alphafold2_ptm_model_5_seed_000 took 5.9s (3 recycles)
2024-02-26 13:07:27,369 reranking models by 'plddt' metric
2024-02-26 13:07:27,369 rank_001_alphafold2_ptm_model_2_seed_000 pLDDT=71.8 pTM=0.365
2024-02-26 13:07:27,369 rank_002_alphafold2_ptm_model_1_seed_000 pLDDT=69.8 pTM=0.367
2024-02-26 13:07:27,370 rank_003_alphafold2_ptm_model_5_seed_000 pLDDT=69.4 pTM=0.358
2024-02-26 13:07:27,370 rank_004_alphafold2_ptm_model_3_seed_000 pLDDT=68.8 pTM=0.367
2024-02-26 13:07:27,370 rank_005_alphafold2_ptm_model_4_seed_000 pLDDT=67.9 pTM=0.318
2024-02-26 13:07:28,679 Query 2/29: test2 (length 120)
2024-02-26 13:07:29,695 Sleeping for 9s. Reason: PENDING
2024-02-26 13:07:39,667 Sleeping for 9s. Reason: PENDING
2024-02-26 13:07:49,628 Sleeping for 6s. Reason: PENDING
2024-02-26 13:07:56,610 Sleeping for 6s. Reason: PENDING
2024-02-26 13:08:03,608 Sleeping for 5s. Reason: PENDING
2024-02-26 13:08:09,564 Sleeping for 6s. Reason: PENDING
2024-02-26 13:08:16,534 Sleeping for 7s. Reason: PENDING
2024-02-26 13:08:24,518 Sleeping for 5s. Reason: PENDING
2024-02-26 13:08:30,471 Sleeping for 7s. Reason: PENDING
2024-02-26 13:08:38,498 Sleeping for 5s. Reason: PENDING
2024-02-26 13:08:44,459 Sleeping for 6s. Reason: PENDING
2024-02-26 13:08:51,412 Sleeping for 9s. Reason: PENDING
2024-02-26 13:09:01,412 Sleeping for 9s. Reason: PENDING
2024-02-26 13:09:11,370 Sleeping for 8s. Reason: PENDING
2024-02-26 13:09:20,337 Sleeping for 8s. Reason: PENDING
2024-02-26 13:09:29,316 Sleeping for 6s. Reason: RUNNING
2024-02-26 13:09:39,703 Padding length to 124
2024-02-26 13:09:41,194 alphafold2_ptm_model_1_seed_000 recycle=0 pLDDT=73.9 pTM=0.55
2024-02-26 13:09:42,664 alphafold2_ptm_model_1_seed_000 recycle=1 pLDDT=73.8 pTM=0.549 tol=3.08
2024-02-26 13:09:44,110 alphafold2_ptm_model_1_seed_000 recycle=2 pLDDT=73.6 pTM=0.549 tol=1.59
2024-02-26 13:09:45,593 alphafold2_ptm_model_1_seed_000 recycle=3 pLDDT=74.4 pTM=0.555 tol=1.67
2024-02-26 13:09:45,593 alphafold2_ptm_model_1_seed_000 took 5.9s (3 recycles)
2024-02-26 13:09:47,073 alphafold2_ptm_model_2_seed_000 recycle=0 pLDDT=76.7 pTM=0.565
2024-02-26 13:09:48,523 alphafold2_ptm_model_2_seed_000 recycle=1 pLDDT=77.1 pTM=0.57 tol=0.571
2024-02-26 13:09:49,977 alphafold2_ptm_model_2_seed_000 recycle=2 pLDDT=76.7 pTM=0.569 tol=0.958
2024-02-26 13:09:51,421 alphafold2_ptm_model_2_seed_000 recycle=3 pLDDT=76.9 pTM=0.572 tol=0.881
2024-02-26 13:09:51,421 alphafold2_ptm_model_2_seed_000 took 5.8s (3 recycles)
2024-02-26 13:09:52,877 alphafold2_ptm_model_3_seed_000 recycle=0 pLDDT=75.6 pTM=0.542
2024-02-26 13:09:54,315 alphafold2_ptm_model_3_seed_000 recycle=1 pLDDT=75.9 pTM=0.548 tol=1.52
2024-02-26 13:09:55,763 alphafold2_ptm_model_3_seed_000 recycle=2 pLDDT=75.9 pTM=0.552 tol=1.69
2024-02-26 13:09:57,218 alphafold2_ptm_model_3_seed_000 recycle=3 pLDDT=75.8 pTM=0.555 tol=0.883
2024-02-26 13:09:57,219 alphafold2_ptm_model_3_seed_000 took 5.8s (3 recycles)
2024-02-26 13:09:58,705 alphafold2_ptm_model_4_seed_000 recycle=0 pLDDT=73.9 pTM=0.56
2024-02-26 13:10:00,177 alphafold2_ptm_model_4_seed_000 recycle=1 pLDDT=75.1 pTM=0.57 tol=2.2
2024-02-26 13:10:01,620 alphafold2_ptm_model_4_seed_000 recycle=2 pLDDT=75.4 pTM=0.571 tol=1.78
2024-02-26 13:10:03,076 alphafold2_ptm_model_4_seed_000 recycle=3 pLDDT=75.7 pTM=0.575 tol=2.04
2024-02-26 13:10:03,077 alphafold2_ptm_model_4_seed_000 took 5.8s (3 recycles)
2024-02-26 13:10:04,572 alphafold2_ptm_model_5_seed_000 recycle=0 pLDDT=75.2 pTM=0.573
2024-02-26 13:10:06,026 alphafold2_ptm_model_5_seed_000 recycle=1 pLDDT=76.2 pTM=0.585 tol=2.12
2024-02-26 13:10:07,498 alphafold2_ptm_model_5_seed_000 recycle=2 pLDDT=76.2 pTM=0.587 tol=1.44
2024-02-26 13:10:08,958 alphafold2_ptm_model_5_seed_000 recycle=3 pLDDT=76.6 pTM=0.589 tol=1.21
2024-02-26 13:10:08,959 alphafold2_ptm_model_5_seed_000 took 5.9s (3 recycles)
2024-02-26 13:10:08,986 reranking models by 'plddt' metric
2024-02-26 13:10:08,987 rank_001_alphafold2_ptm_model_2_seed_000 pLDDT=76.9 pTM=0.572
2024-02-26 13:10:08,987 rank_002_alphafold2_ptm_model_5_seed_000 pLDDT=76.6 pTM=0.589
2024-02-26 13:10:08,987 rank_003_alphafold2_ptm_model_3_seed_000 pLDDT=75.8 pTM=0.555
2024-02-26 13:10:08,987 rank_004_alphafold2_ptm_model_4_seed_000 pLDDT=75.7 pTM=0.575
2024-02-26 13:10:08,987 rank_005_alphafold2_ptm_model_1_seed_000 pLDDT=74.4 pTM=0.555
2024-02-26 13:10:10,274 Query 3/29: test3 (length 162)
2024-02-26 13:10:11,241 Sleeping for 8s. Reason: PENDING
2024-02-26 13:10:20,230 Sleeping for 10s. Reason: PENDING
2024-02-26 13:10:31,195 Sleeping for 5s. Reason: RUNNING
2024-02-26 13:10:37,194 Sleeping for 6s. Reason: RUNNING
2024-02-26 13:10:44,153 Sleeping for 9s. Reason: RUNNING
2024-02-26 13:10:54,142 Sleeping for 10s. Reason: RUNNING
2024-02-26 13:11:05,109 Sleeping for 8s. Reason: RUNNING
2024-02-26 13:11:14,082 Sleeping for 6s. Reason: RUNNING
2024-02-26 13:11:21,030 Sleeping for 8s. Reason: RUNNING
2024-02-26 13:11:30,005 Sleeping for 9s. Reason: RUNNING
2024-02-26 13:11:39,984 Sleeping for 7s. Reason: RUNNING
2024-02-26 13:11:47,941 Sleeping for 10s. Reason: RUNNING
2024-02-26 13:11:58,903 Sleeping for 9s. Reason: RUNNING
2024-02-26 13:12:08,881 Sleeping for 5s. Reason: RUNNING
2024-02-26 13:12:14,891 Sleeping for 9s. Reason: RUNNING
2024-02-26 13:12:32,470 Padding length to 172
2024-02-26 13:13:00,100 alphafold2_ptm_model_1_seed_000 recycle=0 pLDDT=62.9 pTM=0.433
2024-02-26 13:13:02,186 alphafold2_ptm_model_1_seed_000 recycle=1 pLDDT=63.4 pTM=0.433 tol=8.27
2024-02-26 13:13:04,282 alphafold2_ptm_model_1_seed_000 recycle=2 pLDDT=64.1 pTM=0.431 tol=8.02
2024-02-26 13:13:06,403 alphafold2_ptm_model_1_seed_000 recycle=3 pLDDT=63.8 pTM=0.427 tol=8.51
2024-02-26 13:13:06,404 alphafold2_ptm_model_1_seed_000 took 33.9s (3 recycles)
2024-02-26 13:13:08,535 alphafold2_ptm_model_2_seed_000 recycle=0 pLDDT=60.2 pTM=0.417
2024-02-26 13:13:10,637 alphafold2_ptm_model_2_seed_000 recycle=1 pLDDT=61 pTM=0.423 tol=6.09
2024-02-26 13:13:12,742 alphafold2_ptm_model_2_seed_000 recycle=2 pLDDT=61.4 pTM=0.428 tol=3.33
2024-02-26 13:13:14,846 alphafold2_ptm_model_2_seed_000 recycle=3 pLDDT=61.2 pTM=0.425 tol=1.8
2024-02-26 13:13:14,846 alphafold2_ptm_model_2_seed_000 took 8.4s (3 recycles)
2024-02-26 13:13:16,979 alphafold2_ptm_model_3_seed_000 recycle=0 pLDDT=62 pTM=0.425
2024-02-26 13:13:19,099 alphafold2_ptm_model_3_seed_000 recycle=1 pLDDT=62.3 pTM=0.43 tol=7.21
2024-02-26 13:13:21,197 alphafold2_ptm_model_3_seed_000 recycle=2 pLDDT=61.9 pTM=0.426 tol=4.32
2024-02-26 13:13:23,303 alphafold2_ptm_model_3_seed_000 recycle=3 pLDDT=62.1 pTM=0.427 tol=5.17
2024-02-26 13:13:23,304 alphafold2_ptm_model_3_seed_000 took 8.4s (3 recycles)
2024-02-26 13:13:25,461 alphafold2_ptm_model_4_seed_000 recycle=0 pLDDT=60.5 pTM=0.418
2024-02-26 13:13:27,552 alphafold2_ptm_model_4_seed_000 recycle=1 pLDDT=60.8 pTM=0.417 tol=9.52
2024-02-26 13:13:29,658 alphafold2_ptm_model_4_seed_000 recycle=2 pLDDT=60.3 pTM=0.41 tol=9.23
2024-02-26 13:13:31,749 alphafold2_ptm_model_4_seed_000 recycle=3 pLDDT=60.5 pTM=0.411 tol=6.08
2024-02-26 13:13:31,750 alphafold2_ptm_model_4_seed_000 took 8.4s (3 recycles)
2024-02-26 13:13:33,905 alphafold2_ptm_model_5_seed_000 recycle=0 pLDDT=59.9 pTM=0.416
2024-02-26 13:13:36,038 alphafold2_ptm_model_5_seed_000 recycle=1 pLDDT=60.1 pTM=0.415 tol=9.96
2024-02-26 13:13:38,154 alphafold2_ptm_model_5_seed_000 recycle=2 pLDDT=59.7 pTM=0.409 tol=3.89
2024-02-26 13:13:40,252 alphafold2_ptm_model_5_seed_000 recycle=3 pLDDT=59.4 pTM=0.415 tol=11.4
2024-02-26 13:13:40,253 alphafold2_ptm_model_5_seed_000 took 8.5s (3 recycles)
2024-02-26 13:13:40,294 reranking models by 'plddt' metric
2024-02-26 13:13:40,294 rank_001_alphafold2_ptm_model_1_seed_000 pLDDT=63.8 pTM=0.427
2024-02-26 13:13:40,294 rank_002_alphafold2_ptm_model_3_seed_000 pLDDT=62.1 pTM=0.427
2024-02-26 13:13:40,294 rank_003_alphafold2_ptm_model_2_seed_000 pLDDT=61.2 pTM=0.425
2024-02-26 13:13:40,295 rank_004_alphafold2_ptm_model_4_seed_000 pLDDT=60.5 pTM=0.411
2024-02-26 13:13:40,295 rank_005_alphafold2_ptm_model_5_seed_000 pLDDT=59.4 pTM=0.415
Como ves el propio script espera cuando el servidor remoto está ocupado.
Para cada secuencia problema obtienes figuras como éstas:

Hasta pronto,

Bruno

PD Cuando acabes de instalar deberías tener algo similar en tu fichero $HOME/.bashrc:

export PATH=/usr/local/cuda/bin:$PATH

export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

export PATH="$HOME/colabfold/colabfold-conda/bin:$PATH"

Cuando no vayas a usar colabfold comenta estas líneas para usar perl y python del sistema

PD2 Me comentan colegas de ULiverpool que haciendo 800-900 MSAs al día en https://api.colabfold.com no han tenido problemas

PD3 Si no reconoce tu GPU mira posibles soluciones en https://github.com/YoshitakaMo/localcolabfold/issues/210

PD4: Puedes bloquear la versión de CUDA que hayas instalado con algo como:

sudo apt-mark hold cuda-toolkit-11-8

14 de octubre de 2024

premio Nobel en diseño y predicción de estructuras de proteínas

La semana pasada anunciaron el premio Nobel de química de 2024:

1/2 a David Baker, “for computational protein design”
1/2 a Demis Hassabis y John M. Jumper “for protein structure prediction”

O como se ve en la figura, por jugar con proteínas en 3D:


https://www.nobelprize.org/prizes/chemistry/2024/press-release

Lo celebro en el blog porque hemos sido lectores de sus trabajos, usuarios de sus herramientas y divulgadores de sus avances desde hace años. Por temática, este premio sigue seguramente a éste otro. Hay muchas cosas que comentar de este premio, iré por partes. Si no conocéis el campo podéis revisar el material que durante años he ido revisando en http://eead-csic-compbio.github.io/bioinformatica_estructural .

En primer lugar, el grupo de David Baker ha sido un héroe del experimento CASP desde hace décadas y ya en 2011 le ponía como candidato a este premio. En la edición de 2003 (CASP5), en la que participé como parte de mi tesis, ya fueron los mejores en la categoría de nuevos plegamientos con el software Rosetta, por entonces escrito en FORTRAN. Para mi ha sido increíble ver cómo su grupo ha estado al frente todos estos años, incluso cuando AlphaFold (AF) les superó, ya en CASP13 y CASP14. A pesar de ello, nadie les ha superado diseñando proteínas y comprobando experimentalmente, por cristalografía y NMR, que funcionaban como esperaban. La suya ha sido sin duda una larga y exitosa carrera, de la que podéis leer más en inglés por ejemplo en el resumen de la Academia Sueca o en su lista de publicaciones.

En segundo lugar, el premio se centra en el trabajo que llevó a producir el predictor AF2, del que hemos hablado largo y tendido en este blog, por ejemplo en la reciente entrada sobre un protocolo para modelar parejas de proteínas. En este caso los ganadores son fundadores y empleados de deepmind.google. A diferencia de David Baker llevan poco tiempo trabajando este área, pero han sabido mirar a hombros de gigantes de una manera muy eficiente, aprovechando lo aprendido por la comunidad CASP, la creciente colección de estructuras de alta calidad disponibles en el Protein Data Bank y las inabarcables bases de datos de secuencias naturales. Sin duda éste es un ejemplo más de un gran logro científico obtenido como resultado de muchos proyectos de ciencia básica y abierta, de la que Demis Hassabis es defensor, como nosotros en el blog. Es una pena que la versión AF3, que da menos peso a las secuencias naturales, no sea de momento de acceso abierto, algo que ha generado mucha polémica.

Hasta pronto,

Bruno

PD Si os gustan los hilos de Twitter podéis ver éste desde la perspectiva de Ewan Birney