Hola de nuevo, y feliz año. En la primera entrada del año quería compartir una reseña que me he encontrado en https://doi.org/10.1073/pnas.2524802122 y que me ha recordado que en las JBI2025 me perdí la charla de Ana Rojas, donde creo que habló de este tema. Se resume en la siguiente figura:
![]() |
| Detección de convergencia molecular usando inmersiones de modelos de lenguaje proteico, tomada de https://doi.org/10.1073/pnas.2524802122. |
En el diagrama se explica cómo un modelo de lenguaje proteico (PLM), entrenado en grandes conjuntos de secuencias de aminoácidos para predecir letras enmascaradas, permiten calcular inmersiones o embeddings para cada posición de una secuencia. Éstos son vectores multidimensionales que capturan información sobre la evolución de cada posición de la secuencia y que finalmente se pueden usar para calcular distancias o similitudes entre proteínas. Lo interesante es que permiten ir más allá que los métodos convenciones de construcción de perfiles, como PSI-BLAST o HMMER, puesto que pueden encontrar huellas de convergencia indetectables por éstos (homólogos de murciélago y ballena en la figura, hay más ejemplos en artículo completo).
NOTA: sobre la traducción de embedding por parte de un matemático (Carlos Castro): "Es una inmersión. Se usa para representar un conjunto que puede verse como parte de otro. Se dice que hay una inmersión del conjunto pequeño en el grande.".

No hay comentarios:
Publicar un comentario