30 de septiembre de 2024

protocolo para modelar parejas de proteínas con AlphaFold

Hace un año Homma, Huang y van der Hoorn publicaron en Nature Comms sus experimentos modelando complejos de proteínas híbridos planta:patógeno con AlphaFold-Multimer (AFM). En concreto, encontraron una manera de encontrar SSPs, proteínas pequeñas secretadas por microorganismos patógenos de plantas que se unen de manera específica a proteínas de la planta diana. En total, su cribado con AFM consideró las combinaciones de 1879 SSPs de bacterias y hongos patógenos del tomate y 6 proteasas endógenas que participan en la defensa frente a la infección:

figure 2
Modelos de parejas de proteínas planta:patógeno modelados con AFM que superan el umbral 0.75, tomada de https://doi.org/10.1038/s41467-023-41721-9.

De 376 complejos proteína:proteína prometedores, elegidos por sus puntuaciones ipTM+pTM, se centraron en 15 complejos donde SSPs sin anotar bloqueaban los sitios activos de quitinasas y proteasas de tomate. De esos, encontraron confirmación experimental para 4.

Dado el interés que despertaron estos resultados, los mismos autores han publicado ahora un protocolo (https://doi.org/10.1111/tpj.16969) para hacer este tipo de predicciones usando ColabFold en la Web y localmente (leer más en blog).

El protocolo tiene los siguientes pasos:

  1. Start with ColabFold online
  2. Use a computing cluster for screens
  3. Small sequences model faster 
  4. Curate the input sequences
  5. Remove irrelevant domains
  6. Include positive controls
  7. Include negative controls
  8. Recycle multiple sequence alignments (MSAs)
  9. Control data storage
  10. Separate CPU from GPU-intense steps
  11. Try to get MSA >100
  12. Evaluate the predicted scores
  13. Beware of typical AFM errors
  14. Beware of false negatives
  15. Beware of false positives
  16. Explore hits manually
  17. Categorise hits in classes
Que se resumen en el siguiente diagrama de flujo:

Details are in the caption following the image

 

Hasta pronto,

Bruno


24 de julio de 2024

job offer MMT24-EEAD-01-01 "High resolution agroclimatic variables for field trials and adaptation of cereal crops (CLIMACER)"

[see PD18092024 below]

Program: https://momentum.csic.es

Project: High resolution agroclimatic variables for field trials and adaptation
of cereal crops (CLIMACER)

Location: Zaragoza, Aragón, Spain (Estación Experimental de Aula Dei-CSIC)

Principal Investigators:


PROJECT SUMMARY
Understanding how crops respond and adapt to climate change is critical to ensuring food security and agricultural sustainability. Despite the existence of climatic data repositories, it is still challenging to calculate agroclimatic variables appropriate to the phenology of each crop, such as days of vernalization of winter cereal crops. This hinders the development of effective adaptation strategies. CLIMACER project addresses these limitations with two objectives. The first consists on developing open source tools for customized calculation of high-resolution agroclimatic indices based on public data, which will be used in two case studies of genotype-environment association with barley and Sinapis alba populations sequenced in previous projects. The second is to compile a FAIR database that will aggregate cereal trial data from the GENVCE network along with agroclimatic indices for diverse trial locations. 

Details are in the caption following the image
Distribution of 4 barley subpopulations in mainland Spain, from https://doi.org/10.1111/mec.15009.

Tech and scientific fields: Climate change and biodiversity, platform of climate services, high-throughput data processing, data integration and analysis, computational biology 


PROFESSIONAL PROFILE

Minimum requirements:

  • Fluency in Spanish and English.
  •  Science university degree (computer science, biology, biochemistry, maths, physics, …).
  • Programming ans scripting languages.

Other skills to be considered:

  • R and/or Python programming skills.
  •  Software development skills (API creation, source code repositories, etc).
  •  Document digitalization skills (OCR).
  •  Database management and/or data science skills.
  •  Bioinformatics and/or geo-information science skills.

WHAT WE OFFER
A training program will be customized for the hired person, with two alternative paths: a) enrolling on a Master’s program; or, b) attending courses on scripting, bioinformatics, computer programming and data science. We also plan for the hired person to c) attend conferences on climatology, geoscience and genomics, d) organize a workshop in collaboration with CIHEAM Zaragoza to teach how to use the resulting API and d) to take part in research secondments for training in diverse national and international labs from 2025 to 2027.


Contract conditions
Indefinite contract for a University Graduate associated with the Momentum Project of 4 years' duration according to Spanish science law. Gross annual salary (37.000 € - 41.000 €).
Start of contract: before 31 December 2024
 

Application instructions and help

  • https://momentum.csic.es
  • Register and upload your qualifications at https://sede.csic.gob.es/tramites/bolsa-de-trabajo by September 20th 27th
    • Titulado Superior FC1 / University Graduate FC1 (Out-of-Agreement Labour Exchange).
    • Choose at least one of the following areas and topics/ámbitos:
      • 8903 Recursos Naturales: Procesos de la geohidrosfera, Ejes transversales: Cambio Global, Biología de Organismos y Sistemas: Bioinformática
      • 8905 Ciencia y Tecnologías Físicas: Sistemas Complejos, Informática, Tecnologías de la Información y Comunicaciones 
    • Select our research center "Estación Experimental de Aula Dei (EEAD-CSIC)"
    • Please pay attention to requirements of foreign degrees.
    • The status of candidates at the bolsa is updated weekly or even less prequently in August.
  • Questions to: momentum at csic.es or the PIs

 

We will update this post as more information becomes available. 

PD18092024: hemos comprobado que en la aplicación de la bolsa es posible seleccionar dos áreas, así que podéis apuntaros a otras áreas, por ejemplo "8905 Ciencia y Tecnologías Físicas", y ámbitos como Sistemas Complejos, Informática o Tecnologías de la Información y Comunicaciones

 

Faldón_logos_fichas.png

22 de julio de 2024

La brecha de la biología computacional en español

Hoy me encontré un artículo del reciente ISMB2024 que lleva por nombre 'Closing the computational biology ‘knowledge gap’: Spanish Wikipedia as a case study' y que podéis leer en https://doi.org/10.1093/bioinformatics/btae247.  Este trabajo analiza la brecha que hay en recursos didácticos sobre bioinformática en otras lenguas más allá del inglés, tomando el español como ejemplo. 

¿Por qué necesitamos estos recursos los hispanohablantes? Porque casi la mitad no hablaban otra lengua en 2016 y porque para escribir o hablar sobre ciencia nos cuesta mucho más en inglés. En biología computacional en concreto, sólo una quinta parte de los artículos en inglés en la Wikipedia tienen un equivalente en español, y la brecha es mayor aún en otras lenguas, como se ve en la figura:

Original en https://academic.oup.com/view-large/figure/468774084/btae247f2.tif. Datos y código aquí.

Una manera de cerrar la brecha es organizar talleres/competiciones para trabajar sobre la Wikipedia, como hicieron en ISCB-LA SOIBIO BioNetMX 2022. Como resultado, los participantes lograron mejorar de manera significativa algunas páginas con contenidos bioinformáticos en español, quedando en primer lugar 'pangenoma':

Original en https://academic.oup.com/view-large/figure/468774085/btae247f3.tif

Termino invitando a revisar nuestros materiales en español, que podéis encontrar junto con otros en inglés en https://eead-csic-compbio.github.io/matdidactico.html

Hasta luego,

Bruno

 

26 de junio de 2024

JABI2024 en Granada

Esta semana he participado en las Jornadas Andaluzas de Bioinformática (https://jabi2024.ugr.es), que han tenido lugar en Granada (también visité la Estación Experimental del Zaidín).

Justo antes de mi charla Gonzalo Claros mencionó que me había conocido por este blog, así que aprovecho este medio para poner aquí mis notas y recordar que en a partir de septiembre lanzaremos dos 2 contratos en la bolsa de empleo del CSIC:

L26

Rosario Carmona. CSVS: base de datos de variabilidad genética española (cohorte de n=2105). Panel de 78 genes accionables (alta penetrancia, tratables) de la ACMG v3.1, SNPs anotados con ClinVar e InterVar. Para muestras agregadas se filtró por, MAF > 0.1 en dif poblaciones.

Ruth Domínguez habla de enfermedad autoinmune lupus, que produce Ab contra ADN, asociada a +100 loci. Miran un gen que en pacientes tiene mayor divergencia en los alelos HLA (valor HED, https://hladiv.net) que en no enfermos. Simulan los 15-péptidos que unen los repertorios HLA.

IRPVS: la base de datos de variabilidad genética de población romaní española Javier Pérez Florido. En OMIM hay ya 6K mutaciones en genes que causan fenotipo. Tienen n=119 individuos sanos no relacionados. Grupo más endogámico y con más rondas de homocigosidad que la pob española en general, así como más variantes con efectos grandes sobre proteína. Menciona browser https://github.com/babelomics/CSVS

Candidate genes for severe tinnitus based on the impact of rare variants in coding regions Alba Escalera Balsera. Ruido percibido sin fuente externo. Tiene base genética. Usa VEP +  https://github.com/konradjk/loftee para anotar SNPs que causan pérdida de función. Menciona FLAGS (n=100 genes que acumulan mutaciones no sinónimas en general). 

La importancia de la Bioinformática en la investigación translacional de los microRNAs (22nt, dianas en 3'UTR). Michael Hackenberg, grupo iniciado por JL Oliver.  Predicción bioinfo en humanos poco útil por muchos FPs. Hizo software miRanalyzer para analizar FASTQs de miRNAs y mapearlos sobre sus loci precursores en el genoma cuando cumplen requisitos del mecanismo (hairpin, desfase de 2nt entre extremos, etc), renombrado como sRNAtoolbox. Artefactos comunes en la secuenciación de miRNAs: sesgo de la ligasa por SS (ligation bias, ie NTG o GGN), problemas en la normalización (no hay consenso, usan NORMSEQ con information gain para elegir en cada experimento, vale para RNAseq también, https://academic.oup.com/nar/article/51/W1/W372/7175338),  muestras no independientes. Estudios filogenéticos con miRNAs a partir de MirGeneDB que ordena y nombra ortólogos y parálogos. Tras décadas de trabajo, hay ~600 miRNAs humanos bona fide, no se pueden descartar otros nuevos que se expresen en líneas celulares raras.IsomiRs son isómeros modificados de los miRNAs canónicos.  

M27

Towards Digital Quantification of Ploidy from Pan-Cancer Digital Pathology Slides using Deep Learning Francisco Carrillo Perez. Parten imágenes grandes (>10000pixel de lado) en trozos (tiles), reducen 4K vectores de características a 100, comparan XGBoost (tradicional, lo usa Philipp Bayer en pangenomas y Alberto Esteban Medina en la siguiente charla) vs PloiVIT (basado en transformers)  y usan MAE, MAPE y RMSE como métricas. Quieren ver si transformers mejoran otros modelos ML más clásicos y ven que generalizan mejor en datos independientes al predecir ploidía (tumores). El código se liberará en https://med.stanford.edu/gevaertlab/software.html 

Evaluation of an explainable AI algorithm for the classification of genetic variants in hereditary cancer Laura Martínez Gómez. 50% de los casos de cáncer son autosómicos dominantes. Entrenan con ClinVar2020 y evalúan con Snps de ClinVar2023 que cambiaron su status desde 2020. Para ser explicable tiene un modelo paralelo que explica las predicciones en base a los factores de contribución, pero no da detalles.

Medicina de precisión en Enfermedades Autoinmunes Sistémicas. Marta Alarcón Riquelme, mexicana. Habla de estratificación multiómica de lupus, prototipo de enfermedad autoinmune sistémica, para tratar mejor a estos pacientes en vez de que acumulen varios tratamientos a la vez por tener varias afectaciones en diferentes órganos. Encuentran al menos 4 tipos de pacientes. Ven que los pacientes de un grupo lo siguen siendo 14m después tras iniciarse la enfermedad.

GSEMA: Gene Set Enrichment Meta-Analysis para integración de estudios con genes faltantes Juan Antonio Villatoro García. MA basados en tamaño de efecto, por combinación de p-valores o por enriquecimiento de rutas. Previamente imputa genes no medidos. Usando su software en Github puedes crear tus propias anotaciones para los genes de interés.

drexml: Software libre para el descubrimiento de dianas terapéuticas en enfermedades raras. Carlos Loucera. https://pubmed.ncbi.nlm.nih.gov/38510973

Making the most of your transcriptomic landscapes: A computational workflow to quantify activity of context-specific biological functions at the single-cell level José Luis Ruiz. Observan que scran es mejor para normalizar.

Medicina de Sistemas aplicada al estudio de enfermedades genéticas raras. Juan A. García Ranea. Estratificación de pacientes con https://github.com/seoanezonjic/ExpHunterSuite

X26

La importancia de divulgar la investigación en Bioinformática. Charo Cobano.  7/10 prefieren informarse con vídeos en internet para informarse sobre ciencia.  Claves para divulgar con éxito: 1. claridad expositiva y lenguaje sencillo, 2. ética y rigor, 3. respeto profesional. Lo más importante, divulgar es sacrificar el tono elevado. Ayuda encontrar aplicaciones, aunque sean remotas, para mostrar el interés de nuestro trabajo.

Andalucía-Biotec: Desarrollo de tecnologías biomédicas y bioinformáticas en plataformas de transcriptómica espacial, para la implantación efectiva de la Medicina de Precisión en Andalucía. Eduardo Andrés León. Instrumentos GeoMx y BGI y protocolos en R sobre Nextflow y Docker.  https://satijalab.org/seurat/articles/spatial_vignette.html Stereo-seq tiene resolución de compartimento celular, 20-30 pocillos por célula.Se ha usado en plantas: https://pubmed.ncbi.nlm.nih.gov/35512702. Hay opción de hacer seguimiento de paneles de 800 genes, o de secuenciar todo lo que salga.

Transformando la Bioinformática: Agilidad y Optimización en la Nube, Natalia Jiménez Lozano, Life Sciences Business Developer Manager, https://www.viridiengroup.com (90 años de experiencia en la industria energética). En vez de facturar por hora, facturan por resultados obtenidos. Ayudan a optimizar el código para la infraestructura donde va a ejecutarse. Centros de datos en .fr, .uk, Texas y .sg. No tienen muchos contactos en la agricultura.

Retos para las/los bioinformáticas/os en el presente y en el futuro, Alfonso Valencia. Marenostrum5 220MEUR, 8o del mundo. EU no produce CPUs, la iniciativa EPI pretende conseguir RISK5 abiertos en 5 años. El diseño se lidera desde el BSC. El BSC hace sobre todo gemelos digitales y es la 3a institución .es en financiación europea. La generación de datos genómicos humanos pasa de depender de proyectos a depender de los sistemas de salud, y el mayor negocio está en analizar esos datos. Casi todos los LLMs están producidos por compañías EEUU, la EU ha sacado las AI factories para financiar su desarrollo. El BSC está implicado con las lenguas cooficiales .es y sacará un modelo 70B. https://pubmed.ncbi.nlm.nih.gov/36993670 . La barrera de entrada al desarrollo de métodos computacionales se está elevando. Cree que ahora mismo es más difícil hacer bioinfo sin tener acceso directo a datos experimentales. Somos ingenieros y no podemos hacer como antes sin conocer las matemáticas. No es muy partidario de grados en bioinfo porque igual es una especialización prematura. Cree que el área de generar datos sintéticos es estratégica (primero por evitar restricciones legales, pero ahora porque pueden tener valor por sí mismos, pero cómo los verificamos dependerá de cada caso). Sintácticamente usar textos generados por chatGPT para entrenar no es un problema, pero tienen los sesgos nativos. Cree que AF3 es un preprint que nos hemos podido comprobar todavía; cree que será peor porque el conjunto de entrenamiento para complejos es mucho más pequeño que el PDB.

Estudio de la biodiversidad funcional bacteriana en compost de alpeorujo de origen industrial. María José Estrella González. Producto semisólido acumulado en las almazaras y que se incineraba; ahora se intenta aprovechar para obtener otros compuestos de calidad variable con propiedades antimicrobianas y fitotóxicas.

Análisis bioinformático de los alérgenos del polen de olivo. Amanda Bullones. Principal alérgeno en Andalucía y La Mancha. Han mirado Picual, Arbequina, Farga y en acebuche (conservados, 75% tránscritos en diferentes variedades, pero con diferentes niveles de expresión), así como en leñosas subtropicales (no conservados). No todos son específicos del pólen y tienen funciones muy distintas lo que sugiere que no será fácil deshacerse de ellos. Tienen un protocolo de detección de nuevos alérgenos basado en árboles de decisión. https://scholar.google.com/citations?user=SA6QSqkAAAAJ

Caracterización del Transcriptoma y Análisis de S-Acilación en el Polen de olivo (muchos recursos) y Lilium longiflorum (tienen un transcriptoma) como Especie Modelo en Palinología. Andrea Román Mateo. Estudia enzimas acetil transferasas del pólen (PAT). La inhibición de PATs desciende la germinación.

Pangenomes reveal the genetic diversity of plants. Bruno Contreras. Cuento resultados de acumulados del análisis de pangenomas de Brachypodium distachyon, arroz y cebada con https://github.com/eead-csic-compbio/get_homologues y https://github.com/Ensembl/plant-scripts/tree/master/pangenes .

Unlocking the Potential of PacBio HiFi to obtain complete and high-quality genomes of the malaria parasite Plasmodium falciparum Bárbara Díaz Terenti. Usa Canu, le vale con 100x para sus mapeos.

Imagen
Participantes en las JABI2024. Fuente: https://x.com/jabi_conference/status/1805955884574511592 

  •  

 

    • En el póster de Jacob González Isa

       

11 de junio de 2024

AllHands 2024 en Uppsala (II)

Elaine Harrison empieza explicando el programa científico de ELIXIR, articulado alrededor de tres temas de la nueva capa/tier científica:

1.  Patrick Aloy (ES) introduce el tema "Biología celular y molecular" e insiste en ir más allá de los datos  para poder reconstruir el "full analytic journey" de cada estudio.

2.  Robert Waterhouse (CH) introduce el tema que nos toca más cerca "Biodiversity, food security, & pathogens (BFSP)"

3.  Serena Scollen (Hub) presenta "Human data and translational research" y el ciclo completo de los datos genómicos humanos

Taller "Single-cell galaxy user journey" with Wendi Bacon.
https://galaxyproject.org/community/sig/singlecell
https://www.biostars.org/p/471274

No data standard yet, closest is https://anndata.readthedocs.io (really an HDF5 derivative python friendly, R users still use dataframes).

https://usegalaxy.eu workflows can be created graphically, or by stacking up and exporting the operations you carried out on your data.

Workflows are ultimately text files; easy to convert workflows galaxy -> snakemake / nextflow by exporting to bash, difficult the other way around. Can be stored at https://workflowhub.eu

https://github.com/galaxyproject/idc -> genomic references for Galaxy

https://biostar.galaxyproject.org/p/11944/index.html

 
"Defer dataset" allows using public URL as input, data only downloaded when executing in particular galaxy node, only results stored in main; saves disk quota.

Taller "Interop_Mini-Symposium_All_Hands_2024"
RDA = Research Data Alliance
ebi.ac.uk/metabolights , still lack accepted standards for data deposition.
Wei Kheng Teh talks about metadata heterogeneity of single-cell omics data
https://isa-tools.org/ -> https://simplifier.net/guide/isa-to-fhir?version=current

https://www.researchobject.org/ro-crate/  -> lightweight approach to packaging research data with their metadata, see https://doi.org/10.5281/zenodo.5146227,  can be stored in Zenodo or GitHub, Workflow -> to get work done / Dataflow -> to publish and share data.

ELIXIR-CZ are working on writing material / templates for DMPs, there's a gap there, on bridging high level interoperability aims and actual detailed protocols.

Interoperability barriers: traditional rules, increasing data complexity, we still need a minimal standard for acrossfields data integration, heterogeneity of data quality.


Taller "Paving the way towards the effective use of generative AI for ELIXIR - Agenda"
Michael Hu, PI and Director of Bioinformatics at West Virginia University habla de "Bioinformatics with ChatGPT"
https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1011511
https://arxiv.org/abs/2403.15274
Renat Shigapov, Data Scientist at University of Mannheim talks about "Reviewing (meta)data and evaluate their FAIRness using ChatGPT+", pero su charla requiere una licencia de chatGTP Plus. La idea central es que pare que un conjunto de datos sea FAIR entonces deben poder encontrarlo tanto otras personas como software y que GPT puede ayudar en esa tarea, siempre y cuando se incluyan conexiones a fuentes externas para comprobar las URLs que devuelve y evitar alucionaciones. Sugiere que ELIXIR debería usar herramientas como https://github.com/UB-Mannheim/FAIR-GPT


 


Imagen
Poster disponible en https://doi.org/10.7490/f1000research.1119714.1, foto de Ana Conesa https://x.com/anaconesa/status/1800828390607610058


PD 12062024 day III

ELIXIR technical tier, 5 Plataforms
Ejemplos de proy EU que se convirtieron en servcios: RDMkit, workflowhub
M Jetten presenta RDM community
Elixir software registry: bio.tools > openebench > biocontainers > galaxy
https://github.com/research-software-ecosystem/content
TeSS training support system https://tess.elixir-europe.org
https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1007854
LS Login