26 de junio de 2024

JABI2024 en Granada

Esta semana he participado en las Jornadas Andaluzas de Bioinformática (https://jabi2024.ugr.es), que han tenido lugar en Granada (también visité la Estación Experimental del Zaidín).

Justo antes de mi charla Gonzalo Claros mencionó que me había conocido por este blog, así que aprovecho este medio para poner aquí mis notas y recordar que en a partir de septiembre lanzaremos dos 2 contratos en la bolsa de empleo del CSIC:

L26

Rosario Carmona. CSVS: base de datos de variabilidad genética española (cohorte de n=2105). Panel de 78 genes accionables (alta penetrancia, tratables) de la ACMG v3.1, SNPs anotados con ClinVar e InterVar. Para muestras agregadas se filtró por, MAF > 0.1 en dif poblaciones.

Ruth Domínguez habla de enfermedad autoinmune lupus, que produce Ab contra ADN, asociada a +100 loci. Miran un gen que en pacientes tiene mayor divergencia en los alelos HLA (valor HED, https://hladiv.net) que en no enfermos. Simulan los 15-péptidos que unen los repertorios HLA.

IRPVS: la base de datos de variabilidad genética de población romaní española Javier Pérez Florido. En OMIM hay ya 6K mutaciones en genes que causan fenotipo. Tienen n=119 individuos sanos no relacionados. Grupo más endogámico y con más rondas de homocigosidad que la pob española en general, así como más variantes con efectos grandes sobre proteína. Menciona browser https://github.com/babelomics/CSVS

Candidate genes for severe tinnitus based on the impact of rare variants in coding regions Alba Escalera Balsera. Ruido percibido sin fuente externo. Tiene base genética. Usa VEP +  https://github.com/konradjk/loftee para anotar SNPs que causan pérdida de función. Menciona FLAGS (n=100 genes que acumulan mutaciones no sinónimas en general). 

La importancia de la Bioinformática en la investigación translacional de los microRNAs (22nt, dianas en 3'UTR). Michael Hackenberg, grupo iniciado por JL Oliver.  Predicción bioinfo en humanos poco útil por muchos FPs. Hizo software miRanalyzer para analizar FASTQs de miRNAs y mapearlos sobre sus loci precursores en el genoma cuando cumplen requisitos del mecanismo (hairpin, desfase de 2nt entre extremos, etc), renombrado como sRNAtoolbox. Artefactos comunes en la secuenciación de miRNAs: sesgo de la ligasa por SS (ligation bias, ie NTG o GGN), problemas en la normalización (no hay consenso, usan NORMSEQ con information gain para elegir en cada experimento, vale para RNAseq también, https://academic.oup.com/nar/article/51/W1/W372/7175338),  muestras no independientes. Estudios filogenéticos con miRNAs a partir de MirGeneDB que ordena y nombra ortólogos y parálogos. Tras décadas de trabajo, hay ~600 miRNAs humanos bona fide, no se pueden descartar otros nuevos que se expresen en líneas celulares raras.IsomiRs son isómeros modificados de los miRNAs canónicos.  

M27

Towards Digital Quantification of Ploidy from Pan-Cancer Digital Pathology Slides using Deep Learning Francisco Carrillo Perez. Parten imágenes grandes (>10000pixel de lado) en trozos (tiles), reducen 4K vectores de características a 100, comparan XGBoost (tradicional, lo usa Philipp Bayer en pangenomas y Alberto Esteban Medina en la siguiente charla) vs PloiVIT (basado en transformers)  y usan MAE, MAPE y RMSE como métricas. Quieren ver si transformers mejoran otros modelos ML más clásicos y ven que generalizan mejor en datos independientes al predecir ploidía (tumores). El código se liberará en https://med.stanford.edu/gevaertlab/software.html 

Evaluation of an explainable AI algorithm for the classification of genetic variants in hereditary cancer Laura Martínez Gómez. 50% de los casos de cáncer son autosómicos dominantes. Entrenan con ClinVar2020 y evalúan con Snps de ClinVar2023 que cambiaron su status desde 2020. Para ser explicable tiene un modelo paralelo que explica las predicciones en base a los factores de contribución, pero no da detalles.

Medicina de precisión en Enfermedades Autoinmunes Sistémicas. Marta Alarcón Riquelme, mexicana. Habla de estratificación multiómica de lupus, prototipo de enfermedad autoinmune sistémica, para tratar mejor a estos pacientes en vez de que acumulen varios tratamientos a la vez por tener varias afectaciones en diferentes órganos. Encuentran al menos 4 tipos de pacientes. Ven que los pacientes de un grupo lo siguen siendo 14m después tras iniciarse la enfermedad.

GSEMA: Gene Set Enrichment Meta-Analysis para integración de estudios con genes faltantes Juan Antonio Villatoro García. MA basados en tamaño de efecto, por combinación de p-valores o por enriquecimiento de rutas. Previamente imputa genes no medidos. Usando su software en Github puedes crear tus propias anotaciones para los genes de interés.

drexml: Software libre para el descubrimiento de dianas terapéuticas en enfermedades raras. Carlos Loucera. https://pubmed.ncbi.nlm.nih.gov/38510973

Making the most of your transcriptomic landscapes: A computational workflow to quantify activity of context-specific biological functions at the single-cell level José Luis Ruiz. Observan que scran es mejor para normalizar.

Medicina de Sistemas aplicada al estudio de enfermedades genéticas raras. Juan A. García Ranea. Estratificación de pacientes con https://github.com/seoanezonjic/ExpHunterSuite

X26

La importancia de divulgar la investigación en Bioinformática. Charo Cobano.  7/10 prefieren informarse con vídeos en internet para informarse sobre ciencia.  Claves para divulgar con éxito: 1. claridad expositiva y lenguaje sencillo, 2. ética y rigor, 3. respeto profesional. Lo más importante, divulgar es sacrificar el tono elevado. Ayuda encontrar aplicaciones, aunque sean remotas, para mostrar el interés de nuestro trabajo.

Andalucía-Biotec: Desarrollo de tecnologías biomédicas y bioinformáticas en plataformas de transcriptómica espacial, para la implantación efectiva de la Medicina de Precisión en Andalucía. Eduardo Andrés León. Instrumentos GeoMx y BGI y protocolos en R sobre Nextflow y Docker.  https://satijalab.org/seurat/articles/spatial_vignette.html Stereo-seq tiene resolución de compartimento celular, 20-30 pocillos por célula.Se ha usado en plantas: https://pubmed.ncbi.nlm.nih.gov/35512702. Hay opción de hacer seguimiento de paneles de 800 genes, o de secuenciar todo lo que salga.

Transformando la Bioinformática: Agilidad y Optimización en la Nube, Natalia Jiménez Lozano, Life Sciences Business Developer Manager, https://www.viridiengroup.com (90 años de experiencia en la industria energética). En vez de facturar por hora, facturan por resultados obtenidos. Ayudan a optimizar el código para la infraestructura donde va a ejecutarse. Centros de datos en .fr, .uk, Texas y .sg. No tienen muchos contactos en la agricultura.

Retos para las/los bioinformáticas/os en el presente y en el futuro, Alfonso Valencia. Marenostrum5 220MEUR, 8o del mundo. EU no produce CPUs, la iniciativa EPI pretende conseguir RISK5 abiertos en 5 años. El diseño se lidera desde el BSC. El BSC hace sobre todo gemelos digitales y es la 3a institución .es en financiación europea. La generación de datos genómicos humanos pasa de depender de proyectos a depender de los sistemas de salud, y el mayor negocio está en analizar esos datos. Casi todos los LLMs están producidos por compañías EEUU, la EU ha sacado las AI factories para financiar su desarrollo. El BSC está implicado con las lenguas cooficiales .es y sacará un modelo 70B. https://pubmed.ncbi.nlm.nih.gov/36993670 . La barrera de entrada al desarrollo de métodos computacionales se está elevando. Cree que ahora mismo es más difícil hacer bioinfo sin tener acceso directo a datos experimentales. Somos ingenieros y no podemos hacer como antes sin conocer las matemáticas. No es muy partidario de grados en bioinfo porque igual es una especialización prematura. Cree que el área de generar datos sintéticos es estratégica (primero por evitar restricciones legales, pero ahora porque pueden tener valor por sí mismos, pero cómo los verificamos dependerá de cada caso). Sintácticamente usar textos generados por chatGPT para entrenar no es un problema, pero tienen los sesgos nativos. Cree que AF3 es un preprint que nos hemos podido comprobar todavía; cree que será peor porque el conjunto de entrenamiento para complejos es mucho más pequeño que el PDB.

Estudio de la biodiversidad funcional bacteriana en compost de alpeorujo de origen industrial. María José Estrella González. Producto semisólido acumulado en las almazaras y que se incineraba; ahora se intenta aprovechar para obtener otros compuestos de calidad variable con propiedades antimicrobianas y fitotóxicas.

Análisis bioinformático de los alérgenos del polen de olivo. Amanda Bullones. Principal alérgeno en Andalucía y La Mancha. Han mirado Picual, Arbequina, Farga y en acebuche (conservados, 75% tránscritos en diferentes variedades, pero con diferentes niveles de expresión), así como en leñosas subtropicales (no conservados). No todos son específicos del pólen y tienen funciones muy distintas lo que sugiere que no será fácil deshacerse de ellos. Tienen un protocolo de detección de nuevos alérgenos basado en árboles de decisión. https://scholar.google.com/citations?user=SA6QSqkAAAAJ

Caracterización del Transcriptoma y Análisis de S-Acilación en el Polen de olivo (muchos recursos) y Lilium longiflorum (tienen un transcriptoma) como Especie Modelo en Palinología. Andrea Román Mateo. Estudia enzimas acetil transferasas del pólen (PAT). La inhibición de PATs desciende la germinación.

Pangenomes reveal the genetic diversity of plants. Bruno Contreras. Cuento resultados de acumulados del análisis de pangenomas de Brachypodium distachyon, arroz y cebada con https://github.com/eead-csic-compbio/get_homologues y https://github.com/Ensembl/plant-scripts/tree/master/pangenes .

Unlocking the Potential of PacBio HiFi to obtain complete and high-quality genomes of the malaria parasite Plasmodium falciparum Bárbara Díaz Terenti. Usa Canu, le vale con 100x para sus mapeos.

Imagen
Participantes en las JABI2024. Fuente: https://x.com/jabi_conference/status/1805955884574511592 

  •  

 

    • En el póster de Jacob González Isa

       

11 de junio de 2024

AllHands 2024 en Uppsala (II)

Elaine Harrison empieza explicando el programa científico de ELIXIR, articulado alrededor de tres temas de la nueva capa/tier científica:

1.  Patrick Aloy (ES) introduce el tema "Biología celular y molecular" e insiste en ir más allá de los datos  para poder reconstruir el "full analytic journey" de cada estudio.

2.  Robert Waterhouse (CH) introduce el tema que nos toca más cerca "Biodiversity, food security, & pathogens (BFSP)"

3.  Serena Scollen (Hub) presenta "Human data and translational research" y el ciclo completo de los datos genómicos humanos

Taller "Single-cell galaxy user journey" with Wendi Bacon.
https://galaxyproject.org/community/sig/singlecell
https://www.biostars.org/p/471274

No data standard yet, closest is https://anndata.readthedocs.io (really an HDF5 derivative python friendly, R users still use dataframes).

https://usegalaxy.eu workflows can be created graphically, or by stacking up and exporting the operations you carried out on your data.

Workflows are ultimately text files; easy to convert workflows galaxy -> snakemake / nextflow by exporting to bash, difficult the other way around. Can be stored at https://workflowhub.eu

https://github.com/galaxyproject/idc -> genomic references for Galaxy

https://biostar.galaxyproject.org/p/11944/index.html

 
"Defer dataset" allows using public URL as input, data only downloaded when executing in particular galaxy node, only results stored in main; saves disk quota.

Taller "Interop_Mini-Symposium_All_Hands_2024"
RDA = Research Data Alliance
ebi.ac.uk/metabolights , still lack accepted standards for data deposition.
Wei Kheng Teh talks about metadata heterogeneity of single-cell omics data
https://isa-tools.org/ -> https://simplifier.net/guide/isa-to-fhir?version=current

https://www.researchobject.org/ro-crate/  -> lightweight approach to packaging research data with their metadata, see https://doi.org/10.5281/zenodo.5146227,  can be stored in Zenodo or GitHub, Workflow -> to get work done / Dataflow -> to publish and share data.

ELIXIR-CZ are working on writing material / templates for DMPs, there's a gap there, on bridging high level interoperability aims and actual detailed protocols.

Interoperability barriers: traditional rules, increasing data complexity, we still need a minimal standard for acrossfields data integration, heterogeneity of data quality.


Taller "Paving the way towards the effective use of generative AI for ELIXIR - Agenda"
Michael Hu, PI and Director of Bioinformatics at West Virginia University habla de "Bioinformatics with ChatGPT"
https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1011511
https://arxiv.org/abs/2403.15274
Renat Shigapov, Data Scientist at University of Mannheim talks about "Reviewing (meta)data and evaluate their FAIRness using ChatGPT+", pero su charla requiere una licencia de chatGTP Plus. La idea central es que pare que un conjunto de datos sea FAIR entonces deben poder encontrarlo tanto otras personas como software y que GPT puede ayudar en esa tarea, siempre y cuando se incluyan conexiones a fuentes externas para comprobar las URLs que devuelve y evitar alucionaciones. Sugiere que ELIXIR debería usar herramientas como https://github.com/UB-Mannheim/FAIR-GPT


 


Imagen
Poster disponible en https://doi.org/10.7490/f1000research.1119714.1, foto de Ana Conesa https://x.com/anaconesa/status/1800828390607610058


PD 12062024 day III

ELIXIR technical tier, 5 Plataforms
Ejemplos de proy EU que se convirtieron en servcios: RDMkit, workflowhub
M Jetten presenta RDM community
Elixir software registry: bio.tools > openebench > biocontainers > galaxy
https://github.com/research-software-ecosystem/content
TeSS training support system https://tess.elixir-europe.org
https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1007854
LS Login