Esta semana he participado en las Jornadas Andaluzas de Bioinformática (https://jabi2024.ugr.es), que han tenido lugar en Granada (también visité la Estación Experimental del Zaidín).
Justo antes de mi charla Gonzalo Claros mencionó que me había conocido por este blog, así que aprovecho este medio para poner aquí mis notas y recordar que en a partir de septiembre lanzaremos dos 2 contratos en la bolsa de empleo del CSIC:
- contrato 36M genómica de Sinapis alba, dentro del proyecto https://soilolive.eu
- contrato 48M atracción talento: genómica + agroclimática con Santiago Beguería
L26
Rosario Carmona. CSVS: base de datos de variabilidad genética española (cohorte de n=2105). Panel de 78 genes accionables (alta penetrancia, tratables) de la ACMG v3.1, SNPs anotados con ClinVar e InterVar. Para muestras agregadas se filtró por, MAF > 0.1 en dif poblaciones.
Ruth Domínguez habla de enfermedad autoinmune lupus, que produce Ab contra ADN, asociada a +100 loci. Miran un gen que en pacientes tiene mayor divergencia en los alelos HLA (valor HED, https://hladiv.net) que en no enfermos. Simulan los 15-péptidos que unen los repertorios HLA.
IRPVS: la base de datos de variabilidad genética de población romaní española Javier Pérez Florido. En OMIM hay ya 6K mutaciones en genes que causan fenotipo. Tienen n=119 individuos sanos no relacionados. Grupo más endogámico y con más rondas de homocigosidad que la pob española en general, así como más variantes con efectos grandes sobre proteína. Menciona browser https://github.com/babelomics/CSVS
Candidate genes for severe tinnitus based on the impact of rare variants in coding regions Alba Escalera Balsera. Ruido percibido sin fuente externo. Tiene base genética. Usa VEP + https://github.com/konradjk/loftee para anotar SNPs que causan pérdida de función. Menciona FLAGS (n=100 genes que acumulan mutaciones no sinónimas en general).
La importancia de la Bioinformática en la investigación translacional de los microRNAs (22nt, dianas en 3'UTR). Michael Hackenberg, grupo iniciado por JL Oliver. Predicción bioinfo en humanos poco útil por muchos FPs. Hizo software miRanalyzer para analizar FASTQs de miRNAs y mapearlos sobre sus loci precursores en el genoma cuando cumplen requisitos del mecanismo (hairpin, desfase de 2nt entre extremos, etc), renombrado como sRNAtoolbox. Artefactos comunes en la secuenciación de miRNAs: sesgo de la ligasa por SS (ligation bias, ie NTG o GGN), problemas en la normalización (no hay consenso, usan NORMSEQ con information gain para elegir en cada experimento, vale para RNAseq también, https://academic.oup.com/nar/article/51/W1/W372/7175338), muestras no independientes. Estudios filogenéticos con miRNAs a partir de MirGeneDB que ordena y nombra ortólogos y parálogos. Tras décadas de trabajo, hay ~600 miRNAs humanos bona fide, no se pueden descartar otros nuevos que se expresen en líneas celulares raras.IsomiRs son isómeros modificados de los miRNAs canónicos.
M27
Towards Digital Quantification of Ploidy from Pan-Cancer Digital Pathology Slides using Deep Learning Francisco Carrillo Perez. Parten imágenes grandes (>10000pixel de lado) en trozos (tiles), reducen 4K vectores de características a 100, comparan XGBoost (tradicional, lo usa Philipp Bayer en pangenomas y Alberto Esteban Medina en la siguiente charla) vs PloiVIT (basado en transformers) y usan MAE, MAPE y RMSE como métricas. Quieren ver si transformers mejoran otros modelos ML más clásicos y ven que generalizan mejor en datos independientes al predecir ploidía (tumores). El código se liberará en https://med.stanford.edu/gevaertlab/software.html
Evaluation of an explainable AI algorithm for the classification of genetic variants in hereditary cancer Laura Martínez Gómez. 50% de los casos de cáncer son autosómicos dominantes. Entrenan con ClinVar2020 y evalúan con Snps de ClinVar2023 que cambiaron su status desde 2020. Para ser explicable tiene un modelo paralelo que explica las predicciones en base a los factores de contribución, pero no da detalles.
Medicina de precisión en Enfermedades Autoinmunes Sistémicas. Marta Alarcón Riquelme, mexicana. Habla de estratificación multiómica de lupus, prototipo de enfermedad autoinmune sistémica, para tratar mejor a estos pacientes en vez de que acumulen varios tratamientos a la vez por tener varias afectaciones en diferentes órganos. Encuentran al menos 4 tipos de pacientes. Ven que los pacientes de un grupo lo siguen siendo 14m después tras iniciarse la enfermedad.
GSEMA: Gene Set Enrichment Meta-Analysis para integración de estudios con genes faltantes Juan Antonio Villatoro García. MA basados en tamaño de efecto, por combinación de p-valores o por enriquecimiento de rutas. Previamente imputa genes no medidos. Usando su software en Github puedes crear tus propias anotaciones para los genes de interés.
drexml: Software libre para el descubrimiento de dianas terapéuticas en enfermedades raras. Carlos Loucera. https://pubmed.ncbi.nlm.nih.gov/38510973
Making the most of your transcriptomic landscapes: A computational workflow to quantify activity of context-specific biological functions at the single-cell level José Luis Ruiz. Observan que scran es mejor para normalizar.
Medicina de Sistemas aplicada al estudio de enfermedades genéticas raras. Juan A. García Ranea. Estratificación de pacientes con https://github.com/seoanezonjic/ExpHunterSuite
X26
La importancia de divulgar la investigación en Bioinformática. Charo Cobano. 7/10 prefieren informarse con vídeos en internet para informarse sobre ciencia. Claves para divulgar con éxito: 1. claridad expositiva y lenguaje sencillo, 2. ética y rigor, 3. respeto profesional. Lo más importante, divulgar es sacrificar el tono elevado. Ayuda encontrar aplicaciones, aunque sean remotas, para mostrar el interés de nuestro trabajo.
Andalucía-Biotec: Desarrollo de tecnologías biomédicas y bioinformáticas en plataformas de transcriptómica espacial, para la implantación efectiva de la Medicina de Precisión en Andalucía. Eduardo Andrés León. Instrumentos GeoMx y BGI y protocolos en R sobre Nextflow y Docker. https://satijalab.org/seurat/articles/spatial_vignette.html Stereo-seq tiene resolución de compartimento celular, 20-30 pocillos por célula.Se ha usado en plantas: https://pubmed.ncbi.nlm.nih.gov/35512702. Hay opción de hacer seguimiento de paneles de 800 genes, o de secuenciar todo lo que salga.
Transformando la Bioinformática: Agilidad y Optimización en la Nube, Natalia Jiménez Lozano, Life Sciences Business Developer Manager, https://www.viridiengroup.com (90 años de experiencia en la industria energética). En vez de facturar por hora, facturan por resultados obtenidos. Ayudan a optimizar el código para la infraestructura donde va a ejecutarse. Centros de datos en .fr, .uk, Texas y .sg. No tienen muchos contactos en la agricultura.
Retos para las/los bioinformáticas/os en el presente y en el futuro, Alfonso Valencia. Marenostrum5 220MEUR, 8o del mundo. EU no produce CPUs, la iniciativa EPI pretende conseguir RISK5 abiertos en 5 años. El diseño se lidera desde el BSC. El BSC hace sobre todo gemelos digitales y es la 3a institución .es en financiación europea. La generación de datos genómicos humanos pasa de depender de proyectos a depender de los sistemas de salud, y el mayor negocio está en analizar esos datos. Casi todos los LLMs están producidos por compañías EEUU, la EU ha sacado las AI factories para financiar su desarrollo. El BSC está implicado con las lenguas cooficiales .es y sacará un modelo 70B. https://pubmed.ncbi.nlm.nih.gov/36993670 . La barrera de entrada al desarrollo de métodos computacionales se está elevando. Cree que ahora mismo es más difícil hacer bioinfo sin tener acceso directo a datos experimentales. Somos ingenieros y no podemos hacer como antes sin conocer las matemáticas. No es muy partidario de grados en bioinfo porque igual es una especialización prematura. Cree que el área de generar datos sintéticos es estratégica (primero por evitar restricciones legales, pero ahora porque pueden tener valor por sí mismos, pero cómo los verificamos dependerá de cada caso). Sintácticamente usar textos generados por chatGPT para entrenar no es un problema, pero tienen los sesgos nativos. Cree que AF3 es un preprint que nos hemos podido comprobar todavía; cree que será peor porque el conjunto de entrenamiento para complejos es mucho más pequeño que el PDB.
Estudio de la biodiversidad funcional bacteriana en compost de alpeorujo de origen industrial. María José Estrella González. Producto semisólido acumulado en las almazaras y que se incineraba; ahora se intenta aprovechar para obtener otros compuestos de calidad variable con propiedades antimicrobianas y fitotóxicas.
Análisis bioinformático de los alérgenos del polen de olivo. Amanda Bullones. Principal alérgeno en Andalucía y La Mancha. Han mirado Picual, Arbequina, Farga y en acebuche (conservados, 75% tránscritos en diferentes variedades, pero con diferentes niveles de expresión), así como en leñosas subtropicales (no conservados). No todos son específicos del pólen y tienen funciones muy distintas lo que sugiere que no será fácil deshacerse de ellos. Tienen un protocolo de detección de nuevos alérgenos basado en árboles de decisión. https://scholar.google.com/citations?user=SA6QSqkAAAAJ
Caracterización del Transcriptoma y Análisis de S-Acilación en el Polen de olivo (muchos recursos) y Lilium longiflorum (tienen un transcriptoma) como Especie Modelo en Palinología. Andrea Román Mateo. Estudia enzimas acetil transferasas del pólen (PAT). La inhibición de PATs desciende la germinación.
Pangenomes reveal the genetic diversity of plants. Bruno Contreras. Cuento resultados de acumulados del análisis de pangenomas de Brachypodium distachyon, arroz y cebada con https://github.com/eead-csic-compbio/get_homologues y https://github.com/Ensembl/plant-scripts/tree/master/pangenes .
Unlocking the Potential of PacBio HiFi to obtain complete and high-quality genomes of the malaria parasite Plasmodium falciparum Bárbara Díaz Terenti. Usa Canu, le vale con 100x para sus mapeos.
Participantes en las JABI2024. Fuente: https://x.com/jabi_conference/status/1805955884574511592 |
En el póster de Jacob González Isa