Mostrando entradas con la etiqueta bioinformática. Mostrar todas las entradas
Mostrando entradas con la etiqueta bioinformática. Mostrar todas las entradas

14 de marzo de 2025

asamblea 2025 conexiónBCB

Esta semana nos hemos reunido en la sede central del CSIC la gente de la https://conexion-bcb.csic.es . Ha estado muy bien sentirnos parte de esta comunidad. De la Estación Experimental de Aula Dei-CSIC hemos ido Sara Herrera y yo. Cuelgo aquí mis notas, tenéis un hilo con fotos en https://bsky.app/profile/did:plc:myfqcxmlvdxk2nrywhpxewol

 

Ana Conesa y el resto de la junta de la conexión durante el repaso al cumplimiento de objetivos.

 Deciphering the impact of genomic structural variants with POSTRE (Víctor Sánchez Naya, IBBTEC) https://doi.org/10.1093/nar/gkad225 , currently human only, considers genes within TADs [~LD blocks], TADs are broken/modified by SV, expression and regulation change, podría aplicarse a otras especies que tengan los mismos datos disponibles.

Application of chemo-informatics and AI tools to drug design: success stories (Ana Martínez, Carmen Gil, CIB) hacen modelado de proteínas y docking, también IA (regression, dimension reduction, clustering, classif, SMILE, mol graphs, NN).

Application of lipidomics and transcriptomics techniques for the study of the interaction of West Nile virus and its host (Patricia Mingo, INIA) trabajan con personas y ratones y buscan marcadores de enfermedad por ejemplo en hígado y cerebro, carga viral se dispara a los 7d, también ven cambios de expresión al tratar con fármacos que bajan neuroinflamación.

Ramiro Logares, ICM, talks about microbes in the ocean and the dimensions of their variability, that they approach with metagenomics and MAGs. The have 3 running experiments (including global TARA Oceans and Hesperides, down to -400m) and found that populations (Fst clusters) diverge more with distance than time. Some populations are related to yearly seasons.The tag adaptive genes by computing pN/pS across populations. He explains that defining populations os tricky due to their dynamic nature. Usa recursos de CESGA y codirigen la conexión microbioma: https://bsky.app/profile/csic-vaact.bsky.social/post/3lhe4yqploc2u

 
Structural modeling of proteins and their interactions in the AI era (Juan Fdez. Recio, ICVV, https://model3dbio.csic.es). Su grupo desarrolla métodos para el modelado de proteínas y sus complejos (el interactoma) como pyDock (https://pubmed.ncbi.nlm.nih.gov/17444519) y pyDockDNA (https://doi.org/10.3389/fmolb.2022.988996). Los han aplicado en múltiples colaboraciones. AlphaFold lo ha cambiado todo, ahora tenemos modelos para 99% de las proteínas humanas. Sin embargo, el panorama no es tan claro para el interactoma, sigue habiendo complejos muy difíciles. Ahora usan pyDock para evaluar modelos AF. Ahora que los grupos de docking han integrado AF-multimer, su capacidad predictiva ha mejorado de manera significativa, a pesar de los ejemplos irresolubles. Menciona también el problema del problema de mutantes, para el que desarrollaron https://life.bsc.es/pid/skempi2 , que podría ser parecido a foldX para PPIs.


Epigenomic signatures of cancer and cell identity (Daniel Rico, CABIMER). Con Miguel A Fortuna definen el epigenoma como la fracción ejecutable del genoma. Usan AVIDA (https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1005414). Quieren clasificar 'chromatypes' en genomas humanos. Más artículos recientes aquí. Toca el tema del cambio de expresión de (onco) genes tras la translocación de fragmentos que contienen enhancers.


Javier de las Rivas (CIC) talks about methods for bulk and single cell analysis of myeloid cell lineages (cell mix deconvolution, RNAseq  https://doi.org/10.3390/ijms26020805).


Algunos enlaces de las Flash Talks
código para genómica de poblaciones de https://github.com/sramosonsins
para modelar proteínas de membrana: https://academic.oup.com/bioinformatics/article/40/11/btae662/7879340
BEHAV3D: https://www.nature.com/articles/s41596-024-00972-6
 

Application of supervised machine learning in the exploration and resolution of evolutionary scenarios (Isabel Sanmartín, RJB). Why some lineages are species rich? what drives diversity? Switch to IA caused by megaphylogenies. Usan CNNs snps + traits y num especies para entrenar, cita https://onlinelibrary.wiley.com/doi/abs/10.1111/1755-0998.13534. She also explains that trees need to be ladderized, transversed and vectorized for DL, see for instance https://doi.org/10.1101/2024.12.13.628187 or https://arxiv.org/html/2405.07110v1
 

Notas de otras conexiones

En https://aihub.csic.es tienen curso como https://datalab-icmat.github.io/courses_stats.html
En https://pti-cienciadigital.csic.es usan recursos de https://eosc.eu

Justo antes de terminar hemos discutido en la asamblea opciones para que la conexión siga con vida a partir de 2026, tenemos trabajo por delante.

Hasta pronto!

26 de junio de 2024

JABI2024 en Granada

Esta semana he participado en las Jornadas Andaluzas de Bioinformática (https://jabi2024.ugr.es), que han tenido lugar en Granada (también visité la Estación Experimental del Zaidín).

Justo antes de mi charla Gonzalo Claros mencionó que me había conocido por este blog, así que aprovecho este medio para poner aquí mis notas y recordar que en a partir de septiembre lanzaremos dos 2 contratos en la bolsa de empleo del CSIC:

L26

Rosario Carmona. CSVS: base de datos de variabilidad genética española (cohorte de n=2105). Panel de 78 genes accionables (alta penetrancia, tratables) de la ACMG v3.1, SNPs anotados con ClinVar e InterVar. Para muestras agregadas se filtró por, MAF > 0.1 en dif poblaciones.

Ruth Domínguez habla de enfermedad autoinmune lupus, que produce Ab contra ADN, asociada a +100 loci. Miran un gen que en pacientes tiene mayor divergencia en los alelos HLA (valor HED, https://hladiv.net) que en no enfermos. Simulan los 15-péptidos que unen los repertorios HLA.

IRPVS: la base de datos de variabilidad genética de población romaní española Javier Pérez Florido. En OMIM hay ya 6K mutaciones en genes que causan fenotipo. Tienen n=119 individuos sanos no relacionados. Grupo más endogámico y con más rondas de homocigosidad que la pob española en general, así como más variantes con efectos grandes sobre proteína. Menciona browser https://github.com/babelomics/CSVS

Candidate genes for severe tinnitus based on the impact of rare variants in coding regions Alba Escalera Balsera. Ruido percibido sin fuente externo. Tiene base genética. Usa VEP +  https://github.com/konradjk/loftee para anotar SNPs que causan pérdida de función. Menciona FLAGS (n=100 genes que acumulan mutaciones no sinónimas en general). 

La importancia de la Bioinformática en la investigación translacional de los microRNAs (22nt, dianas en 3'UTR). Michael Hackenberg, grupo iniciado por JL Oliver.  Predicción bioinfo en humanos poco útil por muchos FPs. Hizo software miRanalyzer para analizar FASTQs de miRNAs y mapearlos sobre sus loci precursores en el genoma cuando cumplen requisitos del mecanismo (hairpin, desfase de 2nt entre extremos, etc), renombrado como sRNAtoolbox. Artefactos comunes en la secuenciación de miRNAs: sesgo de la ligasa por SS (ligation bias, ie NTG o GGN), problemas en la normalización (no hay consenso, usan NORMSEQ con information gain para elegir en cada experimento, vale para RNAseq también, https://academic.oup.com/nar/article/51/W1/W372/7175338),  muestras no independientes. Estudios filogenéticos con miRNAs a partir de MirGeneDB que ordena y nombra ortólogos y parálogos. Tras décadas de trabajo, hay ~600 miRNAs humanos bona fide, no se pueden descartar otros nuevos que se expresen en líneas celulares raras.IsomiRs son isómeros modificados de los miRNAs canónicos.  

M27

Towards Digital Quantification of Ploidy from Pan-Cancer Digital Pathology Slides using Deep Learning Francisco Carrillo Perez. Parten imágenes grandes (>10000pixel de lado) en trozos (tiles), reducen 4K vectores de características a 100, comparan XGBoost (tradicional, lo usa Philipp Bayer en pangenomas y Alberto Esteban Medina en la siguiente charla) vs PloiVIT (basado en transformers)  y usan MAE, MAPE y RMSE como métricas. Quieren ver si transformers mejoran otros modelos ML más clásicos y ven que generalizan mejor en datos independientes al predecir ploidía (tumores). El código se liberará en https://med.stanford.edu/gevaertlab/software.html 

Evaluation of an explainable AI algorithm for the classification of genetic variants in hereditary cancer Laura Martínez Gómez. 50% de los casos de cáncer son autosómicos dominantes. Entrenan con ClinVar2020 y evalúan con Snps de ClinVar2023 que cambiaron su status desde 2020. Para ser explicable tiene un modelo paralelo que explica las predicciones en base a los factores de contribución, pero no da detalles.

Medicina de precisión en Enfermedades Autoinmunes Sistémicas. Marta Alarcón Riquelme, mexicana. Habla de estratificación multiómica de lupus, prototipo de enfermedad autoinmune sistémica, para tratar mejor a estos pacientes en vez de que acumulen varios tratamientos a la vez por tener varias afectaciones en diferentes órganos. Encuentran al menos 4 tipos de pacientes. Ven que los pacientes de un grupo lo siguen siendo 14m después tras iniciarse la enfermedad.

GSEMA: Gene Set Enrichment Meta-Analysis para integración de estudios con genes faltantes Juan Antonio Villatoro García. MA basados en tamaño de efecto, por combinación de p-valores o por enriquecimiento de rutas. Previamente imputa genes no medidos. Usando su software en Github puedes crear tus propias anotaciones para los genes de interés.

drexml: Software libre para el descubrimiento de dianas terapéuticas en enfermedades raras. Carlos Loucera. https://pubmed.ncbi.nlm.nih.gov/38510973

Making the most of your transcriptomic landscapes: A computational workflow to quantify activity of context-specific biological functions at the single-cell level José Luis Ruiz. Observan que scran es mejor para normalizar.

Medicina de Sistemas aplicada al estudio de enfermedades genéticas raras. Juan A. García Ranea. Estratificación de pacientes con https://github.com/seoanezonjic/ExpHunterSuite

X26

La importancia de divulgar la investigación en Bioinformática. Charo Cobano.  7/10 prefieren informarse con vídeos en internet para informarse sobre ciencia.  Claves para divulgar con éxito: 1. claridad expositiva y lenguaje sencillo, 2. ética y rigor, 3. respeto profesional. Lo más importante, divulgar es sacrificar el tono elevado. Ayuda encontrar aplicaciones, aunque sean remotas, para mostrar el interés de nuestro trabajo.

Andalucía-Biotec: Desarrollo de tecnologías biomédicas y bioinformáticas en plataformas de transcriptómica espacial, para la implantación efectiva de la Medicina de Precisión en Andalucía. Eduardo Andrés León. Instrumentos GeoMx y BGI y protocolos en R sobre Nextflow y Docker.  https://satijalab.org/seurat/articles/spatial_vignette.html Stereo-seq tiene resolución de compartimento celular, 20-30 pocillos por célula.Se ha usado en plantas: https://pubmed.ncbi.nlm.nih.gov/35512702. Hay opción de hacer seguimiento de paneles de 800 genes, o de secuenciar todo lo que salga.

Transformando la Bioinformática: Agilidad y Optimización en la Nube, Natalia Jiménez Lozano, Life Sciences Business Developer Manager, https://www.viridiengroup.com (90 años de experiencia en la industria energética). En vez de facturar por hora, facturan por resultados obtenidos. Ayudan a optimizar el código para la infraestructura donde va a ejecutarse. Centros de datos en .fr, .uk, Texas y .sg. No tienen muchos contactos en la agricultura.

Retos para las/los bioinformáticas/os en el presente y en el futuro, Alfonso Valencia. Marenostrum5 220MEUR, 8o del mundo. EU no produce CPUs, la iniciativa EPI pretende conseguir RISK5 abiertos en 5 años. El diseño se lidera desde el BSC. El BSC hace sobre todo gemelos digitales y es la 3a institución .es en financiación europea. La generación de datos genómicos humanos pasa de depender de proyectos a depender de los sistemas de salud, y el mayor negocio está en analizar esos datos. Casi todos los LLMs están producidos por compañías EEUU, la EU ha sacado las AI factories para financiar su desarrollo. El BSC está implicado con las lenguas cooficiales .es y sacará un modelo 70B. https://pubmed.ncbi.nlm.nih.gov/36993670 . La barrera de entrada al desarrollo de métodos computacionales se está elevando. Cree que ahora mismo es más difícil hacer bioinfo sin tener acceso directo a datos experimentales. Somos ingenieros y no podemos hacer como antes sin conocer las matemáticas. No es muy partidario de grados en bioinfo porque igual es una especialización prematura. Cree que el área de generar datos sintéticos es estratégica (primero por evitar restricciones legales, pero ahora porque pueden tener valor por sí mismos, pero cómo los verificamos dependerá de cada caso). Sintácticamente usar textos generados por chatGPT para entrenar no es un problema, pero tienen los sesgos nativos. Cree que AF3 es un preprint que nos hemos podido comprobar todavía; cree que será peor porque el conjunto de entrenamiento para complejos es mucho más pequeño que el PDB.

Estudio de la biodiversidad funcional bacteriana en compost de alpeorujo de origen industrial. María José Estrella González. Producto semisólido acumulado en las almazaras y que se incineraba; ahora se intenta aprovechar para obtener otros compuestos de calidad variable con propiedades antimicrobianas y fitotóxicas.

Análisis bioinformático de los alérgenos del polen de olivo. Amanda Bullones. Principal alérgeno en Andalucía y La Mancha. Han mirado Picual, Arbequina, Farga y en acebuche (conservados, 75% tránscritos en diferentes variedades, pero con diferentes niveles de expresión), así como en leñosas subtropicales (no conservados). No todos son específicos del pólen y tienen funciones muy distintas lo que sugiere que no será fácil deshacerse de ellos. Tienen un protocolo de detección de nuevos alérgenos basado en árboles de decisión. https://scholar.google.com/citations?user=SA6QSqkAAAAJ

Caracterización del Transcriptoma y Análisis de S-Acilación en el Polen de olivo (muchos recursos) y Lilium longiflorum (tienen un transcriptoma) como Especie Modelo en Palinología. Andrea Román Mateo. Estudia enzimas acetil transferasas del pólen (PAT). La inhibición de PATs desciende la germinación.

Pangenomes reveal the genetic diversity of plants. Bruno Contreras. Cuento resultados de acumulados del análisis de pangenomas de Brachypodium distachyon, arroz y cebada con https://github.com/eead-csic-compbio/get_homologues y https://github.com/Ensembl/plant-scripts/tree/master/pangenes .

Unlocking the Potential of PacBio HiFi to obtain complete and high-quality genomes of the malaria parasite Plasmodium falciparum Bárbara Díaz Terenti. Usa Canu, le vale con 100x para sus mapeos.

Imagen
Participantes en las JABI2024. Fuente: https://x.com/jabi_conference/status/1805955884574511592 

  •  

 

    • En el póster de Jacob González Isa

       

23 de octubre de 2023

Coste energético de la bioinformática

Hola,

como parte de la conexión Biología Computacional y Bioinformática (BCB) hoy hemos escuchado en directo a Loïc Lannelongue hablar sobre su trabajo sobre el coste energético y ambiental de la bioinformática, del que ya habíamos hablado en este blog (https://bioinfoperl.blogspot.com/2023/02/mide-huella-carbono-algoritmos.html). 

Como muestra de sus resultados pego debajo una tabla con los costes que calculó para una selección de software típico, medidos de varias maneras (CO2 emitido, meses de árbol promedio y km recorridos por un coche). La tabla original la puedes encontrar en https://academic.oup.com/mbe/article/39/3/msac034/6526403. En ella puedes ver, por ejemplo, que la versión original de kraken es 1650% más costosa que kraken2.

Recuerda que puedes calcular la huella de carbono de cualquier software con los recursos que hay en https://www.green-algorithms.org

 

 

Hasta pronto,

Bruno