Mostrando entradas con la etiqueta biología computacional. Mostrar todas las entradas
Mostrando entradas con la etiqueta biología computacional. Mostrar todas las entradas

18 de octubre de 2024

Algunas notas del 1er congreso de la SEBiBC

La Sociedad Española de Bioinformática y Biología Computacional (SEBiBC) celebró estos días su primer congreso bianual en Valencia y fue todo un éxito. Durante 3 días 350 estudiantes y profesionales de la biología computacional discutimos resultados recientes y fuimos iluminados por las charlas magistrales de Christine Orengo, Luz García Alonso, Doreen Ware (pionera de genómica de plantas y Gramene) y Jaime Huerta Cepas. Abajo comparto las notas de algunas de las actividades del congreso.

https://x.com/SEBiBC_es/status/1847254469093867696 


María Barranco trabaja con modelos de DL para extraer información sobre propiedades de compuestos químicos representados como SMILES como por ejemplo afinidad de union. Usan arquitectura SMILE-to-BERT y prueban dos tokenizadores distintos. Código y jupyter en https://github.com/m-baralt/smile-to-bert

Diego Herráez cuenta cómo su aproximación experimental basada en el mapeo termodinámico y la la microscopía confocal permite el estudio de células individuales en tejidos vivos, midiendo fluctuaciones (tracking- o flow-based). Figuras muy buenas, explicaciones muy superficiales por no entrar en detalles matemáticos de cómo se hace dinámica celular en 2D (no llegan todavía a 3D, es una limitación). Muestra vídeos a escala de µm de células y sus membranas. Aplican análisis de redes para modelar cómo se transmite la información en un tejido. Han estudiado el efecto de la aneuplodía en los tejidos y experimentos de migración de células.

Alejandro Orozco Valero, PhD student from UGranada, uses timeseries lib Catch22 (https://github.com/DynamicsAndNeuralSystems/catch22) to extract features from electrode-based data from two databases. Then they use DL to infer imbalances in brain activity.  He does discuss limitations and future work.

Marta Camarena talks about cancer vaccines and work recently published at https://www.science.org/doi/10.1126/sciadv.adn3628. They want to design vaccines targeting cancer-specific antigens encoded by non-canonical ORFs, mostly < 100aa, in immuneprivileged tossues (testis). Her work combines transcriptmics and immunopeptidomics. She is collaborating with clinicians at UNavarra to confirm those that elicit T cell responses. 

Christine Orengo "AlphaFold predicted structures expand our understanding of functional divergence in protein families". 

  Definen dominios sobre estructuras atómicas como consensos entre 3 métodos:

    Chainsaw para cortar dominios, incluso discontinuos, sobre matrices de contactos: https://academic.oup.com/bioinformatics/article/40/5/btae296/7667299
    Merizo: https://www.nature.com/articles/s41467-023-43934-4
    UniDoc: https://academic.oup.com/bioinformatics/article/39/2/btad070/7025502

  The encyclopedia of domains (https://zenodo.org/records/10848710), 25% are discontinuous, after filtering out poor AF models (<10%). Publicado en: https://doi.org/10.1126/science.adq4946

  Muestra resultados de PCA de CATHe (https://pubmed.ncbi.nlm.nih.gov/36648327) donde comprueba   que sus embeddings/inmersiones se parecen mucho a los HMMs de familias de CATH. En base a eso están usando https://huggingface.co/Rostlab/prot_bert para sustituir a HHalign, Prost-T5 en concreto.

Aureliano Bombarely from IBMCP starts by explaining plant features, biomass and diversity (300k species). 80% food comes from 17 families, 28k species are recorded as medicinal. Currently 2225 at NCBI Genome. Annotation tags genomic elements. Results: BRAKER > Helixer > Maker seems to incorporate better transcript (kmer) diversity and improves also over StringTie (ie BUSCO), although produces a lot of FPs (TE-related mostly). They use OrthoVenn to compare alternative annotations. DL-based Helixer is good anyway for its speed, linear with respect to assembly size, performing worse on species not used in the model.

Rubén Cañas from Global Omnium explains his work on water QC using macro-invertebrates as bioindicators, as they are responsive to env changes. Explains the Iberian BioMonitoring Water party Index and explains the scaling up methodological limitations. As a solution they try metagenomic identification of communities. They use 2 undisclosed  gene markers, combined with morpho-taxonomic identification (MI), with GM2 capturing the most diversity (shows alpha and beta diversity results). They work for family level identification. Pearson corr of metagenomic and MI is currently 0.28, but they are working on routine standardization to improve results. Discusses that NCBI Taxonomy was used for being more complete, despite other specialized resources being better for particular taxa on interests.

Michael Tress summarizes results from recently published work on novel ORFs https://academic.oup.com/nar/article/52/14/8112/7702505 . 28 out of 32 proteomics-supported examples sit in 5'UTR, and sometimes overlap with the canonical ORF. 64% human novel ORFs are not conserved beyond monkeys. Most new start codons are non canonical, most common is CTG. These ORFs are shifted towards higher %GC and are more expressed in cancer. In some cases they complete protein domains in AF models. He concludes by discussing that in most cases they add disordered regions and seem to be biological noise, except the one case that disrupts signal peptides and ships proteins to different compartments.

Arnau Montagud, currently at I2SysBio - CSIC, presents work from a postdoc at BSC. He presents their modelling software. As a disclaimer he takes some time to remind us that all models are wrong and biased, including sophisticated digital twins (DT). Despite these limitations, in healthcare multi-scale models are increasingly used to carry out animal-free pre-clinical tests. He has been using Boolean models over a decade now (MaBoss), for instance to simulate signalling pathways. Finally also mentions PhysiBoss and some current results that are being experimentally tested. He responds that quantum computing might be useful in the future.

Taller Bioinformática 2030: Innovación y Desafíos Profesionales

Diana de la Iglesia: Fujitsu tiene unidad de bioinfo, proyectos de 3-4 años que se mantienen en el tiempo, más orientados al cliente, mejores salarios

Laureano Carpio – Protoqsar advierte del suflé de la IA con la analogía de QSAR en química, recuerda el doctorado industrial, espera que con el tiempo y la mejora de las herramientas haya personas trabajando con menos cualificaciones

Sheila Zúñiga – INCLIVA habla de su experiencia en bioinfo clínica; en la SEBiBC están trabajando con el Ministerio para dar visibilidad a los profesionales bioinfo

Pedro Carmona – Centro de Investigaciones Genómicas e Oncológicas (GENYO) habla de la transformación del campo en 15 años hacia una cc de datos, actualmente tienen problemas de espacio para bioinformáticos. Cada vez más los bioinfos deberán liderar en los proyectos.

Falta la figura de técnico SO en Bioinformática para trabajar sin phd, ya ocurre en la empresa. Donde cae bioinfo en ANECA: no hay comisión específica -> comisión 0 multidisciplinar

Taller Inteligencia Artificial Generativa: El bueno, el feo y el malo

Material original: https://drive.google.com/drive/folders/1LcRG9Pi9696njoEOwpDMhJxgfkqTVJR2

Recursos: https://www.nomic.ai/gpt4all , https://asciinema.org

Ana Hernández presents her work on the Orth Group Delineation algorithm, able to detect duplication events. She did 3 benchmarks: i) Hox genes (ANTP, PRD,TALE) from 28 species, ii) quest for orthologues data and iii) using EGGNOG6 data. EGGNOG starts by doing all-vs-all comparison of sequences, which is expensive.

Alex Ascensión presents a way to detect bacterial reads, after filtering human ones, combining kraken2, krakenUniq, centrifuge and kaiku, more details at https://www.biorxiv.org/content/10.1101/2024.04.23.590754v1

Paula Ruiz presents a nextflow, dockerized pipeline for the uniform annotation of FASTA files of Mycobacterium genome assemblies with https://github.com/oschwengers/bakta and miniprot, which are then fixed using the ref annotation as guide. These improve pangenome downstream analysis.

Miguel Fernández starts by presenting ANI and its limitations, which prompted development of BACTAX-ID, code not available yet (https://github.com/irycisBioinfo/BacTaxID), which uses MASH distance and a fixed set of cutoffs to group genomes.

Taller BCBHub: Strategies for International Funding of Computational Biology and Bioinformatics
First page says it all, even 1st sentence
Repeat main idea
European leadership
Gender balance
CZF biomed,  no databases, impact, essential tools, CV weights less than tool, not for incipient tools, with community

Jaime Huerta Cepas "Functional, evolutionary and ecological signif of unknown genes in the global microbiome" summarizes ten fantastic years of work, with special focus to https://www.nature.com/articles/s41586-023-06955-z, which helped alumnus Álvaro Rodríguez del Río win the Oswaldo Trelles award for the best PhD thesis in 2024. We are proud of him and Carlos Cantalapiedra, also mentioned in the keynote.

Nuestro poster: https://digital.csic.es/handle/10261/368616


Algunos recursos que vi en pósters

Caastools para encontrar mutaciones missense en (árbol, MSA de CDS) asociadas con caracteres, ejemplo en el póster con primates: https://github.com/linudz/caastools

Protocolo para identificación y anotación de lncRNAs en plantas: https://github.com/ncRNA-lab/Cucurbit_lncRNAs_landscape

BUGSI, like BUSCO but including only housekeeping genes with only one isoform. Should be useful to estimate quality of (human?) transcriptomes. Not sure whether this would be available for plants.

Dinámica molecular para predecir mutaciones missenese que afecten al plegamiento: https://github.com/elhectro2/reMoDA

Hierarchical deep learning for predicting GO annotations: https://academic.oup.com/bioinformatics/article/38/19/4488/6656346

22 de julio de 2024

La brecha de la biología computacional en español

Hoy me encontré un artículo del reciente ISMB2024 que lleva por nombre 'Closing the computational biology ‘knowledge gap’: Spanish Wikipedia as a case study' y que podéis leer en https://doi.org/10.1093/bioinformatics/btae247.  Este trabajo analiza la brecha que hay en recursos didácticos sobre bioinformática en otras lenguas más allá del inglés, tomando el español como ejemplo. 

¿Por qué necesitamos estos recursos los hispanohablantes? Porque casi la mitad no hablaban otra lengua en 2016 y porque para escribir o hablar sobre ciencia nos cuesta mucho más en inglés. En biología computacional en concreto, sólo una quinta parte de los artículos en inglés en la Wikipedia tienen un equivalente en español, y la brecha es mayor aún en otras lenguas, como se ve en la figura:

Original en https://academic.oup.com/view-large/figure/468774084/btae247f2.tif. Datos y código aquí.

Una manera de cerrar la brecha es organizar talleres/competiciones para trabajar sobre la Wikipedia, como hicieron en ISCB-LA SOIBIO BioNetMX 2022. Como resultado, los participantes lograron mejorar de manera significativa algunas páginas con contenidos bioinformáticos en español, quedando en primer lugar 'pangenoma':

Original en https://academic.oup.com/view-large/figure/468774085/btae247f3.tif

Termino invitando a revisar nuestros materiales en español, que podéis encontrar junto con otros en inglés en https://eead-csic-compbio.github.io/matdidactico.html

Hasta luego,

Bruno

 

2 de junio de 2023

Aprende Bioinformática en España en 2023

Hola,

hoy comparto un documento que ha publicado la asociación de jóvenes bioinformáticos de Granada (BioInfoGRX).

https://bioinformaticsgrx.es/wp-content/uploads/2021/11/Main-web2.png

Se trata de la guía "Aprende BioInformática", que se ocupa de:

  • Estudiar BioInformática en España (grados y másters)
  • Cursos online de BioInformática (biología, programacion y analisis de datos)


Es un documento dinámico que actualizará su contenido periódicamente. Puedes sugerir cambios en bioinformaticsgrx@gmail.com y descargarlo en:

https://bioinformaticsgrx.es/wp-content/uploads/2022/02/Gui%CC%81a-formativa-en-bioinforma%CC%81tica.docx.pdf


Espero sea útil,

Bruno


21 de abril de 2021

Dos versiones del mismo genoma: el caso de la cebada

Hola,

una de las plantas con las que hemos trabajado más en los últimos años es la cebada (Hordeum vulgare), un cultivo de enorme importancia en el secano de la península ibérica (ver por ejemplo https://www.eead.csic.es/barley). Puedes leer aquí sobre otros genomas de plantas y para qué los usamos.

La cebada es una especie diploide con un genoma haploide de 5.3 Gbp repartidos en 7 cromosomas, con un %GC=44.5. Es un genoma de gran complejidad que ha requerido un esfuerzo de al menos un década por parte de un consorcio internacional. Las diferentes etapas de la secuenciación y ensamblaje del cultivar Morex se pueden recorrer en:

Mi intención es mostrar cuánto pueden cambiar dos versiones del mismo genoma a medida que se incorporan nuevas tecnologías, en este caso lecturas largas PacBio (circular consensus sequencing, CCS). 

En este ejemplo comparamos la versión más reciente (MorexV3) respecto a una anterior (IBSC_v2). Si consultamos el European Nucleotide Archive, podemos ver sus estadísticas generales (verás que he puesto en negrita los cambios más notables):
 

IBSC_v2 (GCA_901482405.1)

Total Length:           4,833,791,107
Ungapped Length:        4,446,895,020
Chromosomes & Plasmids:             0
Spanned Gaps:               1,030,196
Scaffolds:                          8
Scaffold N50:             657,224,000
Contigs:                    1,030,204
Contig N50:                    19,388
MorexV3 (GCA_904849725.1)
Total Length:           4,225,577,519
Ungapped Length:        4,224,251,725
Chromosomes & Plasmids:             7
Spanned Gaps:                     162
Scaffolds:                        290
Scaffold N50:             610,333,535
Contigs:                          452  
Contig N50:                69,630,691 

Se puede ver que el nuevo ensamblaje es más pequeño, contiene muchos menos huecos (gaps) y tiene 7 cromosomas construidos a partir de un conjunto de apenas 452 contigs enormes.

En cuanto a la anotación, tomando datos de Ensembl Plants, si la versión IBSC_v2 tenía 39,841 genes codificantes de proteínas de "alta confianza, HC", la más reciente tiene 35,825. Finalmente, si mapeamos con bwa SNPs de IBSC_v2 en ventanas de 150 nucleótidos contra el nuevo genoma, de un total de 16.5M logramos 13.4M mapeos únicos y perdemos 2.7M SNPs por el camino (un 16%).

En la versión de 2021 Mascher et al hacen incapié en la significante ganancia en la calidad de las anotaciones de elementos repetidos, como se ve en la figura para los retrotransposones del tipo BARE1: 

 

                               Fuente: https://doi.org/10.1093/plcell/koab077

En resumen, el nuevo genoma es sustancialmente diferente al anterior y visto lo visto, seguramente no sea el último, aunque todos ellos han sido muy útiles sin duda,

Bruno

17 de junio de 2014

postdoc computational systems biology Luxemburg

Postdoctoral Fellow in Computational Systems Biology at the Luxembourg Centre for Systems Biomedicine in collaboration with the Black Family Stem Cell Institute of the Mount Sinai School of Medicine

http://www.nature.com/naturejobs/science/jobs/425291-postdoctoral-fellow-in-systems-biology

The Computational Biology Group seeks a highly skilled and motivated Postdotoral Fellow to work on an exciting project on the application of network biology approaches to study the role of gene expression stochasticity in cell fate commitment. In particular, the selected candidate shall develop a computational model that integrates transcriptomics and epigenomics data to describe heterogeneity in embryonic stem cells and its implication in differentiation. Single cell and cell perturbation experiments will be performed in order to validate the predictions generated by the model. This project will be carried out in collaboration with Profs. Ihor Lemischka and Kateri Moore at the Black Family Stem Cell Institute of the Mount Sinai School of Medicine. The selected applicant will have the opportunity to visit the experimental labs of our collaborators at the Mount Sinai School of Medicine.

Requirements of the ideal candidate:

  • Ph.D. in Bioinformatics, Computer Science, Biology or a related discipline
  • Strong computational skills
  • Prior experience in mathematical modelling of biological networks, especially in network inference and analysis
  • A strong first-author publication record in the fields of Bioinformatics and Computational Biology
  • Excellent working knowledge in English.

We offer:

  • Opportunity to do applied research to medical problems within a highly dynamic research institution (LCSB) and in collaboration with internationally recognized partners
  • An exciting international environment
  • A very competitive salary

For further information, please contact:

Prof. Dr. Antonio del Sol, Luxembourg Centre for Systems Biomedicine
E-mail: antonio.delsol@uni.lu

9 de mayo de 2014

2nd CNB Course on Introduction to Research

Hola,
pego un anuncio de un curso para estudiantes interesados en investigar que se realizará en Madrid del  30 de Junio al 25 de Julio en el Centro Nacional de Biotecnología-CSIC, que me parece puede ser una excelente oportunidad para algunos de los seguidores del blog. Los alumnos elegidos tendrán la oportunidad de interaccionar con investigadores de todas las áreas del centro, y en concreto en el departamento de Biología de Sistemas hay varios grupos con tradición en la formación en biología computacional.




Toda la información en http://tinyurl.com/lnqtmgp.
 
Un saludo,
Bruno

25 de marzo de 2014

XII Jornadas de Bioinformática / XII Symposium on Bioinformatics

Hola,
hoy damos difusión a las pŕoximas Jornadas de Bioinformática, el mayor evento científico sobre biología computacional en España. Esta es la información que tengo de momento:


The XII Symposium on Bioinformatics (XII Jornadas de Bioinformática) will take place on 21-24 September in Sevilla, Spain, at cicCartuja (CSIC-US). 

The 21st will be the student symposium, and the main conference will start on Monday the 22nd. The URL for the meeting is: 


http://www.bioinformaticsconference2014.org/

(programme/committees are still preliminar, but will be updated periodically)
With the aim of encouraging the participation of younger bioinformaticians this year’s symposium main theme is “Bioinformatics: The New Breed”.Abstracts topics include but are not limited to:
  • Integrative Biology (NGS, -omics technologies...)
  • Structural Bioinformatics and function prediction
  • Algorithms, method, and tools development
  • Metagenomics
  • Medical Informatics 

    Abstract submission closes Thursday, July 31, 2014 

PD 25 de Agosto: nuestro laboratorio presentará dos charlas seleccionadas en las secciones de Metagenómica y Estructura y Función. Además Álvaro Sebastián, colaborador habitual del blog presentará un libro de texto sobre Bioinformática en español, en la sección The Unworkshop format.

9 de noviembre de 2013

Trucos para la biología computacional

Buenas,
hoy quiero invitaros a leer lo que nos cuentan dos bioinformáticos (Mick Watson y Nick Loman) sobre el trabajo y el aprendizaje de este oficio, publicado en Nature Biotechnology. Además de tocar temas más relacionados con el desarrollo de software (como el control de versiones) y la construcción de tuberías de análisis, el artículo repasa obviedades que no obstante conviene no olvidar, como
"knowledge of biology is vital in the interpretation of computational results"
 u otra más concreta:
 "Laboratory scientists wouldn’t dream of running experiments without the necessary positive and negative controls... tests are the computational biology equivalent".
El texto, breve, toca temas importantes como la elección apropiada de métodos en bioinformática, la validación de tu propio código y el que te descargaste de otros autores, y la búsqueda de opiniones expertas en foros como SEQanswers. Si te interesa, puedes seguir leyendo en http://www.nature.com/nbt/journal/v31/n11/full/nbt.2740.html?WT.ec_id=NBT-201311,
un saludo,
Bruno

14 de octubre de 2013

Premio Nobel en biología computacional

Buenos días,
han pasado ya unos días desde el anuncio, pero hasta hoy no he caído en que sería buena idea hablar en este blog sobre el reciente premio Nobel de Química, que ha caído sobre los hombros de Michael Levitt, Martin Karplus y Arieh Warshel. He de reconocer que al último no le conocía, pero a los dos primeros les he leído, visto en congresos y escuchado mencionar muchas veces a lo largo de mi aprendizaje, sobre todo en la vertiente estructural de la bioinformática.


Martin Karplus es famoso por sus trabajos sobre dinámica de macromoléculas, a menudo apoyados por datos cristalográficos,  y por el desarrollo de CHARMM. Por tanto, creo que tiene un perfil muy fuerte en química.

Sin embargo, Levitt ha tenido un papel muy relevante en la bioinformática estructural y en el desarrollo de algoritmos, y por tanto creo que es justo decir que ha sido muy influyente en el desarrollo de nuestra disciplina. Prueba de ello es que participa en los consejos editoriales de revistas que han sido clave en nuestra área como Journal of Molecular Biology, PNAS y PLoS Computational Biology, y que ha participado como evaluador en CASP. Además, como recoge una reciente nota de la ISCB, sus propias palabras traen un poco de este premio a la biología computacional:

“It’s sort of nice in more general terms to see that computational science, computational biology is being recognized. [...] It’s become a very large field and it’s always in some ways been the poor sister, or the ugly sister, to experimental biology.”

Así que estamos de enhorabuena, verdad?
Un saludo, Bruno

Añadido el 15/11/2013:
http://www.sciencedirect.com/science/article/pii/S0022283613006943

Añadido el 04/12/2013:
http://www.pnas.org/content/110/49/19656.extract.html