#!/perl/bioinfo: congreso

Mostrando entradas con la etiqueta congreso. Mostrar todas las entradas

18 de octubre de 2024

Algunas notas del 1er congreso de la SEBiBC

La Sociedad Española de Bioinformática y Biología Computacional (SEBiBC) celebró estos días su primer congreso bianual en Valencia y fue todo un éxito. Durante 3 días 350 estudiantes y profesionales de la biología computacional discutimos resultados recientes y fuimos iluminados por las charlas magistrales de Christine Orengo, Luz García Alonso, Doreen Ware (pionera de genómica de plantas y Gramene) y Jaime Huerta Cepas. Abajo comparto las notas de algunas de las actividades del congreso.


https://x.com/SEBiBC_es/status/1847254469093867696

María Barranco trabaja con modelos de DL para extraer información sobre propiedades de compuestos químicos representados como SMILES como por ejemplo afinidad de union. Usan arquitectura SMILE-to-BERT y prueban dos tokenizadores distintos. Código y jupyter en https://github.com/m-baralt/smile-to-bert

Diego Herráez cuenta cómo su aproximación experimental basada en el mapeo termodinámico y la la microscopía confocal permite el estudio de células individuales en tejidos vivos, midiendo fluctuaciones (tracking- o flow-based). Figuras muy buenas, explicaciones muy superficiales por no entrar en detalles matemáticos de cómo se hace dinámica celular en 2D (no llegan todavía a 3D, es una limitación). Muestra vídeos a escala de µm de células y sus membranas. Aplican análisis de redes para modelar cómo se transmite la información en un tejido. Han estudiado el efecto de la aneuplodía en los tejidos y experimentos de migración de células.

Alejandro Orozco Valero, PhD student from UGranada, uses timeseries lib Catch22 (https://github.com/DynamicsAndNeuralSystems/catch22) to extract features from electrode-based data from two databases. Then they use DL to infer imbalances in brain activity. He does discuss limitations and future work.

Marta Camarena talks about cancer vaccines and work recently published at https://www.science.org/doi/10.1126/sciadv.adn3628. They want to design vaccines targeting cancer-specific antigens encoded by non-canonical ORFs, mostly < 100aa, in immuneprivileged tossues (testis). Her work combines transcriptmics and immunopeptidomics. She is collaborating with clinicians at UNavarra to confirm those that elicit T cell responses.

Christine Orengo "AlphaFold predicted structures expand our understanding of functional divergence in protein families".

Definen dominios sobre estructuras atómicas como consensos entre 3 métodos:

    Chainsaw para cortar dominios, incluso discontinuos, sobre matrices de contactos: https://academic.oup.com/bioinformatics/article/40/5/btae296/7667299
    Merizo: https://www.nature.com/articles/s41467-023-43934-4
    UniDoc: https://academic.oup.com/bioinformatics/article/39/2/btad070/7025502

The encyclopedia of domains (https://zenodo.org/records/10848710), 25% are discontinuous, after filtering out poor AF models (<10%). Publicado en: https://doi.org/10.1126/science.adq4946

Muestra resultados de PCA de CATHe (https://pubmed.ncbi.nlm.nih.gov/36648327) donde comprueba   que sus embeddings/inmersiones se parecen mucho a los HMMs de familias de CATH. En base a eso están usando https://huggingface.co/Rostlab/prot_bert para sustituir a HHalign, Prost-T5 en concreto.

Aureliano Bombarely from IBMCP starts by explaining plant features, biomass and diversity (300k species). 80% food comes from 17 families, 28k species are recorded as medicinal. Currently 2225 at NCBI Genome. Annotation tags genomic elements. Results: BRAKER > Helixer > Maker seems to incorporate better transcript (kmer) diversity and improves also over StringTie (ie BUSCO), although produces a lot of FPs (TE-related mostly). They use OrthoVenn to compare alternative annotations. DL-based Helixer is good anyway for its speed, linear with respect to assembly size, performing worse on species not used in the model.

Rubén Cañas from Global Omnium explains his work on water QC using macro-invertebrates as bioindicators, as they are responsive to env changes. Explains the Iberian BioMonitoring Water party Index and explains the scaling up methodological limitations. As a solution they try metagenomic identification of communities. They use 2 undisclosed gene markers, combined with morpho-taxonomic identification (MI), with GM2 capturing the most diversity (shows alpha and beta diversity results). They work for family level identification. Pearson corr of metagenomic and MI is currently 0.28, but they are working on routine standardization to improve results. Discusses that NCBI Taxonomy was used for being more complete, despite other specialized resources being better for particular taxa on interests.

Michael Tress summarizes results from recently published work on novel ORFs https://academic.oup.com/nar/article/52/14/8112/7702505 . 28 out of 32 proteomics-supported examples sit in 5'UTR, and sometimes overlap with the canonical ORF. 64% human novel ORFs are not conserved beyond monkeys. Most new start codons are non canonical, most common is CTG. These ORFs are shifted towards higher %GC and are more expressed in cancer. In some cases they complete protein domains in AF models. He concludes by discussing that in most cases they add disordered regions and seem to be biological noise, except the one case that disrupts signal peptides and ships proteins to different compartments.

Arnau Montagud, currently at I2SysBio - CSIC, presents work from a postdoc at BSC. He presents their modelling software. As a disclaimer he takes some time to remind us that all models are wrong and biased, including sophisticated digital twins (DT). Despite these limitations, in healthcare multi-scale models are increasingly used to carry out animal-free pre-clinical tests. He has been using Boolean models over a decade now (MaBoss), for instance to simulate signalling pathways. Finally also mentions PhysiBoss and some current results that are being experimentally tested. He responds that quantum computing might be useful in the future.

Taller Bioinformática 2030: Innovación y Desafíos Profesionales

Diana de la Iglesia: Fujitsu tiene unidad de bioinfo, proyectos de 3-4 años que se mantienen en el tiempo, más orientados al cliente, mejores salarios

Laureano Carpio – Protoqsar advierte del suflé de la IA con la analogía de QSAR en química, recuerda el doctorado industrial, espera que con el tiempo y la mejora de las herramientas haya personas trabajando con menos cualificaciones

Sheila Zúñiga – INCLIVA habla de su experiencia en bioinfo clínica; en la SEBiBC están trabajando con el Ministerio para dar visibilidad a los profesionales bioinfo

Pedro Carmona – Centro de Investigaciones Genómicas e Oncológicas (GENYO) habla de la transformación del campo en 15 años hacia una cc de datos, actualmente tienen problemas de espacio para bioinformáticos. Cada vez más los bioinfos deberán liderar en los proyectos.

Falta la figura de técnico SO en Bioinformática para trabajar sin phd, ya ocurre en la empresa. Donde cae bioinfo en ANECA: no hay comisión específica -> comisión 0 multidisciplinar

Taller Inteligencia Artificial Generativa: El bueno, el feo y el malo

Material original: https://drive.google.com/drive/folders/1LcRG9Pi9696njoEOwpDMhJxgfkqTVJR2

Recursos: https://www.nomic.ai/gpt4all , https://asciinema.org

Ana Hernández presents her work on the Orth Group Delineation algorithm, able to detect duplication events. She did 3 benchmarks: i) Hox genes (ANTP, PRD,TALE) from 28 species, ii) quest for orthologues data and iii) using EGGNOG6 data. EGGNOG starts by doing all-vs-all comparison of sequences, which is expensive.

Alex Ascensión presents a way to detect bacterial reads, after filtering human ones, combining kraken2, krakenUniq, centrifuge and kaiku, more details at https://www.biorxiv.org/content/10.1101/2024.04.23.590754v1

Paula Ruiz presents a nextflow, dockerized pipeline for the uniform annotation of FASTA files of Mycobacterium genome assemblies with https://github.com/oschwengers/bakta and miniprot, which are then fixed using the ref annotation as guide. These improve pangenome downstream analysis.

Miguel Fernández starts by presenting ANI and its limitations, which prompted development of BACTAX-ID, code not available yet (https://github.com/irycisBioinfo/BacTaxID), which uses MASH distance and a fixed set of cutoffs to group genomes.

Taller BCBHub: Strategies for International Funding of Computational Biology and Bioinformatics
First page says it all, even 1st sentence
Repeat main idea
European leadership
Gender balance
CZF biomed, no databases, impact, essential tools, CV weights less than tool, not for incipient tools, with community

Jaime Huerta Cepas "Functional, evolutionary and ecological signif of unknown genes in the global microbiome" summarizes ten fantastic years of work, with special focus to https://www.nature.com/articles/s41586-023-06955-z, which helped alumnus Álvaro Rodríguez del Río win the Oswaldo Trelles award for the best PhD thesis in 2024. We are proud of him and Carlos Cantalapiedra, also mentioned in the keynote.

Nuestro poster: https://digital.csic.es/handle/10261/368616

Algunos recursos que vi en pósters

Caastools para encontrar mutaciones missense en (árbol, MSA de CDS) asociadas con caracteres, ejemplo en el póster con primates: https://github.com/linudz/caastools

Protocolo para identificación y anotación de lncRNAs en plantas: https://github.com/ncRNA-lab/Cucurbit_lncRNAs_landscape

BUGSI, like BUSCO but including only housekeeping genes with only one isoform. Should be useful to estimate quality of (human?) transcriptomes. Not sure whether this would be available for plants.

Dinámica molecular para predecir mutaciones missenese que afecten al plegamiento: https://github.com/elhectro2/reMoDA

Hierarchical deep learning for predicting GO annotations: https://academic.oup.com/bioinformatics/article/38/19/4488/6656346

26 de junio de 2024

JABI2024 en Granada

Esta semana he participado en las Jornadas Andaluzas de Bioinformática (https://jabi2024.ugr.es), que han tenido lugar en Granada (también visité la Estación Experimental del Zaidín).

Justo antes de mi charla Gonzalo Claros mencionó que me había conocido por este blog, así que aprovecho este medio para poner aquí mis notas y recordar que en a partir de septiembre lanzaremos dos 2 contratos en la bolsa de empleo del CSIC:

contrato 36M genómica de Sinapis alba, dentro del proyecto https://soilolive.eu

contrato 48M atracción talento: genómica + agroclimática con Santiago Beguería

L26

Rosario Carmona. CSVS: base de datos de variabilidad genética española (cohorte de n=2105). Panel de 78 genes accionables (alta penetrancia, tratables) de la ACMG v3.1, SNPs anotados con ClinVar e InterVar. Para muestras agregadas se filtró por, MAF > 0.1 en dif poblaciones.

Ruth Domínguez habla de enfermedad autoinmune lupus, que produce Ab contra ADN, asociada a +100 loci. Miran un gen que en pacientes tiene mayor divergencia en los alelos HLA (valor HED, https://hladiv.net) que en no enfermos. Simulan los 15-péptidos que unen los repertorios HLA.

IRPVS: la base de datos de variabilidad genética de población romaní española Javier Pérez Florido. En OMIM hay ya 6K mutaciones en genes que causan fenotipo. Tienen n=119 individuos sanos no relacionados. Grupo más endogámico y con más rondas de homocigosidad que la pob española en general, así como más variantes con efectos grandes sobre proteína. Menciona browser https://github.com/babelomics/CSVS

Candidate genes for severe tinnitus based on the impact of rare variants in coding regions Alba Escalera Balsera. Ruido percibido sin fuente externo. Tiene base genética. Usa VEP + https://github.com/konradjk/loftee para anotar SNPs que causan pérdida de función. Menciona FLAGS (n=100 genes que acumulan mutaciones no sinónimas en general).

La importancia de la Bioinformática en la investigación translacional de los microRNAs (22nt, dianas en 3'UTR). Michael Hackenberg, grupo iniciado por JL Oliver. Predicción bioinfo en humanos poco útil por muchos FPs. Hizo software miRanalyzer para analizar FASTQs de miRNAs y mapearlos sobre sus loci precursores en el genoma cuando cumplen requisitos del mecanismo (hairpin, desfase de 2nt entre extremos, etc), renombrado como sRNAtoolbox. Artefactos comunes en la secuenciación de miRNAs: sesgo de la ligasa por SS (ligation bias, ie NTG o GGN), problemas en la normalización (no hay consenso, usan NORMSEQ con information gain para elegir en cada experimento, vale para RNAseq también, https://academic.oup.com/nar/article/51/W1/W372/7175338), muestras no independientes. Estudios filogenéticos con miRNAs a partir de MirGeneDB que ordena y nombra ortólogos y parálogos. Tras décadas de trabajo, hay ~600 miRNAs humanos bona fide, no se pueden descartar otros nuevos que se expresen en líneas celulares raras.IsomiRs son isómeros modificados de los miRNAs canónicos.

M27

Towards Digital Quantification of Ploidy from Pan-Cancer Digital Pathology Slides using Deep Learning Francisco Carrillo Perez. Parten imágenes grandes (>10000pixel de lado) en trozos (tiles), reducen 4K vectores de características a 100, comparan XGBoost (tradicional, lo usa Philipp Bayer en pangenomas y Alberto Esteban Medina en la siguiente charla) vs PloiVIT (basado en transformers) y usan MAE, MAPE y RMSE como métricas. Quieren ver si transformers mejoran otros modelos ML más clásicos y ven que generalizan mejor en datos independientes al predecir ploidía (tumores). El código se liberará en https://med.stanford.edu/gevaertlab/software.html

Evaluation of an explainable AI algorithm for the classification of genetic variants in hereditary cancer Laura Martínez Gómez. 50% de los casos de cáncer son autosómicos dominantes. Entrenan con ClinVar2020 y evalúan con Snps de ClinVar2023 que cambiaron su status desde 2020. Para ser explicable tiene un modelo paralelo que explica las predicciones en base a los factores de contribución, pero no da detalles.

Medicina de precisión en Enfermedades Autoinmunes Sistémicas. Marta Alarcón Riquelme, mexicana. Habla de estratificación multiómica de lupus, prototipo de enfermedad autoinmune sistémica, para tratar mejor a estos pacientes en vez de que acumulen varios tratamientos a la vez por tener varias afectaciones en diferentes órganos. Encuentran al menos 4 tipos de pacientes. Ven que los pacientes de un grupo lo siguen siendo 14m después tras iniciarse la enfermedad.

GSEMA: Gene Set Enrichment Meta-Analysis para integración de estudios con genes faltantes Juan Antonio Villatoro García. MA basados en tamaño de efecto, por combinación de p-valores o por enriquecimiento de rutas. Previamente imputa genes no medidos. Usando su software en Github puedes crear tus propias anotaciones para los genes de interés.

drexml: Software libre para el descubrimiento de dianas terapéuticas en enfermedades raras. Carlos Loucera. https://pubmed.ncbi.nlm.nih.gov/38510973

Making the most of your transcriptomic landscapes: A computational workflow to quantify activity of context-specific biological functions at the single-cell level José Luis Ruiz. Observan que scran es mejor para normalizar.

Medicina de Sistemas aplicada al estudio de enfermedades genéticas raras. Juan A. García Ranea. Estratificación de pacientes con https://github.com/seoanezonjic/ExpHunterSuite

X26

La importancia de divulgar la investigación en Bioinformática. Charo Cobano. 7/10 prefieren informarse con vídeos en internet para informarse sobre ciencia. Claves para divulgar con éxito: 1. claridad expositiva y lenguaje sencillo, 2. ética y rigor, 3. respeto profesional. Lo más importante, divulgar es sacrificar el tono elevado. Ayuda encontrar aplicaciones, aunque sean remotas, para mostrar el interés de nuestro trabajo.

Andalucía-Biotec: Desarrollo de tecnologías biomédicas y bioinformáticas en plataformas de transcriptómica espacial, para la implantación efectiva de la Medicina de Precisión en Andalucía. Eduardo Andrés León. Instrumentos GeoMx y BGI y protocolos en R sobre Nextflow y Docker. https://satijalab.org/seurat/articles/spatial_vignette.html Stereo-seq tiene resolución de compartimento celular, 20-30 pocillos por célula.Se ha usado en plantas: https://pubmed.ncbi.nlm.nih.gov/35512702. Hay opción de hacer seguimiento de paneles de 800 genes, o de secuenciar todo lo que salga.

Transformando la Bioinformática: Agilidad y Optimización en la Nube, Natalia Jiménez Lozano, Life Sciences Business Developer Manager, https://www.viridiengroup.com (90 años de experiencia en la industria energética). En vez de facturar por hora, facturan por resultados obtenidos. Ayudan a optimizar el código para la infraestructura donde va a ejecutarse. Centros de datos en .fr, .uk, Texas y .sg. No tienen muchos contactos en la agricultura.

Retos para las/los bioinformáticas/os en el presente y en el futuro, Alfonso Valencia. Marenostrum5 220MEUR, 8o del mundo. EU no produce CPUs, la iniciativa EPI pretende conseguir RISK5 abiertos en 5 años. El diseño se lidera desde el BSC. El BSC hace sobre todo gemelos digitales y es la 3a institución .es en financiación europea. La generación de datos genómicos humanos pasa de depender de proyectos a depender de los sistemas de salud, y el mayor negocio está en analizar esos datos. Casi todos los LLMs están producidos por compañías EEUU, la EU ha sacado las AI factories para financiar su desarrollo. El BSC está implicado con las lenguas cooficiales .es y sacará un modelo 70B. https://pubmed.ncbi.nlm.nih.gov/36993670 . La barrera de entrada al desarrollo de métodos computacionales se está elevando. Cree que ahora mismo es más difícil hacer bioinfo sin tener acceso directo a datos experimentales. Somos ingenieros y no podemos hacer como antes sin conocer las matemáticas. No es muy partidario de grados en bioinfo porque igual es una especialización prematura. Cree que el área de generar datos sintéticos es estratégica (primero por evitar restricciones legales, pero ahora porque pueden tener valor por sí mismos, pero cómo los verificamos dependerá de cada caso). Sintácticamente usar textos generados por chatGPT para entrenar no es un problema, pero tienen los sesgos nativos. Cree que AF3 es un preprint que nos hemos podido comprobar todavía; cree que será peor porque el conjunto de entrenamiento para complejos es mucho más pequeño que el PDB.

Estudio de la biodiversidad funcional bacteriana en compost de alpeorujo de origen industrial. María José Estrella González. Producto semisólido acumulado en las almazaras y que se incineraba; ahora se intenta aprovechar para obtener otros compuestos de calidad variable con propiedades antimicrobianas y fitotóxicas.

Análisis bioinformático de los alérgenos del polen de olivo. Amanda Bullones. Principal alérgeno en Andalucía y La Mancha. Han mirado Picual, Arbequina, Farga y en acebuche (conservados, 75% tránscritos en diferentes variedades, pero con diferentes niveles de expresión), así como en leñosas subtropicales (no conservados). No todos son específicos del pólen y tienen funciones muy distintas lo que sugiere que no será fácil deshacerse de ellos. Tienen un protocolo de detección de nuevos alérgenos basado en árboles de decisión. https://scholar.google.com/citations?user=SA6QSqkAAAAJ

Caracterización del Transcriptoma y Análisis de S-Acilación en el Polen de olivo (muchos recursos) y Lilium longiflorum (tienen un transcriptoma) como Especie Modelo en Palinología. Andrea Román Mateo. Estudia enzimas acetil transferasas del pólen (PAT). La inhibición de PATs desciende la germinación.

Pangenomes reveal the genetic diversity of plants. Bruno Contreras. Cuento resultados de acumulados del análisis de pangenomas de Brachypodium distachyon, arroz y cebada con https://github.com/eead-csic-compbio/get_homologues y https://github.com/Ensembl/plant-scripts/tree/master/pangenes .

Unlocking the Potential of PacBio HiFi to obtain complete and high-quality genomes of the malaria parasite Plasmodium falciparum Bárbara Díaz Terenti. Usa Canu, le vale con 100x para sus mapeos.


Participantes en las JABI2024. Fuente: https://x.com/jabi_conference/status/1805955884574511592

En el póster de Jacob González Isa

29 de septiembre de 2014

La ciencia huye, el espectáculo continúa

Hace tiempo que tenía ganas de escribir una entrada de opinión en el blog y al final me he animado tras leer el artículo del periódico El País titulado "El show de la ciencia".

Resumiendo, dicho artículo más que hablar de ciencia desvela las cifras de dinero gastadas en organizar el congreso de astrofísica, show o festival Starmus en Tenerife. En la primera edición tuvo pérdidas de más de 200000 euros y este año va a costar más de 300000 euros y seguramente siga teniendo pérdidas a pesar de contar con unos 800 asistentes que pagan 300 euros para asistir a las conferencias de Stephen Hawking o algunos viejos astronautas de la NASA.

El hecho es que hace unos días asistí a un congreso de bioinformática en Sevilla con un presupuesto mucho más modesto. No importaba que pocos de los 160 científicos allí presentes fuera mundialmente conocido, la máxima gloria de muchos de nosotros es salir una vez en la vida en un periódico o televisión regional contando brevemente nuestra investigación.

Tampoco podemos compararnos con Hawking que viaja con un súbdito de 10 personas en crucero de lujo, nosotros viajamos con Ryanair y AVE tarifa promo (que si algún día perdemos el tren o el avión tenemos que pagarlo de nuestro sueldo porque la 'Administración' no entiende las condiciones de dichos billetes).

Las conversaciones en el café eran mucho más mundanas que las que pueda tener un astronauta, recuerdo frases como "ahora en mi centro de investigación no tenemos que hacer cola en el comedor", "despidieron a un científico de cada grupo", "me he pagado el viaje de mi bolsillo porque prefiero usar el poco dinero del proyecto para investigar".

No se discutió sobre la formación del universo o de la existencia de Dios. Los temas eran más mundanos, por ejemplo la medicina personalizada, muy interesante si tenemos en cuenta que la mayoría de lectores de este blog padeceremos cáncer en el futuro.

Y ¿porqué esta reflexión? porque una vez más demuestra que España es un país de bombo y pandereta, de políticos corruptos, de obras multimillonarias inservibles, de congresos de "estrellas"... pero permanecen olvidados muchos jóvenes investigadores (médicos, ingenieros...), con brillantes curriculums, con contratos temporales, en el paro o con sueldos mileuristas, a los que nunca se les dio la oportunidad de devolver a la sociedad todo lo que se invirtió en su educación.

Habrán traído a Stephen Hawking a dar un par de charlas, pero estamos olvidando que muchos de nuestros científicos en el futuro seguramente ya no las darán en nuestro país...

Saludos desde el extranjero.

25 de marzo de 2014

XII Jornadas de Bioinformática / XII Symposium on Bioinformatics

Hola,

hoy damos difusión a las pŕoximas Jornadas de Bioinformática, el mayor evento científico sobre biología computacional en España. Esta es la información que tengo de momento:

The XII Symposium on Bioinformatics (XII Jornadas de Bioinformática) will take place on 21-24 September in Sevilla, Spain, at cicCartuja (CSIC-US).

The 21st will be the student symposium, and the main conference will start on Monday the 22nd. The URL for the meeting is:

http://www.bioinformaticsconference2014.org/

(programme/committees are still preliminar, but will be updated periodically)

With the aim of encouraging the participation of younger bioinformaticians this year’s symposium main theme is “Bioinformatics: The New Breed”.Abstracts topics include but are not limited to:

Integrative Biology (NGS, -omics technologies...)
Structural Bioinformatics and function prediction
Algorithms, method, and tools development
Metagenomics
Medical Informatics

Abstract submission closes Thursday, July 31, 2014

PD 25 de Agosto: nuestro laboratorio presentará dos charlas seleccionadas en las secciones de Metagenómica y Estructura y Función. Además Álvaro Sebastián, colaborador habitual del blog presentará un libro de texto sobre Bioinformática en español, en la sección The Unworkshop format.

17 de enero de 2014

Congreso BIFI2014 y taller internacional de bioinformática

Hola,

la próxima semana el laboratorio estará en dos eventos simultáneos:

http://bifi.es/events/bifi2014

http://congresos.nnb.unam.mx/TIB2014

1) los Talleres Internacionales de Bioinformática TIB2014, donde Carlos Pérez Cantalapiedra participa como profesor en el "Taller 2: Bioinformática para análisis de datos de secuenciación masiva (NGS)". Este evento tiene lugar en el campus UNAM en Cuernavaca, Morelos, México. Aprovecho para señalar que, entre otras muchas herramientas y utilidades para el manejo de datos NGS, Carlos empleará dos programas desarrollados en el laboratorio, uno escrito en C++ y otro en Perl:

split_pairs: efficient kseq-based program to sort and find paired reads within FASTQ/FASTA files, with the ability to edit headers with the power of Perl-style regular expressions
split_blast: Perl script to take advantage of multi-core CPUs for doing BLAST searches that fit in RAM, del que ya hablamos en este blog

2) la IV International Conference BIFI 2014, en Zaragoza, España, donde el laboratorio presenta varios pósters y una charla sobre trabajo reciente.

Nos vemos allí, un saludo,

Bruno

31 de enero de 2012

BIFI 2012 - V Congreso Internacional - Dianas proteicas: Descubrimiento de Compuestos Bioactivos

Del 1 al 4 de febrero de 2012 se celebrará en Zaragoza la 5º Congreso Internacional del Instituto de Biocomputación y Física de Sistemas Complejos (BIFI).

Este año el tema central será el Descubrimiento de Fármacos, cubriendo desde los pasos iniciales de investigación en laboratorio hasta los estudios preclínicos: nuevas dianas proteicas, validación de dianas, nuevas metodologías y herramientas de caracterización tanto estructural como funcional y cribado computacional de moléculas. La conferencia servirá de punto de encuentro de investigadores del campo del descubrimiento de fármacos, donde se discutirán los avances más recientes y retos futuros.

Nuestro laboratorio asistirá al evento con un seminario titulado "Protein-DNA interface prediction techniques: performance and potential in protein engineering" y un póster titulado: "In vivo DNA binding pattern of Rex-1 in mouse embryonic stem cells" realizado en colaboración con el Departamento de Veterinaria de la Universidad de Zaragoza.

English version:

The V International Conference of the Institute for Biocomputation and Physics of Complex Systems (BIFI) on February 1-4, 2012.

The meeting will be an international conference on Drug Discovery from a protein perspective, covering most of the initial steps in drug discovery and preclinical studies (new protein targets, protein target validation, new methodologies and tools for structural and functional characterization, experimental and computational high-throughput screening, etc.). We wish the conference to represent a venue for gathering active researchers on drug discovery, with strong roots in the scientific and academic communities to discuss recent developments and future challenges in the field.

Our laboratory will participate in the event with a talk titled "Protein-DNA interface prediction techniques: performance and potential in protein engineering" and a poster titled: "In vivo DNA binding pattern of Rex-1 in mouse embryonic stem cells" in collaboration with the Veterinary Department of the University of Zaragoza.

26 de enero de 2012

Apuntes sobre las XI Jornadas Bioinformáticas

Hola,
tras el anuncio de hace unas semanas, voy a comentar un poco mis impresiones sobre las XI Jornadas de Bioinformática. Después de la sesión inaugural del lunes, a su vez precedida por el simposio de estudiantes, a las que no pude asistir, el día 24 realmente empezaron mis jornadas. Como valoración general, creo que los asistentes hemos tenido ocasión de aprender y de discutir sobre los problemas del campo, y hemos tenido la oportunidad de escuchar charlas muy buenas. Para los que no pudieron venir, ahí va mi resumen de las charlas a las que asistí y notas sobre algunos pósters.


Modelo 3D de la region cromosómica ENCODE ENm008, que contiene el locus de la α-globina, adaptado de www.ncbi.nlm.nih.gov/pmc/articles/PMC3056208.

24 de Enero
Hoy hemos podido escuchar un montón de charlas sobre temas variopintos, y me ha llamado la atención la abrumadura presencia de la palabra mágica NGS (Next Generation Sequencing) en muchas de ellas. También en los pósters expuestos ha habido muchos ejemplos de la aplicación de estas herramientas, sobre todo de RNAseq.

De lo que he visto muy poco hoy ha sido de ChIPseq, tan sólo el póster de Ionas Erb con el software Pro-Coffee para alinear secuencias de DNA de promotores, publicado en NAR.

Otro póster que me llamó la atención fue el trabajo de Minoche sobre la evaluación sistemática de los errores típicos de la plataforma de secuenciación Solexa, publicada en Genome Biology.

Sonia Tarazona me explicó su póster sobre RNAseq y me invitó a probar el software Qualimap, que permite evaluar el efecto del coverage sobre la interpretación de las diferencias de expresión medidas en RNAseq.

Leo Mirny nos explicó en detalle la técnica de Hi-C para localizar regiones de cromatina cercanas en el espacio celular y cómo en su grupo han usado este tipo de datos para entender el empaquetamiento del núcleo de levaduras y de Homo sapiens, construyendo una matriz que se parece mucho a un mapa de contactos de proteínas, algo que también por la tarde explicó Davide Bau en su trabajo sobre la transcripción y la estructura de la cromatina en un locus de alfa globina.

Juan Ramón González nos comentó los métodos predominantes actuales para la normalización de conteos de lecturas RNAseq (TMM, EDAseq y CQN) y presentó los problemas que tienen las distribuciones de Poisson (con un parámetro libre) y la binomial negativa (con dos) para modelar algunos datos reales, y mostró ejemplos convincentes del uso de la de Poisson-Tweedie como lo mejor de los dos mundos, con un tercer parámetro para elegir según el caso el mejor modelo estadístico, dada la dispersión de los datos reales de esta teconología. Propone su paquete de Bioconductor/R tweeDEseq como herramienta para esta tarea.

Eva María Novoa nos dió una clase magistral sobre el uso de codones en procariotas y eucariotas, presentando evidencia de la importancia de las enzimas UMS (en proka) y hetADATS (adenosine deaminasas de euka), que modifican terceras bases de los tRNAs, para explicar las diferentes frecuencias de codones en todos los bichos conocidos. Su trabajo se publica en Cell.

Nacho Medina nos deslumbró con la capacidad de su equipo del CIPF para crear una tubería de análisis de datos de NGS que nos permitirá como usuarios hacerlo todo en sus servidores en "tiempos de minutos", aprovechando la optimización que han hecho de los distintos algoritmos y del hardware subyacente, que incluye, si no recuerdo mal, CPUs, GPUs dedicadas y discos de estado sólido. Me llamó mucho la atención su navegador genómico HTML5, que se puede probar en http://genomemaps.org.

Tomas Marques nos volvió a hablar de primates, ya lo había hecho en Málaga en el 2010. Esta vez trató de convencernos de la importancia de mirar con lupa los datos de NGS, en su caso de ensamblaje genómico, de usar el software adecuado para nuestros objetivos, y de hacer el control de calidad en casa, sin delegarlo. Menciona que en su labo usan GATK como software para variant calling tras haberlo comparado con otros.

Tanya Vavouri nos explicó, si lo entendí bien, que los espermatozoides humanos maduros conservan sólo un 4% de los nucleosomas, pero que justo esos pueden ser muy importantes para pasar información epigenéticas al nuevo cigoto, porque se correlacionan con picos de %GC muy cercanos a promotores.

Javier Macia nos mostró ejemplos de cómo modelar circuitos electrónicos a base de puertas lógicas implementadas con células de levadura modificadas.

Ya hacia el final del día Toni Giorgino nos mostró dinámicas moleculares espectaculares de un dominio SH2 y su ligando, y Pablo Minguez publicó un montón de resultados sobre la conservación de sitios en proteínas eucariotas que pueden sufrir modificaciones postraduccionales. Lo siento, a las dos últimas charlas no me pude quedar.

25 de Enero
El tercer y último día del congreso arrancó con una conferencia plenaria de Luis Serrano donde nos resumió los estudios de su grupo sobre Mycoplasma pneumoniae, un parásito bacteriano con genoma extremadamente reducido que se puede cultivar en el laboratorio. Su charla se puede resumir como la aplicación de todas las herramientas bioinformática, genómicas, proteómicas y metabolómicas disponibles para tratar de caracterizar la biología de este bicho, que tiene solamente unos 10 factores de transcripción homólogos de otros conocidos en otras especies. Por destacar algo de una charla muy densa pero amena, Luis habló que encontraban una correlación <0.50 entre los niveles de expresión génica y las cantidades de proteína detectadas por MS en distintas condiciones. Esta observación no es muy novedosa, pero sí la explicación que proponía, basada en la divergencia de las secuencias Shine-Dalgarno en los mensajeros, que motivarían menores afinidades de los ribosomas y por tanto menores tasas de traducción.

Antonio Mérida presentó el software Sma3s para la anotación de genomas, que comparó con otros programas como Blast2GO. Roderic Guigó apuntaba tras la charla que la anotación de un genoma actualmente debe incluir no sólo genes codificantes sino también RNAs reguladores, por ejemplo.

Paolo Ribeca dió la primera charla del día dedicada al tema estrella (NGS). En esta conferencia Paolo repasó los principales problemas del mapeo de lecturas (reads) sobre un genoma de referencia y las limitaciones de los principales programas (Bowtie,BWA,SOAP,MrFAST,MrsFAST) a la hora de hacer búsquedas exhaustivas y flexibles sobre posibles dianas genómicas, algo que su propia plataforma GEM parece haber resuelto y acelerado considerablemente. Su mensaje de precaución es que el usuario de este tipo de software debe conocer con cierta precisión cómo funciona el programa que va a usar y qué limitaciones tiene, en vez de confiar en el programa a ciegas y dejar que tome decisiones, no siempre transparentes, por ti.

Darío Guerrero mostró datos sobre la validación de una tubería de preprocesamiento de lecturas NGS y el ensamblaje de datos de RNAseq, con seqtrimnext y fulllengther, respectivamente. Uno de los programas con los que comparó sus resultados fue Mira.

Beatriz García nos contó el desarrollo de software de aprendizaje automático para la asignación de secuencia de proteínas sin anotar a rutas metabólicas.

Ya en la tarde, Patrick Aloy nos contó un proyecto de su grupo que reconstruye una red de interacciones de proteínas implicadas en la enfermedad de Alzheimer y su uso, junto con una base de datos de fármacos y sus efectos terapéuticos, para predecir el efecto de nuevos compuestos para su tratamiento, así como para replantearse el uso de otros. Parte de este trabajo está publicado aquí.

Ana Rojas nos explicó como su grupo había reconstruido la filogenia de la superfamilia de proteínas RAS, encontrando por el camino los residuos funcionales responsables de las diferencias funcionales de las diferentes familias.

Mar Gonzàlez nos resumió resultados de su reciente artículo sobre la variabilidad del splicing alternativo en poblaciones humanas.

Alberto Pascual García nos mostró cómo, a partir de datos de presencia/ausencia de rRNA en muestras de diferentes ambientes, se puede inferir la composición bacteriana en un ambiente y por medio de una aproximación basada en la arquitectura de las redes resultantes estudiar si los diferentes géneros tienden a agregarse o segregarse.

Hernán Dopazo nos contó resultados de un trabajo suyo que está en revisión donde sostiene que la composición de los genomas, en cuanto a elementos como genes, rRNAs, promotores, elementos repetidos, etc, se distribuye de manera parecida a la distribución de especies que se observa en ecosistemas naturales, en un proceso donde aparentemente la selección tiene poco que decir.

En la última charla que pude escuchar Jaime Huerta nos contó los progresos de su grupo para hacer filogenias anidadas, que se pueden entender como un proceso recursivo donde vamos refinando el árbol inicial recalculando de manera recursiva la topología de las ramas a medida que vamos de la raíz a las hojas, añadiendo nuevos genes ortólogos a medida que avanza el proceso.

Entre los pósters del segundo día tomé nota del servidor iLOOP para la predicción de interacciones proteína-proteína, del software TAPyR para el alineamiento de reads largos como los de 454 y del programa Pyicos para el procesamiento de datos de ChIPseq.

PD Una oferta de trabajo que se publicó en el congreso:

The Evolutionary Genomics Group in the Comparative and Computational Genomics program of the IBE (http://www.ibe.upf-csic.es/) is willing to recruit a PhD student. More information is available in the attached document. For queries, please contact Tomás Marquès-Bonet (tomas.marques@upf.edu)

29 de diciembre de 2011

Jornadas Bioinformáticas JBI 2012 (XI Edición)

Aprovecho esta última entrada del año para dar difusión a las Jornadas de Bioinformática JBI 2012. Como muchos sabréis, este congreso es el principal punto de encuentro anual de nuestra comunidad en la península ibérica, así que nuestro laboratorio también estará en Barcelona del 23 al 25 de Enero. El programa completo de las jornadas se puede descargar en este enlace.

http://sgu.bioinfo.cipf.es/jbi2012

Este año presentaremos parte de nuestro trabajo reciente:

"Genome-wide clustering of transcription factors by comparison of predicted protein-DNA interfaces"

donde explicamos y evaluamos la anotación de interfaces de reconocimiento de DNA en secuencias de proteínas por medio de diferentes aproximaciones como BLAST, TFmodeller, DP-Bind y DISIS.

El tema principal de las jornadas será "Arquitectura genómica, anotación y diseño", sobre el cual se discutirán los diferentes avances en la integración de los campos de la Biología, Medicina e Informática en el campo de la Genómica. Además se tratarán los siguientes temas:
- Análisis de datos de secuenciación de alto rendimiento (NGS)
- Bioinformática estructural
- Algoritmos de biología computacional y computación de alto rendimiento
- Análisis de sequencias, filogenética y evolución
- Bases de datos, herramientas y tecnologías en biología computacional
- Bioinformática en transcriptómica y proteómica
- Biología de sistemas

ENGLISH:

The XIth Spanish Symposium on Bioinformatics (JBI2012) will take place in January 23-25, 2012 in Barcelona, Spain. Co-organised by the Spanish Institut of Bioinformatics and the Portuguese Bioinformatics Network and hosted by the Barcelona Biomedical Research Park (PRBB). The full program can be downloaded from this link.

This year, the reference topic is “Genome Architecture, Annotation and Design” for which the conference will provide the opportunity to discuss the state of the art for the integration of the fields of biology, medicine and informatics. We invite you to submit your work and share your experiences in the following topics of interest including, but not limited to:

- Analysis of high throughput data (NGS)
- Structural Bioinformatics
- Algorithms for computational biology and HPC
- Sequence analysis, phylogenetics and evolution
- Databases, Tools and technologies for computational biology
- Bioinformatics in Transcriptomics and Proteomics
- System and Synthetic Biology

Our contribution to the congress:

Genome-wide clustering of transcription factors by comparison of predicted protein-DNA interfaces

Transcription Factors (TFs) play a central role in gene regulation by binding to DNA target sequences, mostly in promoter regions. However, even for the best annotated genomes, only a fraction of these critical proteins have been experimentally characterized and linked to some of their target sites. The dimension of this problem increases in multicellular organisms, which tend to have large collections of TFs, sometimes with redundant roles, that result of whole-genome duplication events and lineage-specific expansions. In this work we set to study the repertoire of Arabidopsis thaliana TFs from the perspective of their predicted interfaces, to evaluate the degree of DNA-binding redundancy at a genome scale. First, we critically compare the performance of a variety of methods that predict the interface residues of DNA-binding proteins, those responsible for specific recognition, and measure their sensitivity and specificity. Second, we apply the best predictors to the complete A.thaliana repertoire and build clusters of transcription factors with similar interfaces. Finally, we use our in-house footprintDB to benchmark to what extent TFs in the same cluster specifically bind to similar DNA sites. Our results indicate that there is substantial overlap of DNA binding specificities in most TF families. This observation supports the use of interface predictions to construct reduced representation of TF sets with common DNA binding preferences.

13 de septiembre de 2010

Jornadas Bioinformáticas JBI 2010 (X Edición), nuestro laboratorio estará allí...

Las Jornadas Bioinformáticas son la cita anual obligada para los bioinformáticos españoles. Este año se celebrará su décima edición del 27 al 29 de Octubre en Torremolinos (Málaga). La organización de las mismas corre a cargo de la Universidad de Málaga, el Instituto Nacional de Bioinformática y la Red Portuguesa de Bioinformática. Este año el tema central es "La bioinformática aplicada a la medicina personalizada", sobre el cual se discutirá la integración de los campos de la biología, medicina e informática para el desarrollo de terapias más específicas y efectivas. Sin embargo, éste no será el único tema a tratar, también se compartirán resultados y experiencias en otros campos:
- Análisis de datos en técnicas de alto rendimiento como la secuenciación de nueva generación.
- Bioinformática estructural
- Algoritmos de biología computacional y técnicas de computación de alto rendimiento
- Análisis de secuencias, filogenética y evolución
- Bases de datos, herramientas y tecnologías de biología computacional
- Bioinformática en transcriptómica y proteómica
- Biología sintética y de sistemas

IN ENGLISH:

The Xth Spanish Symposium on Bioinformatics (JBI2010) will take place in October 27-29, 2010 in Torremolinos-Málaga, Spain. Co-organised by the National Institute of Bioinformatics-Spain and the Portuguese Bioinformatics Network and hosted by the University of Malaga (Spain).

This year, the reference topic is “Bioinformatics for personalized medicine” for which the conference will provide the opportunity to discuss the state of the art for the integration of the fields of biology, medicine and informatics. We invite you to submit your work and share your experiences in the following topics of interest including, but not limited to:
- Analysis of high throughput data (NGS)
- Structural Bioinformatics
- Algorithms for computational biology and HPC
- Sequence analysis, phylogenetics and evolution
- Databases, Tools and technologies for computational biology
- Bioinformatics in Transcriptomics and Proteomics
- System and Synthetic Biology

Nuestras aportaciones

Nuestro laboratorio va a participar en las Jornadas Bioinformáticas con tres contribuciones que presentaré a continuación:

3D-footprint: a database for the structural analysis of protein–DNA complexes (paper)
The relation between amino-acid substitutions in the interface of transcription factors and their recognized DNA motifs
101DNA: a set of tools for Protein-DNA interface analysis

3D-footprint: a database for the structural analysis of protein–DNA complexes
3D-footprint is a living database, updated and curated on a weekly basis, which provides estimates of binding specificity for all protein–DNA complexes available at the Protein Data Bank. The web interface allows the user to: (i) browse DNA-binding proteins by keyword; (ii) find proteins that recognize a similar DNA motif and (iii) BLAST similar DNA-binding proteins, highlighting interface residues in the resulting alignments. Each complex in the database is dissected to draw interface graphs and footprint logos, and two complementary algorithms are employed to characterize binding specificity. Moreover, oligonucleotide sequences extracted from literature abstracts are reported in order to show the range of variant sites bound by each protein and other related proteins. Benchmark experiments, including comparisons with expert-curated databases RegulonDB and TRANSFAC, support the quality of structure-based estimates of specificity. The relevant content of the database is available for download as flat files and it is also possible to use the 3D-footprint pipeline to analyze protein coordinates input by the user. 3D-footprint is available at http://floresta.eead.csic.es/3dfootprint with demo buttons and a comprehensive tutorial that illustrates the main uses of this resource.

The relation between amino-acid substitutions in the interface of transcription factors and their recognized DNA motifs

Transcription Factors (TFs) play a key role in gene regulation by binding to DNA target sequences. While there is a vast literature describing computational methods to define patterns and match DNA regulatory motifs within genomic sequences, the prediction of DNA binding motifs (DBMs) that might be recognized by a particular TF is a relatively unexplored field. Numerous DNA-binding proteins are annotated as TFs in databases; however, for many of these orphan TFs the corresponding DBMs remain uncharacterized. Standard annotation practice transfer DBMs of well known TFs to those orphan protein sequences which can be confidently aligned to them, usually by means of local alignment tools such as BLAST, but these predictions are known to be error-prone. With the aim of improving these predictions, we test whether the knowledge of protein-DNA interface architectures and existing TF-DNA binding experimental data can be used to generate family-wise interface substitution matrices (ISUMs). An experiment with 85 Drosophila melanogaster homeobox proteins demonstrate that ISUMs: i) capture information about the correlation between the substitution of a TF interface residue and the conservation of the DBM; ii) are valuable to evaluate TFs alignments and iii) are better classifiers than generic amino-acid substitution matrices and that BLAST E-value when deciding whether two aligned homeobox proteins bind to the same DNA motif.

101DNA: a set of tools for Protein-DNA interface analysis

Analysis of protein-DNA interfaces has shown a great structural dependency. Despite the observation that related proteins tend to use the same pattern of amino acid and base contacting positions, no simple recognition code has been found. While protein contacts with the sugar-phosphate backbone of DNA provide stability and yield very little specificity information, contacts between amino acid side-chains and DNA bases (direct readout) apparently define specificity, in addition to some constrains defined by DNA sequence-dependent features, namely indirect readout.
Recent approaches have proposed bipartite graphs as an structural way of analysing interfaces from a protein-DNA-centric viewpoint. With this perspective in mind, we have developed a set of tools for the dissection and comparison of protein-DNA interfaces. Taking a protein-DNA complex file in PDB format as input, the software generates a 2D matrix that represents a bipartite graph of residue contacts obtained after applying a simple distance threshold that captures all non-covalent interactions. The generated 2D matrices allow a fast and simple visual inspection of the interface and have been successfully produced for the current non-redundant set of protein-DNA complexes in the 3D-footprint database.
As a second utility to compare 2 interfaces, the 101DNA software includes an aligment tool where a dynamic programming matrix is created with the Local Affine Gap algorithm and traced back as a finite state automata. The scores between pairs of interface amino acid residues are calculated as a function of the observed contacts with DNA nitrogen bases. This tool produces local interface alignments which are independent of the underlying protein sequence, but that faithfully represent the binding architecture. Preliminary tests show that these local alignments successfully identify binding interfaces that share striking similarity despite belonging to different protein superfamilies, and these observations support this graph-theory approach.