29 de abril de 2025

Uso aceptable de modelos de lenguaje según la ISCB

En este blog ya hemos hablado de los grandes modelos de lenguaje (LLMs por sus siglas en inglés) como ChatGPT. Esa entrada fue en 2023 y desde entonces hemos presenciado como su uso se extiende en todos los ámbitos, desde el móvil, los colegios o las empresas.

En ciencia también se han extendido mucho. Por ejemplo en el 1er congreso de la SEBiBC hubo una sesión dedicada a la IA donde se trataron. En mi caso, tengo instalado en mi máquina deepseek-r1:14b y qwen2.5-coder:latest sobre ollama y VSCode, y me ayudan a escribir código. Pero para qué usos es lícito usarlos en ciencia? 

La sociedad internacional de biología computacional (ISCB), con sede en EEUU, ha publicado a primeros de abril una guía breve, que dicen actualizarán según sea necesario. Al paso que va todo no creo que tarden mucho...

Como la ISCB tiene su sede en EEUU menciona entidades como el NIH; en cualquier caso pueden aplicarse con pocos cambios a otros ámbitos. La copio y pego aquí en inglés:

Confidentiality

When using commercial LLMs. such as ChatGPT or Gemini, data may be reused and thus it is important that confidential or personal information is not shared. This is particularly important with respect to peer review. The NIH currently forbids the use of LLMs in peer review for this reason (see NIH policy). Many Institutions have also developed further policies that may apply. Below we list the acceptable and unacceptable uses of LLMs and related technologies. Note that acceptable use cases only apply where confidentiality is not an issue.

Unacceptable Uses
It is not acceptable to use LLMs or related technologies to draft paper sections. In essence, papers MUST be written by humans.
It is not acceptable to use LLMs or related technologies to carry out reviewing activities, such as scientific peer reviews and promotion and tenure reviews. Firstly, these are an important part of the scientific process and they require scientific judgement. Secondly, review processes are in general confidential and should not be shared with third parties, including commercial LLM providers.
LLMs cannot be listed as authors as they do not fulfill the requirements of authorship as laid out in the ICMJE guidelines.

Acceptable Uses
As an algorithmic technique for research study in your research e.g. LLMs for protein structure prediction.
As an aid to correct written text (spell checkers, grammar checkers).
As an aid to language translation, however, the human is responsible for the accuracy of the final text.
As an evaluation technique (to assist in finding inconsistencies or other anomalies).
It is permissible to include LLM generated text snippets as examples in research papers where appropriate, but these MUST be clearly labeled and their use explained.
Assist in code writing, however, the human is responsible for the code.
Create documentation for code, however, the human is responsible for the correct documentation.
To discover background information on a topic, subject to verification from trusted sources.


Fuente: https://www.iscb.org/iscb-policy-statements/iscb-policy-for-acceptable-use-of-large-language-models

Hasta pronto

14 de marzo de 2025

asamblea 2025 conexiónBCB

Esta semana nos hemos reunido en la sede central del CSIC la gente de la https://conexion-bcb.csic.es . Ha estado muy bien sentirnos parte de esta comunidad. De la Estación Experimental de Aula Dei-CSIC hemos ido Sara Herrera y yo. Cuelgo aquí mis notas, tenéis un hilo con fotos en https://bsky.app/profile/did:plc:myfqcxmlvdxk2nrywhpxewol

 

Ana Conesa y el resto de la junta de la conexión durante el repaso al cumplimiento de objetivos.

 Deciphering the impact of genomic structural variants with POSTRE (Víctor Sánchez Naya, IBBTEC) https://doi.org/10.1093/nar/gkad225 , currently human only, considers genes within TADs [~LD blocks], TADs are broken/modified by SV, expression and regulation change, podría aplicarse a otras especies que tengan los mismos datos disponibles.

Application of chemo-informatics and AI tools to drug design: success stories (Ana Martínez, Carmen Gil, CIB) hacen modelado de proteínas y docking, también IA (regression, dimension reduction, clustering, classif, SMILE, mol graphs, NN).

Application of lipidomics and transcriptomics techniques for the study of the interaction of West Nile virus and its host (Patricia Mingo, INIA) trabajan con personas y ratones y buscan marcadores de enfermedad por ejemplo en hígado y cerebro, carga viral se dispara a los 7d, también ven cambios de expresión al tratar con fármacos que bajan neuroinflamación.

Ramiro Logares, ICM, talks about microbes in the ocean and the dimensions of their variability, that they approach with metagenomics and MAGs. The have 3 running experiments (including global TARA Oceans and Hesperides, down to -400m) and found that populations (Fst clusters) diverge more with distance than time. Some populations are related to yearly seasons.The tag adaptive genes by computing pN/pS across populations. He explains that defining populations os tricky due to their dynamic nature. Usa recursos de CESGA y codirigen la conexión microbioma: https://bsky.app/profile/csic-vaact.bsky.social/post/3lhe4yqploc2u

 
Structural modeling of proteins and their interactions in the AI era (Juan Fdez. Recio, ICVV, https://model3dbio.csic.es). Su grupo desarrolla métodos para el modelado de proteínas y sus complejos (el interactoma) como pyDock (https://pubmed.ncbi.nlm.nih.gov/17444519) y pyDockDNA (https://doi.org/10.3389/fmolb.2022.988996). Los han aplicado en múltiples colaboraciones. AlphaFold lo ha cambiado todo, ahora tenemos modelos para 99% de las proteínas humanas. Sin embargo, el panorama no es tan claro para el interactoma, sigue habiendo complejos muy difíciles. Ahora usan pyDock para evaluar modelos AF. Ahora que los grupos de docking han integrado AF-multimer, su capacidad predictiva ha mejorado de manera significativa, a pesar de los ejemplos irresolubles. Menciona también el problema del problema de mutantes, para el que desarrollaron https://life.bsc.es/pid/skempi2 , que podría ser parecido a foldX para PPIs.


Epigenomic signatures of cancer and cell identity (Daniel Rico, CABIMER). Con Miguel A Fortuna definen el epigenoma como la fracción ejecutable del genoma. Usan AVIDA (https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1005414). Quieren clasificar 'chromatypes' en genomas humanos. Más artículos recientes aquí. Toca el tema del cambio de expresión de (onco) genes tras la translocación de fragmentos que contienen enhancers.


Javier de las Rivas (CIC) talks about methods for bulk and single cell analysis of myeloid cell lineages (cell mix deconvolution, RNAseq  https://doi.org/10.3390/ijms26020805).


Algunos enlaces de las Flash Talks
código para genómica de poblaciones de https://github.com/sramosonsins
para modelar proteínas de membrana: https://academic.oup.com/bioinformatics/article/40/11/btae662/7879340
BEHAV3D: https://www.nature.com/articles/s41596-024-00972-6
 

Application of supervised machine learning in the exploration and resolution of evolutionary scenarios (Isabel Sanmartín, RJB). Why some lineages are species rich? what drives diversity? Switch to IA caused by megaphylogenies. Usan CNNs snps + traits y num especies para entrenar, cita https://onlinelibrary.wiley.com/doi/abs/10.1111/1755-0998.13534. She also explains that trees need to be ladderized, transversed and vectorized for DL, see for instance https://doi.org/10.1101/2024.12.13.628187 or https://arxiv.org/html/2405.07110v1
 

Notas de otras conexiones

En https://aihub.csic.es tienen curso como https://datalab-icmat.github.io/courses_stats.html
En https://pti-cienciadigital.csic.es usan recursos de https://eosc.eu

Justo antes de terminar hemos discutido en la asamblea opciones para que la conexión siga con vida a partir de 2026, tenemos trabajo por delante.

Hasta pronto!