#!/perl/bioinfo: Submit gene with unknown intron to GenBank

8 de enero de 2020

Submit gene with unknown intron to GenBank

Hola de nuevo,
el 31 de diciembre conseguí finalmente enviar a GenBank unas secuencias parciales de genes de cebada utilizadas por mi colega Ana Casas en un estudio. Éste es un paso necesario para publicar en casi cualquier revista seria, pero además es la manera de asegurar que tus secuencias van a ser útiles para otras personas en el futuro.

Antes de que se me olvidé comparto aquí como lo hice, teniendo en cuenta que uno de los genes tiene un intrón de longitud desconocida y se secuenció en dos amplicones que abarcan respectivamete los exones 1-9 y 10-14:

Para poder archivar una secuencia así en GenBank utilice tbl2asn en varios pasos:

Obtención de una plantilla .sbt con https://submit.ncbi.nlm.nih.gov/genbank/template/submission . El fichero resultante especifica los autores y otros metadatos, y lo puedes usar para distintas secuencias.

Confección de un fichero FASTA con extensión .fsa (unk_intron_gene.fsa) que contenga las secuencias de ambos amplicones separadas por un tramo de 100 Ns. Para facilitar el siguiente paso intrones y exones deben ir en mayúsculas y minúsculas, respectivamente, como en este fragmento que comprende los exones 8, 9 y 10:

...TGTCAGatactatgcaattgccacaccaagtgctacacaaagattgctttttggtct
TGTCAGatactatgcaattgccacaccaagtgctacacaaagattgctttttggtcttct
tgaagcaccaccatcatgggctccagatgcacttgatgcagcagttcagcttgttgaact
ccttcgggcagctgaagattatgctactggcatgcggGTATGACATACTGCATGCTGGCT
GTTGTTTCAGTCCTGTTAGTTGTGATGCCTCACGATACAAAATTTCCATATTCGTATGTT
TTGGGTGTGCATGTTTATTAATCTTGGTAACTTTAAATTCCTGTTCAGcttccaaaaaat
tggttgcatcttcatttcttgcgtgcgattggaactgcaatgtctatgagggctggtatt
gctgccgatacagctgctgcgttgctttttcgcatactatcccaaccaacgttgcttttt
cctccactaaggcatgctgaaggagttgaagtgcaacatgaaccactgggtggctatgta
tcatcatacaaaagacagGTATGCAGTAGTTTCTGCATCTAGTTAATTTTTCATTATCTG
TTCTTCTTTAGTAAAGACTCAANNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNGGATCCATGTTTTAGTCTTCTTGGTTTTACTGATTGTTGCCTTATGTCTGCATGACTA
ATTTACCTGCTTGCACTTTGAACTATTCACAGctggaagttcctgcatctgaaaccacaa
ttgatgccactgcacaaggcattgcttccttgctgtgtgctcatggtcctgatgttgagt
ggagaatatgtaccatctgggaagctgcctatggtttgttacctctgaattcatcagcag
ttgatttgcccgaaatcgttgtagctgctccgcttcagccacctactttgtcatggagcc
tatacttgccactgttgaaagtattcgagtatctacctcgtggaagtccatctgaagcat
gccttatgagaatatttgtggcaacagttgaagctatactcagaagaactttcccttcgg
aaacctctgaatcatctaaaagaccaagaagtcaatccaagaaccttgctgttgctgaac
tccgtacaatgatacattcactctttgttgaatcatgtgcttcaatgaaccttgcttccc
ggttgttgtttgttgtattaactgtttgcgtcagtcatcaagctttgccagggggcagca
aaagaccaacgggtagtgaaaaccattcttctgaggaggccactgaggacccaagattaa
ccaatggaagaaataaggtcaagaagaaacaagggcctgttggtacatttgactcgtatg
tgctggctgctgtttgtgccttatcttgtgagcttcagctgttccctatcctttgcaaga
gtgcaacaaactcaaaagtaaaagactctataaagatcctgaagcctggaaaaaacaatg
ggatcagtaatgagctacagaatagcattagctcagcaattctccatactcgtagaattc
ttggcatcctggaagctcttttctccttgaagccatcatcagttggtacctcctggaact
atagttcaaatgagatagttgcagcggctatggttgccgctcatgtttctgagttatttc
gccggtcgaggccatgcctaaatgcactatcttcactgaagcgatgtaagtgggatgctg
agatttctaccagggcatcatccctttaccatttgatcgatttgcatggtaaaactgtgt
cctccatcgtgaacaaagctgagcctctagaagctcacctgacttttacatcagtaaaga
gagatggtcaacaacacattgaggaaaacagcaccagctcatcgggtaatggcaacttgg
aaaagaagaatgcttcagcctcacacatgaaaaatggtttttcaagaccactcttgaaat
gctcagaagaggctaggcgaaatggtaatgttgcaagtacatccgggaaagttcctgcaa
ctttacaggctgaagcatctgatttggctaacttccttaccatggatagaaatgggggtt
atcgaggctctcagactctcctaagttctgttatctcagaaaaacaggaattatgcttct
ctgttgtctcattgctctggcataagcttattgcatctcctgaaacgcagatgtctgcag
aaagtacatcagctcatcaaggttggagaaagGTA...

Obtención de las coordenadas de los exones con ayuda del siguiente script Perl que usa variables especiales de expresiones regulares:
```
perl -lne 'if(/^>/){} else{ while(/[a-z]+/g){ printf("%d\t%d\n",$-[0]+1,$+[0])} }' unk_intron_gene.fsa
```
```
 
```

Prepara y completa un fichero .tbl (feature table) por gen. Verás que los campos van separados por tabuladores. Si es un gen parcial deberás indicarlo usando ">" en las coordenadas de inicio y fin, tal como se explica en https://www.ncbi.nlm.nih.gov/Sequin/table.html . Para el gen ejemplo yo obtuve el siguiente .tbl:

>Feature HvGI Table1
<1    >7751 gene
    gene HvGI
1383 1469 mRNA
1564 1641
1738 1792
1881 2023
2120 2376
2811 2869
3079 3319
3390 3540
3672 3881
4821 6320
6420 6488
6636 6854
7014 7106
7195 7500
1383 1469 CDS
1564 1641
1738 1792
1881 2023
2120 2376
2811 2869
3079 3319
3390 3540
3672 3881
4821 6320
6420 6488
6636 6854
7014 7106
7195 7500
    product HvGI

Guarda en una carpeta propia los ficheros .fsa y .tbl, un par por gen, por ejemplo genes/
Descarga del binario tbl2asn adecuado para tu sistema operativo desde ftp://ftp.ncbi.nih.gov/toolbox/ncbi_tools/converters/by_program/tbl2asn
Haz el binario ejecutable si fuera necesario

Haz la conversión, por ejemplo en Linux:

linux.tbl2asn -t template.sbt -p genes/ -V vb -a r10u

Comprueba errores (errorsummary.val) y corrige los respectivos ficheros .tbl y vuelve al paso 8.
Envía los ficheros .sqn resultantes por medio de http://www.ncbi.nlm.nih.gov/LargeDirSubs/dir_submit.cgi

Hasta pronto,
Bruno

#!/perl/bioinfo

8 de enero de 2020

Submit gene with unknown intron to GenBank

No hay comentarios:

Publicar un comentario

Archivo del blog