el 31 de diciembre conseguí finalmente enviar a GenBank unas secuencias parciales de genes de cebada utilizadas por mi colega Ana Casas en un estudio. Éste es un paso necesario para publicar en casi cualquier revista seria, pero además es la manera de asegurar que tus secuencias van a ser útiles para otras personas en el futuro.
Antes de que se me olvidé comparto aquí como lo hice, teniendo en cuenta que uno de los genes tiene un intrón de longitud desconocida y se secuenció en dos amplicones que abarcan respectivamete los exones 1-9 y 10-14:
- Obtención de una plantilla .sbt con https://submit.ncbi.nlm.nih.gov/genbank/template/submission . El fichero resultante especifica los autores y otros metadatos, y lo puedes usar para distintas secuencias.
- Confección de un fichero FASTA con extensión .fsa (unk_intron_gene.fsa) que contenga las secuencias de ambos amplicones separadas por un tramo de 100 Ns. Para facilitar el siguiente paso intrones y exones deben ir en mayúsculas y minúsculas, respectivamente, como en este fragmento que comprende los exones 8, 9 y 10:
...TGTCAGatactatgcaattgccacaccaagtgctacacaaagattgctttttggtct TGTCAGatactatgcaattgccacaccaagtgctacacaaagattgctttttggtcttct tgaagcaccaccatcatgggctccagatgcacttgatgcagcagttcagcttgttgaact ccttcgggcagctgaagattatgctactggcatgcggGTATGACATACTGCATGCTGGCT GTTGTTTCAGTCCTGTTAGTTGTGATGCCTCACGATACAAAATTTCCATATTCGTATGTT TTGGGTGTGCATGTTTATTAATCTTGGTAACTTTAAATTCCTGTTCAGcttccaaaaaat tggttgcatcttcatttcttgcgtgcgattggaactgcaatgtctatgagggctggtatt gctgccgatacagctgctgcgttgctttttcgcatactatcccaaccaacgttgcttttt cctccactaaggcatgctgaaggagttgaagtgcaacatgaaccactgggtggctatgta tcatcatacaaaagacagGTATGCAGTAGTTTCTGCATCTAGTTAATTTTTCATTATCTG TTCTTCTTTAGTAAAGACTCAANNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN NNGGATCCATGTTTTAGTCTTCTTGGTTTTACTGATTGTTGCCTTATGTCTGCATGACTA ATTTACCTGCTTGCACTTTGAACTATTCACAGctggaagttcctgcatctgaaaccacaa ttgatgccactgcacaaggcattgcttccttgctgtgtgctcatggtcctgatgttgagt ggagaatatgtaccatctgggaagctgcctatggtttgttacctctgaattcatcagcag ttgatttgcccgaaatcgttgtagctgctccgcttcagccacctactttgtcatggagcc tatacttgccactgttgaaagtattcgagtatctacctcgtggaagtccatctgaagcat gccttatgagaatatttgtggcaacagttgaagctatactcagaagaactttcccttcgg aaacctctgaatcatctaaaagaccaagaagtcaatccaagaaccttgctgttgctgaac tccgtacaatgatacattcactctttgttgaatcatgtgcttcaatgaaccttgcttccc ggttgttgtttgttgtattaactgtttgcgtcagtcatcaagctttgccagggggcagca aaagaccaacgggtagtgaaaaccattcttctgaggaggccactgaggacccaagattaa ccaatggaagaaataaggtcaagaagaaacaagggcctgttggtacatttgactcgtatg tgctggctgctgtttgtgccttatcttgtgagcttcagctgttccctatcctttgcaaga gtgcaacaaactcaaaagtaaaagactctataaagatcctgaagcctggaaaaaacaatg ggatcagtaatgagctacagaatagcattagctcagcaattctccatactcgtagaattc ttggcatcctggaagctcttttctccttgaagccatcatcagttggtacctcctggaact atagttcaaatgagatagttgcagcggctatggttgccgctcatgtttctgagttatttc gccggtcgaggccatgcctaaatgcactatcttcactgaagcgatgtaagtgggatgctg agatttctaccagggcatcatccctttaccatttgatcgatttgcatggtaaaactgtgt cctccatcgtgaacaaagctgagcctctagaagctcacctgacttttacatcagtaaaga gagatggtcaacaacacattgaggaaaacagcaccagctcatcgggtaatggcaacttgg aaaagaagaatgcttcagcctcacacatgaaaaatggtttttcaagaccactcttgaaat gctcagaagaggctaggcgaaatggtaatgttgcaagtacatccgggaaagttcctgcaa ctttacaggctgaagcatctgatttggctaacttccttaccatggatagaaatgggggtt atcgaggctctcagactctcctaagttctgttatctcagaaaaacaggaattatgcttct ctgttgtctcattgctctggcataagcttattgcatctcctgaaacgcagatgtctgcag aaagtacatcagctcatcaaggttggagaaagGTA...
- Obtención de las coordenadas de los exones con ayuda del siguiente script Perl que usa variables especiales de expresiones regulares:
perl -lne 'if(/^>/){} else{ while(/[a-z]+/g){ printf("%d\t%d\n",$-[0]+1,$+[0])} }' unk_intron_gene.fsa
- Prepara y completa un fichero .tbl (feature table) por gen. Verás que los campos van separados por tabuladores. Si es un gen parcial deberás indicarlo usando ">" en las coordenadas de inicio y fin, tal como se explica en https://www.ncbi.nlm.nih.gov/Sequin/table.html . Para el gen ejemplo yo obtuve el siguiente .tbl:
>Feature HvGI Table1 <1 >7751 gene gene HvGI 1383 1469 mRNA 1564 1641 1738 1792 1881 2023 2120 2376 2811 2869 3079 3319 3390 3540 3672 3881 4821 6320 6420 6488 6636 6854 7014 7106 7195 7500 1383 1469 CDS 1564 1641 1738 1792 1881 2023 2120 2376 2811 2869 3079 3319 3390 3540 3672 3881 4821 6320 6420 6488 6636 6854 7014 7106 7195 7500 product HvGI
- Guarda en una carpeta propia los ficheros .fsa y .tbl, un par por gen, por ejemplo genes/
- Descarga del binario tbl2asn adecuado para tu sistema operativo desde ftp://ftp.ncbi.nih.gov/toolbox/ncbi_tools/converters/by_program/tbl2asn
- Haz el binario ejecutable si fuera necesario
- Haz la conversión, por ejemplo en Linux:
linux.tbl2asn -t template.sbt -p genes/ -V vb -a r10u
- Comprueba errores (errorsummary.val) y corrige los respectivos ficheros .tbl y vuelve al paso 8.
- Envía los ficheros .sqn resultantes por medio de http://www.ncbi.nlm.nih.gov/LargeDirSubs/dir_submit.cgi
Bruno