8 de enero de 2020

Submit gene with unknown intron to GenBank

Hola de nuevo,
el 31 de diciembre conseguí finalmente enviar a GenBank unas secuencias parciales de genes de cebada utilizadas por mi colega Ana Casas en un estudio. Éste es un paso necesario para publicar en casi cualquier revista seria, pero además es la manera de asegurar que tus secuencias van a ser útiles para otras personas en el futuro.

Antes de que se me olvidé comparto aquí como lo hice, teniendo en cuenta que uno de los genes tiene un intrón de longitud desconocida y se secuenció en dos amplicones que abarcan respectivamete los exones 1-9 y 10-14:
 

    Para poder archivar una secuencia así en GenBank utilice tbl2asn en varios pasos:
    1.  Obtención de una plantilla .sbt con https://submit.ncbi.nlm.nih.gov/genbank/template/submission . El fichero resultante especifica los autores y otros metadatos, y lo puedes usar para distintas secuencias. 
    2. Confección de un fichero FASTA con extensión .fsa (unk_intron_gene.fsa) que contenga las secuencias de ambos amplicones separadas por un tramo de 100 Ns. Para facilitar el siguiente paso intrones y exones deben ir en mayúsculas y minúsculas, respectivamente, como en este fragmento que comprende los exones 8, 9 y 10:
      ...TGTCAGatactatgcaattgccacaccaagtgctacacaaagattgctttttggtct
      TGTCAGatactatgcaattgccacaccaagtgctacacaaagattgctttttggtcttct
      tgaagcaccaccatcatgggctccagatgcacttgatgcagcagttcagcttgttgaact
      ccttcgggcagctgaagattatgctactggcatgcggGTATGACATACTGCATGCTGGCT
      GTTGTTTCAGTCCTGTTAGTTGTGATGCCTCACGATACAAAATTTCCATATTCGTATGTT
      TTGGGTGTGCATGTTTATTAATCTTGGTAACTTTAAATTCCTGTTCAGcttccaaaaaat
      tggttgcatcttcatttcttgcgtgcgattggaactgcaatgtctatgagggctggtatt
      gctgccgatacagctgctgcgttgctttttcgcatactatcccaaccaacgttgcttttt
      cctccactaaggcatgctgaaggagttgaagtgcaacatgaaccactgggtggctatgta
      tcatcatacaaaagacagGTATGCAGTAGTTTCTGCATCTAGTTAATTTTTCATTATCTG
      TTCTTCTTTAGTAAAGACTCAANNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
      NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
      NNGGATCCATGTTTTAGTCTTCTTGGTTTTACTGATTGTTGCCTTATGTCTGCATGACTA
      ATTTACCTGCTTGCACTTTGAACTATTCACAGctggaagttcctgcatctgaaaccacaa
      ttgatgccactgcacaaggcattgcttccttgctgtgtgctcatggtcctgatgttgagt
      ggagaatatgtaccatctgggaagctgcctatggtttgttacctctgaattcatcagcag
      ttgatttgcccgaaatcgttgtagctgctccgcttcagccacctactttgtcatggagcc
      tatacttgccactgttgaaagtattcgagtatctacctcgtggaagtccatctgaagcat
      gccttatgagaatatttgtggcaacagttgaagctatactcagaagaactttcccttcgg
      aaacctctgaatcatctaaaagaccaagaagtcaatccaagaaccttgctgttgctgaac
      tccgtacaatgatacattcactctttgttgaatcatgtgcttcaatgaaccttgcttccc
      ggttgttgtttgttgtattaactgtttgcgtcagtcatcaagctttgccagggggcagca
      aaagaccaacgggtagtgaaaaccattcttctgaggaggccactgaggacccaagattaa
      ccaatggaagaaataaggtcaagaagaaacaagggcctgttggtacatttgactcgtatg
      tgctggctgctgtttgtgccttatcttgtgagcttcagctgttccctatcctttgcaaga
      gtgcaacaaactcaaaagtaaaagactctataaagatcctgaagcctggaaaaaacaatg
      ggatcagtaatgagctacagaatagcattagctcagcaattctccatactcgtagaattc
      ttggcatcctggaagctcttttctccttgaagccatcatcagttggtacctcctggaact
      atagttcaaatgagatagttgcagcggctatggttgccgctcatgtttctgagttatttc
      gccggtcgaggccatgcctaaatgcactatcttcactgaagcgatgtaagtgggatgctg
      agatttctaccagggcatcatccctttaccatttgatcgatttgcatggtaaaactgtgt
      cctccatcgtgaacaaagctgagcctctagaagctcacctgacttttacatcagtaaaga
      gagatggtcaacaacacattgaggaaaacagcaccagctcatcgggtaatggcaacttgg
      aaaagaagaatgcttcagcctcacacatgaaaaatggtttttcaagaccactcttgaaat
      gctcagaagaggctaggcgaaatggtaatgttgcaagtacatccgggaaagttcctgcaa
      ctttacaggctgaagcatctgatttggctaacttccttaccatggatagaaatgggggtt
      atcgaggctctcagactctcctaagttctgttatctcagaaaaacaggaattatgcttct
      ctgttgtctcattgctctggcataagcttattgcatctcctgaaacgcagatgtctgcag
      aaagtacatcagctcatcaaggttggagaaagGTA...
       
    3. Obtención de las coordenadas de los exones con ayuda del siguiente script Perl que usa variables especiales de expresiones regulares:
      perl -lne 'if(/^>/){} else{ while(/[a-z]+/g){ printf("%d\t%d\n",$-[0]+1,$+[0])} }' unk_intron_gene.fsa
       
    4. Prepara y completa un fichero .tbl (feature table) por gen. Verás que los campos van separados por tabuladores. Si es un gen parcial deberás indicarlo usando ">" en las coordenadas de inicio y fin, tal como se explica en https://www.ncbi.nlm.nih.gov/Sequin/table.html . Para el gen ejemplo yo obtuve el siguiente .tbl:
      >Feature HvGI Table1
      <1    >7751 gene
          gene HvGI
      1383 1469 mRNA
      1564 1641
      1738 1792
      1881 2023
      2120 2376
      2811 2869
      3079 3319
      3390 3540
      3672 3881
      4821 6320
      6420 6488
      6636 6854
      7014 7106
      7195 7500
      1383 1469 CDS
      1564 1641
      1738 1792
      1881 2023
      2120 2376
      2811 2869
      3079 3319
      3390 3540
      3672 3881
      4821 6320
      6420 6488
      6636 6854
      7014 7106
      7195 7500
          product HvGI
      
    5. Guarda en una carpeta propia los ficheros .fsa y .tbl, un par por gen, por ejemplo genes/
    6. Descarga del binario tbl2asn adecuado para tu sistema operativo desde ftp://ftp.ncbi.nih.gov/toolbox/ncbi_tools/converters/by_program/tbl2asn
    7. Haz el binario ejecutable si fuera necesario 
    8. Haz la conversión, por ejemplo en Linux:
      linux.tbl2asn -t template.sbt -p genes/ -V vb -a r10u
       
    9. Comprueba errores (errorsummary.val) y corrige los respectivos ficheros .tbl y vuelve al paso 8.
    10. Envía los ficheros .sqn resultantes por medio de http://www.ncbi.nlm.nih.gov/LargeDirSubs/dir_submit.cgi
       
    Hasta pronto,
    Bruno