Hola, si alguna vez te encuentras un mensaje como éste:
[E::sam_parse1] SEQ and QUAL are of different length
Se debe a que el fichero FASTQ en cuestión contiene líneas de secuencia (SEQ) y calidad (QUAL) de diferente longitud, lo cual viola el formato y es posiblemente un error. El siguiente oneliner te sirve para encontrar las secuencias problemáticas:
$ zcat file.fastq.gz | perl -lne 'if($.%4==1){$n=$_}elsif($.%4==2){$l=length($_)}elsif($.%4==0){print $n if(length($_) != $l)}' > lista.errores.txt
Luego puedes eliminar las secuencias del fichero FASTQ como se explica por ejemplo aquí con seqtk, hasta luego,
Bruno
No hay comentarios:
Publicar un comentario