Formato FASTQ
O formato FASTQ é um formato baseado em texto para armazenar uma sequência biológica (geralmente uma sequência de nucleotídeos ) e seus respectivos índices de qualidade . Tanto a letra da sequência quanto o índice de qualidade são codificados com um único caractere ASCII para fins brevidade.
Formato FASTQ | |
---|---|
Extensão do arquivo | Nenhuma |
Página oficial | maq |
Ele foi originalmente desenvolvido no Wellcome Trust Sanger Institute para agrupar uma sequência formatada em FASTA e seus dados de qualidade, mas recentemente se tornou o padrão de facto para armazenar as sequências provenientes de instrumentos de sequenciamento de alto rendimento, como o Illumina Genome Analyzer.[1]
Formato
editarUm arquivo FASTQ tem quatro campos separados por linha por sequência:
- O campo 1 começa com um caractere '@' e é seguido por um identificador de sequência e uma descrição opcional (como uma linha de título FASTA ).
- O campo 2 são as letras da sequência.
- O campo 3 começa com um caractere '+' e é opcionalmente seguido pelo mesmo identificador de sequência (e qualquer descrição) novamente.
- O Campo 4 codifica os valores de qualidade da sequência no Campo 2 e deve conter o mesmo número de símbolos que as letras na sequência.
Um arquivo FASTQ contendo uma única sequência pode ter a seguinte aparência:
@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
O byte que representa a qualidade vai de 0x21 (qualidade mais baixa; '!' em ASCII) a 0x7e (qualidade mais alta; '~' em ASCII). Aqui estão os caracteres de valor de qualidade em ordem crescente de qualidade da esquerda para a direita ( ASCII ):
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~
Os arquivos Sanger FASTQ originais dividiam sequências longas e índices de qualidade em várias linhas, como normalmente é feito para arquivos FASTA . O fato de levar isso em conta torna a análise mais complicada devido à escolha de "@" e "+" como marcadores (já que esses caracteres também podem ocorrer no índice de qualidade). Os arquivos FASTQ com várias linhas (e, consequentemente, analisadores FASTQ com várias linhas) são menos comuns agora que a maioria dos sequenciamentos realizados são sequenciamentos Illumina de leitura curta, com comprimentos de sequência típicos de cerca de 100 pares de base.
Identificadores de sequência Illumina
editarAs sequências do software Illumina usam um identificador sistemático:
@HWUSI-EAS100R:6:73:941:1973#0/1
HWUSI-EAS100R | o nome único do instrumento |
---|---|
6 | pista da célula de fluxo |
73 | número do ladrilho dentro da pista da célula de fluxo |
941 | 'x'-coordenada do cluster dentro do ladrilho |
1973 | 'y'-coordenada do cluster dentro do ladrilho |
#0 | número de índice para uma amostra multiplexada (0 para nenhuma indexação) |
/1 | o membro de um par, /1 ou /2 (somente sequências paired/end ou mate-pair) |
As versões do pipeline da Illumina desde a 1.4 parecem usar #NNNNNN em vez de #0 para o ID multiplex, onde NNNNNN é a sequência da tag multiplex.
Com o Casava 1.8 o formato da linha '@' mudou:
@EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG
EAS139 | o nome único do instrumento |
---|---|
136 | o id de execução |
FC706VJ | o id da célula de fluxo |
2 | pista da célula de fluxo |
2104 | número do ladrilho dentro da pista da célula de fluxo |
15343 | 'x'-coordenada do cluster dentro do ladrilho |
197393 | 'y'-coordenada do cluster dentro do ladrilho |
1 | o membro de um par, /1 ou /2 (somente sequências paired/end ou mate-pair) |
Y | Y se a sequência for filtrada (não passou), N caso contrário |
18 | 0 quando nenhum dos bits de controle está ativado, caso contrário, é um número par |
ATCACG | sequência do índice |
Observe que as versões mais recentes do software da Illumina produzem um número de amostra (definido pela ordem das amostras na planilha de amostras) no lugar de uma sequência de índice quando uma sequência de índice não é explicitamente especificada para uma amostra na planilha de amostras. Por exemplo, o seguinte cabeçalho pode aparecer em um arquivo FASTQ pertencente à primeira amostra de um lote de amostras:
@EAS139:136:FC706VJ:2:2104:15343:197393 1:N:18:1
Variações
editarQualidade
editarUm valor de qualidade Q é um mapeamento inteiro de p (ou seja, a probabilidade de que a identificação da base correspondente esteja incorreta). Duas equações diferentes têm sido usadas. A primeira é a variante Sanger padrão para avaliar a confiabilidade da identificação da base nitrogenada, também conhecida como pontuação de qualidade Phred :
O pipeline Solexa (ou seja, o software fornecido com o Illumina Genome Analyzer) usou anteriormente um mapeamento diferente, codificando as probabilidades p /(1- p ) em vez da probabilidade p :
Embora ambos os mapeamentos sejam assintoticamente idênticos em valores de qualidade mais altos, eles diferem em níveis de qualidade mais baixos (isto é, aproximadamente p > 0,05, ou equivalentemente, Q < 13).
Às vezes, há divergências sobre qual mapeamento a Illumina realmente usa. O guia do usuário (Apêndice B, página 122) da versão 1.4 do pipeline Illumina afirma que: "As pontuações são definidas como Q=10*log10(p/(1-p)) [sic] , onde p é a probabilidade de identificação da base correspondente à base em questão".[2] Em retrospecto, esta entrada no manual parece ter sido um erro. O guia do usuário (What's New, página 5) da versão 1.5 do pipeline Illumina lista esta descrição: "Mudanças importantes no pipeline v1.3 [sic] . O esquema de pontuação de qualidade foi alterado para o esquema de pontuação Phred [ou seja, Sanger], codificado como um caractere ASCII adicionando 64 ao valor Phred. A pontuação Phred de uma base é: , onde e é a probabilidade estimada de uma base estar errada.
Veja também
editarReferências
editar- ↑ Cock, P. J. A.; Fields, C. J.; Goto, N.; Heuer, M. L.; Rice, P. M. (2009). «The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants». Nucleic Acids Research. 38 (6): 1767–1771. PMC 2847217 . PMID 20015970. doi:10.1093/nar/gkp1137
- ↑ Sequencing Analysis Software User Guide: For Pipeline Version 1.4 and CASAVA Version 1.0, dated April 2009 PDF Arquivado em junho 10, 2010, no Wayback Machine
Ligações externas
editar- Página da web MAQ discutindo variantes FASTQ