Formato FASTQ

Formato FASTQ
Extensão do arquivo	Nenhuma
Página oficial	maq.sourceforge.net/fastq.shtml

O formato FASTQ é um formato baseado em texto para armazenar uma sequência biológica (geralmente uma sequência de nucleotídeos ) e seus respectivos índices de qualidade . Tanto a letra da sequência quanto o índice de qualidade são codificados com um único caractere ASCII para fins brevidade.

Ele foi originalmente desenvolvido no Wellcome Trust Sanger Institute para agrupar uma sequência formatada em FASTA e seus dados de qualidade, mas recentemente se tornou o padrão de facto para armazenar as sequências provenientes de instrumentos de sequenciamento de alto rendimento, como o Illumina Genome Analyzer.^[1]

Formato

Um arquivo FASTQ tem quatro campos separados por linha por sequência:

O campo 1 começa com um caractere '@' e é seguido por um identificador de sequência e uma descrição opcional (como uma linha de título FASTA ).
O campo 2 são as letras da sequência.
O campo 3 começa com um caractere '+' e é opcionalmente seguido pelo mesmo identificador de sequência (e qualquer descrição) novamente.
O Campo 4 codifica os valores de qualidade da sequência no Campo 2 e deve conter o mesmo número de símbolos que as letras na sequência.

Um arquivo FASTQ contendo uma única sequência pode ter a seguinte aparência:

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

O byte que representa a qualidade vai de 0x21 (qualidade mais baixa; '!' em ASCII) a 0x7e (qualidade mais alta; '~' em ASCII). Aqui estão os caracteres de valor de qualidade em ordem crescente de qualidade da esquerda para a direita ( ASCII ):

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~

Os arquivos Sanger FASTQ originais dividiam sequências longas e índices de qualidade em várias linhas, como normalmente é feito para arquivos FASTA . O fato de levar isso em conta torna a análise mais complicada devido à escolha de "@" e "+" como marcadores (já que esses caracteres também podem ocorrer no índice de qualidade). Os arquivos FASTQ com várias linhas (e, consequentemente, analisadores FASTQ com várias linhas) são menos comuns agora que a maioria dos sequenciamentos realizados são sequenciamentos Illumina de leitura curta, com comprimentos de sequência típicos de cerca de 100 pares de base.

Identificadores de sequência Illumina

As sequências do software Illumina usam um identificador sistemático:

@HWUSI-EAS100R:6:73:941:1973#0/1

HWUSI-EAS100R	o nome único do instrumento
6	pista da célula de fluxo
73	número do ladrilho dentro da pista da célula de fluxo
941	'x'-coordenada do cluster dentro do ladrilho
1973	'y'-coordenada do cluster dentro do ladrilho
#0	número de índice para uma amostra multiplexada (0 para nenhuma indexação)
/1	o membro de um par, /1 ou /2 (somente sequências paired/end ou mate-pair)

As versões do pipeline da Illumina desde a 1.4 parecem usar #NNNNNN em vez de #0 para o ID multiplex, onde NNNNNN é a sequência da tag multiplex.

Com o Casava 1.8 o formato da linha '@' mudou:

@EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG

EAS139	o nome único do instrumento
136	o id de execução
FC706VJ	o id da célula de fluxo
2	pista da célula de fluxo
2104	número do ladrilho dentro da pista da célula de fluxo
15343	'x'-coordenada do cluster dentro do ladrilho
197393	'y'-coordenada do cluster dentro do ladrilho
1	o membro de um par, /1 ou /2 (somente sequências paired/end ou mate-pair)
Y	Y se a sequência for filtrada (não passou), N caso contrário
18	0 quando nenhum dos bits de controle está ativado, caso contrário, é um número par
ATCACG	sequência do índice

Observe que as versões mais recentes do software da Illumina produzem um número de amostra (definido pela ordem das amostras na planilha de amostras) no lugar de uma sequência de índice quando uma sequência de índice não é explicitamente especificada para uma amostra na planilha de amostras. Por exemplo, o seguinte cabeçalho pode aparecer em um arquivo FASTQ pertencente à primeira amostra de um lote de amostras:

@EAS139:136:FC706VJ:2:2104:15343:197393 1:N:18:1

Variações

Qualidade

Um valor de qualidade Q é um mapeamento inteiro de p (ou seja, a probabilidade de que a identificação da base correspondente esteja incorreta). Duas equações diferentes têm sido usadas. A primeira é a variante Sanger padrão para avaliar a confiabilidade da identificação da base nitrogenada, também conhecida como pontuação de qualidade Phred :

$Q_{\text{sanger}}=-10\,\log _{10}p$

O pipeline Solexa (ou seja, o software fornecido com o Illumina Genome Analyzer) usou anteriormente um mapeamento diferente, codificando as probabilidades p /(1- p ) em vez da probabilidade p :

$Q_{\text{solexa-prior to v.1.3}}=-10\,\log _{10}{\frac {p}{1-p}}$

Embora ambos os mapeamentos sejam assintoticamente idênticos em valores de qualidade mais altos, eles diferem em níveis de qualidade mais baixos (isto é, aproximadamente p > 0,05, ou equivalentemente, Q < 13).

Relação entre Q e p usando as equações de Sanger (vermelho) e Solexa (preto) (descritas acima). A linha pontilhada vertical indica p = 0,05, ou equivalentemente, Q ≈ 13

Às vezes, há divergências sobre qual mapeamento a Illumina realmente usa. O guia do usuário (Apêndice B, página 122) da versão 1.4 do pipeline Illumina afirma que: "As pontuações são definidas como Q=10*log10(p/(1-p)) [sic] , onde p é a probabilidade de identificação da base correspondente à base em questão".^[2] Em retrospecto, esta entrada no manual parece ter sido um erro. O guia do usuário (What's New, página 5) da versão 1.5 do pipeline Illumina lista esta descrição: "Mudanças importantes no pipeline v1.3 [sic] . O esquema de pontuação de qualidade foi alterado para o esquema de pontuação Phred [ou seja, Sanger], codificado como um caractere ASCII adicionando 64 ao valor Phred. A pontuação Phred de uma base é: $Q_{\text{phred}}=-10\log _{\text{10}}e$ , onde e é a probabilidade estimada de uma base estar errada.

Veja também

O formato FASTA, usado para representar as sequências do genoma.
Os formatos SAM e CRAM, usados para representar as leituras do sequenciador do genoma que foram alinhadas às sequências do genoma.
O formato GVF (Genome Variation Format), uma extensão baseada no formato GFF3 .

Referências

↑ Cock, P. J. A.; Fields, C. J.; Goto, N.; Heuer, M. L.; Rice, P. M. (2009). «The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants». Nucleic Acids Research. 38 (6): 1767–1771. PMC 2847217 . PMID 20015970. doi:10.1093/nar/gkp1137
↑ Sequencing Analysis Software User Guide: For Pipeline Version 1.4 and CASAVA Version 1.0, dated April 2009 PDF Arquivado em junho 10, 2010, no Wayback Machine

Ligações externas

Página da web MAQ discutindo variantes FASTQ

[Cock2009-1] Cock, P. J. A.; Fields, C. J.; Goto, N.; Heuer, M. L.; Rice, P. M. (2009). «The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants». Nucleic Acids Research. 38 (6): 1767–1771. PMC 2847217 . PMID 20015970. doi:10.1093/nar/gkp1137

[Illumina_User_Guide_1.4-2] Sequencing Analysis Software User Guide: For Pipeline Version 1.4 and CASAVA Version 1.0, dated April 2009 PDF Arquivado em junho 10, 2010, no Wayback Machine

[1]

[2]