续上一篇,FASTQ格式的每第四行表示这条序列的质量值。用ACSII码表示。
测序仪一般是按照荧光信号来判断所测序的碱基是哪一种的,例如红黄蓝绿分别对应ATCG,因此对每个结果的判断都是一个概率的问题。
| Phred Quality Score | Probability of incorrect base call | Base call accuracy |
|---|---|---|
| 10 | 1 in 10 | 90 % |
| 20 | 1 in 100 | 99 % |
| 30 | 1 in 1000 | 99.9 % |
| 40 | 1 in 10000 | 99.99 % |
| 50 | 1 in 100000 | 99.999 % |
最初Sanger中心用Phred Quality Score来衡量该read中每个碱基的质量,Q=-10logP ,其中P代表该碱基被测序错误的概率,如果该碱基测序出错的概率为0.001,则Q应该为30,那么30+33=63,那么63对应的ASCii码为“?”,则在该碱基对应的质量值即“?”。
Solexa系列测序仪使用不同的公示来计算质量值:Q=-10log(P/1-P)
在测序质量较高时,这两个算法得到的Q值没有显著差异。如下图所示
不同测序平台,在表示质量值时选择的字符区段也有差异:
Sanger = Q+33;Solexa = Q+64
本文探讨了测序质量值的概念,重点介绍了Phred Quality Score如何衡量序列中每个碱基的准确性,以及Sanger和Solexa测序仪的不同计算方式。质量值与碱基错误概率的关系为Q=-10logP,其中P为错误概率。在高测序质量情况下,两种算法得出的Q值相似。此外,不同测序平台在表示质量值时会选用不同ASCII码区间。

9031

被折叠的 条评论
为什么被折叠?



