文章目录
前言
测序出来的数据利用fastp一个命令质控全搞定,无论是SE还是PE,同时会生成.json和.html格式的报告,十分直观方便,如何生成报告可查看 Linux下fastp的使用 ,下面记录一下如何理解这份报告。
在这之前先整理几个概念:
raw data 和 fastq文件
测序得到的原始图像数据经base calling 转化为序列数据,我们称之为raw data或raw reads,结果以fastq 文件格式存储,fastq文件为用户得到的最原始文件,里面存储 reads的序列以及reads的测序质量。
在fastq 格式文件中每个read由四行描述:
1.@read ID
2.TGGCGGAGGGATTTGAACCC
3.+
4.bbbbbbbbabbbbbbbbbbb
每个序列共有4行,第1行和第3行是序列名称(有的fq文件为了节省存储空间会省略第三行“+"后面的序列名称);
第2行是序列;
第4行是序列的测序质量,每个字符对应第2行每个碱基,第4行每个字符对应的ASClI值减去64,即为该碱基的测序质量值,比如h对应的ASCIl值为104,那么其对应的碱基质量值是40。(碱基质量值范围为0到40)
下表为Solexa 测序错误率与测序质量值简明对应关系:
| 测序错误率 | 测序质量值 | 对应字符 |
|---|---|---|
| 5% | 13 | M |
| 1% | 20 | T |
| 0.1% | 30 | ^ |
| 0.01% | 40 | h |
公式:-10*log10P
fastp就是对.fa.gz格式的文件进行处理

本文详细解读了fastp生成的质控报告,涉及rawdata和fastq文件、reads质量(Q20/Q30)、N值、Adapters、Duplication、Insert及Fastp report的各项指标,帮助初学者掌握基因组测序数据初步处理关键概念。

5112

被折叠的 条评论
为什么被折叠?



