生信学习笔记：fastp质控处理生成的report结果解读

最新推荐文章于 2026-04-23 11:57:13 发布

原创

最新推荐文章于 2026-04-23 11:57:13 发布 · 3.4w 阅读

198

标签

#生物信息学

收录于

本文详细解读了fastp生成的质控报告，涉及rawdata和fastq文件、reads质量（Q20/Q30）、N值、Adapters、Duplication、Insert及Fastp report的各项指标，帮助初学者掌握基因组测序数据初步处理关键概念。

文章目录

- 前言
- raw data 和 fastq文件
- reads
- Q20和Q30
- N值
- Adapters
- Duplication
- Insert
fastp report

前言

测序出来的数据利用fastp一个命令质控全搞定，无论是SE还是PE，同时会生成.json和.html格式的报告，十分直观方便，如何生成报告可查看 Linux下fastp的使用，下面记录一下如何理解这份报告。

在这之前先整理几个概念：

raw data 和 fastq文件

测序得到的原始图像数据经base calling 转化为序列数据，我们称之为raw data或raw reads，结果以fastq 文件格式存储，fastq文件为用户得到的最原始文件，里面存储 reads的序列以及reads的测序质量。

在fastq 格式文件中每个read由四行描述：

1.@read ID
2.TGGCGGAGGGATTTGAACCC
3.+
4.bbbbbbbbabbbbbbbbbbb

每个序列共有4行，第1行和第3行是序列名称（有的fq文件为了节省存储空间会省略第三行“+"后面的序列名称）；
第2行是序列；
第4行是序列的测序质量，每个字符对应第2行每个碱基，第4行每个字符对应的ASClI值减去64，即为该碱基的测序质量值，比如h对应的ASCIl值为104，那么其对应的碱基质量值是40。(碱基质量值范围为0到40)

下表为Solexa 测序错误率与测序质量值简明对应关系：