生信学习笔记:fastp质控处理生成的report结果解读

本文详细解读了fastp生成的质控报告,涉及rawdata和fastq文件、reads质量(Q20/Q30)、N值、Adapters、Duplication、Insert及Fastp report的各项指标,帮助初学者掌握基因组测序数据初步处理关键概念。

前言

测序出来的数据利用fastp一个命令质控全搞定,无论是SE还是PE,同时会生成.json和.html格式的报告,十分直观方便,如何生成报告可查看 Linux下fastp的使用 ,下面记录一下如何理解这份报告。

在这之前先整理几个概念:

raw data 和 fastq文件

测序得到的原始图像数据经base calling 转化为序列数据,我们称之为raw data或raw reads,结果以fastq 文件格式存储,fastq文件为用户得到的最原始文件,里面存储 reads的序列以及reads的测序质量。

在fastq 格式文件中每个read由四行描述:

1.@read ID
2.TGGCGGAGGGATTTGAACCC
3.+
4.bbbbbbbbabbbbbbbbbbb

每个序列共有4行,第1行和第3行是序列名称(有的fq文件为了节省存储空间会省略第三行“+"后面的序列名称);
第2行是序列;
第4行是序列的测序质量,每个字符对应第2行每个碱基,第4行每个字符对应的ASClI值减去64,即为该碱基的测序质量值,比如h对应的ASCIl值为104,那么其对应的碱基质量值是40。(碱基质量值范围为0到40)

下表为Solexa 测序错误率与测序质量值简明对应关系:

测序错误率 测序质量值 对应字符
5% 13 M
1% 20 T
0.1% 30 ^
0.01% 40 h

公式:-10*log10P

fastp就是对.fa.gz格式的文件进行处理

reads

评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值