生信软件24 - Samtools与GATK高效去除PCR重复的实战技巧解析

最新推荐文章于 2026-06-15 12:28:32 发布

原创

最新推荐文章于 2026-06-15 12:28:32 发布 · 1k 阅读

标签

#生信分析 #Samtools #GATK #PCR重复

1. 为什么PCR重复是生信分析中的“隐形炸弹”？

大家好，我是你们的老朋友，一个在生信分析领域摸爬滚打了十多年的“老司机”。今天咱们不聊那些高大上的算法，就聊一个非常具体、几乎每个做NGS分析的人都会遇到，但又常常被忽视或处理不当的问题——PCR重复。很多刚入门的朋友可能会觉得，不就是几个重复的reads嘛，数据量大，多几个少几个能有多大影响？我刚开始也是这么想的，直到在好几个项目里踩了坑，才真正明白，这玩意儿处理不好，轻则浪费算力，重则直接导致你的变异检测结果“翻车”。

咱们先来打个比方。假设你是一家工厂的质检员，任务是检查一批零件（DNA片段）是否有瑕疵（变异）。正常的流程是，每个零件从生产线上下来，你检查一次，记录结果。但PCR扩增这个过程，就像是在零件进入质检线之前，被一个“复印机”疯狂复印了很多份。于是，同一个零件，你可能会检查5次、10次，甚至更多次。如果这个零件恰好有个划痕（比如一个测序错误或背景噪音），你检查了10次，报告上就记录了10次“划痕”。最后汇总报告时，你就会错误地认为：“这个型号的零件划痕率超高，是个严重质量问题！” 但实际上，可能只是那一个原件有问题，或者根本就是“复印机”产生的假象。

在NGS数据分析里，这个“假象”就是假阳性变异。PCR扩增是建库的必要步骤，目的是为了获得足够的DNA模板连接到测序芯片上。但这个过程是不可控的，有些片段会被过度扩增，产生大量完全相同的拷贝。这些拷贝在测序后，会生成起始位置和序列都完全一致的reads。如果不加处理，这些重复的reads会人为地抬高特定区域的测序深度，尤其是在低频变异分析、肿瘤异质性研究等场景下，一个本不存在的低频变异可能因为几簇重复reads而被错误地检出，让你的后续分析走上歧途。

所以，去除或标记PCR重复，绝对不是可有可无的“洁癖”操作，而是保证数据质量、确保分析结果可靠性的关键一步。它就像给数据做一次“排雷”，把那些由技术噪音（PCR）产生的“假信号”给剔除掉，让我们能更清晰地看到真实的生物学信号。接下来，我就结合自己这些年用Samtools和GATK的实际经验，给大家掰开揉碎了讲讲，怎么高效、准确地把这个“雷”给排掉。

2. 实战前哨：理解你的数据与工具选择

在动手敲命令之前，我觉得有必要先聊聊“道”，也就是理解原理和选择策略。很多教程一上来就扔给你几条命令，但如果你不知道为什么要用这个工具、这个参数，一旦遇到报错或者结果不对劲，立马就懵了。我见过不少同学，跟着流程跑一遍，结果文件是生成了，但心里完全没底，这其实很危险。

首先，你得知道你的重复是怎么来的。 除了我们主要针对的PCR重复，还有一种是“光学重复”或“测序重复”。这通常发生在Illumina测序仪上，因为簇定位错误，同一个物理簇被识别为两个独立的簇，产生了两个完全相同的reads。好的去重工具（比如GATK的MarkDuplicates）会同时处理这两种情况。但有些简单的方法可能只认序列，这点需要注意。

其次，工具怎么选？Samtools rmdup/markdup 还是 GATK MarkDuplicates？ 这是最常被问到的问题。我的经验是，看你的分析场景和流程整合度。

Samtools rmdup： 这是比较老的一个命令，它的工作方式是直接删除被判定为重复的reads，只保留一个代表。简单粗暴，速度快，输出文件小。但问题也在这里——“删除”是不可逆的。如果你的下游分析需要用到所有原始数据（比如某些需要精确分子标签的分析），或者你想先看看重复率有多高再决定，这就不是好选择。而且，rmdup对单端测序（SE）和双端测序（PE）的处理逻辑不同，对PE数据，它要求一对reads的两个末端的起始位置都相同才判定为重复，这其实有点过于严格了。
Samtools markdup： 这是rmdup的升级版，也是我现在更推荐使用的Samtools系列命令。它默认不会删除任何reads，而是在BAM文件的每个read上，通过设置一个特殊的标记（FLAG 1024） 来标明这个rea

最低0.47元/天解锁文章