解密Transformer中的[CLS]标记：从基础概念到实战应用

最新推荐文章于 2026-06-25 07:45:41 发布

原创

最新推荐文章于 2026-06-25 07:45:41 发布 · 527 阅读

标签

#Transformer #[CLS] #自然语言处理 #文本分类

1. 从“班级合影”到[CLS]：一个形象的入门

如果你刚开始接触像BERT、RoBERTa这类基于Transformer的模型，看到代码里总有一个神秘的 [CLS] 标记被塞在句子开头，可能会有点懵。它既不是我们输入的词，也不像 [SEP] 那样有明显的分隔作用，那它到底是干嘛的？

让我用一个你可能更容易理解的比喻来说。想象一下，你们班拍了一张集体照。这张照片里，有每一个同学的脸，但通常，我们还会在照片最前面放一个牌子，上面写着班级的名字，比如“高三（2）班”。这个牌子本身不代表任何一个具体的同学，但它凝聚了这张照片里所有人的集体身份和信息。当别人看到这张照片时，第一眼看到这个牌子，就能立刻知道：“哦，这是高三（2）班的合影。”

[CLS] 标记在Transformer里，干的就是这个“班级牌子”的活儿。 它被固定放在输入序列的最前面（比如 [CLS] 今天天气真好）。当这个序列经过模型内部复杂的“自注意力”网络层层计算后，序列里每个词（token）的表示都会更新，包含了它和周围所有词的关系信息。而位于最前面的 [CLS]，就像一个信息汇聚点，通过注意力机制，“看”遍了序列里的每一个词，最终它的向量表示，就试图承载整个句子的全局语义摘要。

所以，当我们需要对整个句子做一个判断时——比如判断这句话是积极的还是消极的（情感分类），或者判断它属于体育新闻还是科技新闻（文本分类）——我们就不需要再去费力地分析句子里的每一个词，然后想办法把它们的信息综合起来。我们直接拿出这个已经“看过”全句的 [CLS] 的最终向量表示，把它喂给一个简单的分类器（比如一个小型神经网络），就能高效地得出结果。这比早期需要手动设计特征或者用循环神经网络（RNN）逐个词处理的方式，要简洁和强大得多。

我第一次在实际项目里用BERT做文本分类时，就对这个设计拍案叫绝。以前用传统方法，特征工程和模型设计要花大量时间，而用了BERT之后，预处理时只需要规规矩矩地加上 [CLS] 和 [SEP]，然后把 [CLS] 对应的输出向量拿出来用，模型效果就有了质的飞跃。这种“一个标记代表全部”的思路，可以说是Transformer架构在自然语言处理任务上如此成功的关键设计之一。