从Bert到Ernie：中文预训练大模型如何通过知识融合实现语义跃迁

最新推荐文章于 2026-06-22 19:43:14 发布

原创

最新推荐文章于 2026-06-22 19:43:14 发布 · 444 阅读

标签

#中文预训练大模型 #文心Ernie #知识融合 #自然语言处理

1. 从“拆字游戏”到“理解世界”：为什么Bert在中文上会“水土不服”？

如果你玩过“你画我猜”或者“猜词游戏”，你大概能理解Bert最初是怎么“学习”语言的。想象一下，我给你一句话：“我今天去了哈尔滨，那里的冰雕很美。” 然后我随机把“尔”字遮住，变成“我今天去了哈滨，那里的冰雕很美。” 让你猜这个“”是什么字。你可能会根据上下文猜出是“尔”，但这个过程，本质上是在玩一个高级的“完形填空”游戏。这就是Bert的核心训练方法之一——掩码语言模型（Masked Language Model, MLM）。

这个方法在英文上效果拔群，因为英文单词之间有空格，一个单词就是一个天然的语义单元。但到了中文，问题就来了。中文的基本单位是字，但语义的基本单元往往是词、短语甚至实体。Bert在训练时，是随机地、独立地遮盖单个汉字。这就好比在拼一幅完整的拼图时，你随机抽走其中几块，然后让模型去猜抽走的是什么。对于“哈尔滨”这个词，如果只抽走“尔”，模型或许能猜对，但它学习到的，仅仅是“哈”和“滨”之间大概率会出现一个“尔”字的局部共现概率，而不是“哈尔滨”作为一个整体所代表的城市实体的完整语义。

我刚开始用Bert做中文任务时就踩过坑。比如在情感分析里，“这个产品不怎么样”和“这个产品不，怎么样？” 前者是负面，后者可能是疑问或中性。如果Bert在预训练时，把“不”和“怎”单独掩码了，它很难学到“不怎么样”这个固定短语所蕴含的强烈否定情绪。它更像一个记忆力超强的“字词联想机器”，而不是一个真正理解语言内在逻辑和知识的“大脑”。

这种“拆字”训练的缺陷，在需要深层语义理解的任务上会暴露无遗。比如机器阅读理解，问题问“冰城是哪个城市？”，文章里提到“哈尔滨的冰雪大世界”。如果模型没有把“哈尔滨”作为一个整体实体来理解，它可能无法建立“冰城”和“哈尔滨”之间的指代关系。再比如知识图谱问答，实体“苹果公司”如果被拆成“苹”、“果”、“公”、“司”四个字分别处理，那模型永远也理解不了它和“iPhone”、“库克”之间的关系。

所以，Bert在中文上的核心