文章主要内容总结
该研究聚焦多语言大语言模型(LLMs)的文化理解内部机制,核心旨在拆解语言与文化在模型表征中的相互作用。通过设计两组实验场景(固定问题语言、改变目标国家;固定目标国家、改变问题语言),并选取语言相似但文化不同的国家对(韩朝、美英、西班牙-墨西哥)及语言独特的中国,测量模型回答语义等价文化问题时的内部激活路径重叠度。研究发现:
- 同语言跨国家的内部路径重叠度显著高于跨语言同国家,表明模型的文化知识表征存在强烈的语言特异性;
- 韩朝这一语言相似国家对表现出低重叠度和高变异性,打破了“语言相似即内部表征一致”的假设;
- 模型更依赖语言相关回路处理文化知识,语言形式对内部路径选择的影响优先于语义内容。
文章创新点
- 研究视角创新:突破以往仅关注模型输出层面的文化理解评估,首次从机制可解释性角度,通过追踪内部激活路径,揭示文化知识在模型中的表征方式;
- 实验设计创新:采用“语言-国家”双变量控制实验,结合语言相似但文化异质的国家对,有效分离语言与文化的独立影响,解决了二者信号交织的研究难点;
- 发现独特现象:识别出韩朝国家对的特殊内部路径模式,证明政治、历史等特殊语境会影响模型的文化知识表征,为后续细分文化类型研究提供方向;
- 方法应用创新:运用Gemma Scope Transcoder工具提取可解释特征,通过加权杰卡德相似度量化路径重叠度,为多语言模型的内部机制分析提
订阅专栏 解锁全文

1347

被折叠的 条评论
为什么被折叠?



