Do Large Language Models Show Biases in Causal Learning? Insights from Contingency Judgment

原创于 2026-06-26 07:30:00 发布 · 2 阅读

·

0

·

标签

#语言模型 #人工智能 #机器学习

LLM Daily 专栏收录该内容

2868 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

一、文章主要内容总结

该研究聚焦大型语言模型（LLMs）在因果学习中的认知偏差，核心围绕“因果错觉”展开——即个体在缺乏充分证据时仍感知变量间存在因果关系的现象。研究通过经典认知科学范式“关联性判断任务”，在医疗场景下构建1000个“零关联场景”（变量间无足够证据证明因果关系），对GPT-4o-Mini、Claude-3.5-Sonnet和Gemini-1.5-Pro三款模型进行测试，要求模型对潜在原因的有效性进行0-100分评估（0分为无效，100分为完全有效）。

研究结果显示：

所有模型均系统性地推断出无根据的因果关系，存在明显的因果错觉，其中GPT-4o-Mini偏差最显著（均值75.74），Claude-3.5-Sonnet（均值40.53）和Gemini-1.5-Pro（均值33.07）偏差程度依次降低；
模型间无统一的因果判断标准，响应趋势存在显著差异，且Gemini-1.5-Pro虽更易给出0分（正确拒绝因果关系），但高方差表明这可能源于不确定性而非稳定判断准则；
变量类型（虚构疾病/疗法、不确定变量、替代医学、科学验证药物）未显著降低模型的因果归因偏差，甚至部分场景下存在更高评分倾向。

研究还讨论了局限性（如缺乏人类实验基线、场景与真实世界使用存在差异），并提出未来方向（采用链式思维提示、扩展关联场景类型、研究试验顺序影响等）。

二、文章创新点

范式迁移创新：首次将实验心理学中的“关联性判断任务”适配应用于LLMs评估，通过标准化的零关联场景设计，量化模型的因果错觉偏差，填补

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。