

近日,百川智能联合清华大学研究团队发布了新一代医疗增强大模型 Baichuan-M4。该模型在多个关键指标上表现出色,标志着医疗大模型领域的新进展。

Baichuan-M4 在 HealthBench 及其 Hard、Professional 三个榜单上同时位列世界第一,全面超越 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro 等竞品。其幻觉率低至 3.3%,这一数据显示了模型在准确性和可靠性方面的优势。

在问诊方面,Baichuan-M4 会主动追问症状的性质与诱因,优先识别和排查危急重症。在动态问诊评测体系 SCAN-bench 测评中,M4 初诊 79.0、复诊 74.7,均明显领先于 GPT-5.5、DeepSeek-V4-Pro 和 Claude Opus 4.7。

Baichuan-M4 推出了「全病程记忆」功能,打通历史病历、多轮问诊、化验趋势与用药反馈。在长上下文临床记忆评测中,M4 取得 86.9 分,为同类最高,较上一代 M3 提升 21.1 分。

基于“证据锚定”技术,Baichuan-M4 生成的每一句医学结论都精确对应到原始论文或指南中的具体段落。在百川构建的循证医学评测 Baichuan-EBM 上,M4 的循证引用精度达到 90.0,而 GPT-5.5 为 54.7,OpenEvidence 为 55.9。
编辑观点:Baichuan-M4 的发布为医疗大模型市场带来新活力,其多项领先指标有望改变竞争格局,未来在医疗领域的应用和商业化值得期待。
148

被折叠的 条评论
为什么被折叠?



