从能力到评测:DeepAnalyze 发布数据能力 Benchmark,补全代码智能体评估闭环

一、背景:数据科学智能体的落地与评测缺口

2025 年,中国人民大学信息学院范举教授团队联合清华大学研究力量,正式发布首个面向数据科学的 Agentic 大语言模型 ——DeepAnalyze。

该模型可模拟数据科学家的工作流程,自主完成数据准备、分析建模、可视化输出到报告生成的全链路工作。发布不到一周,项目便在 GitHub 收获超 1000 个星标,国内外社交媒体累计浏览量突破 20 万次。目前模型已在和鲸社区 ModelWhale 平台部署,用户无需本地环境配置即可在线体验。

随着 LLM 与 AI Agent 在数据分析场景的落地深化,行业暴露出明显的评测体系短板:传统代码生成 Benchmark 仅聚焦函数级编程能力,数据分析 Benchmark 多局限于单表查询场景,完全无法覆盖真实企业中成百上千文件的海量数据环境与复杂分析任务。数据智能体的真实落地能力,长期处于无统一、可复现评估标准的空白状态。

二、CoDA-Bench:海量数据场景下的智能体评测基准

针对上述行业痛点,人大团队正式推出CoDA-Bench评测基准,专门用于评估 AI Agent 在海量数据环境下的复杂分析任务解决能力。

该基准的测试环境平均包含约 1000 个数据文件,高度还原真实企业的数据规模、文件结构与任务复杂度,填补了多文件、跨数据源复杂分析场景的评测空白,能够更真实地反映代码智能体的落地能力。

目前,CoDA-Bench 相关研究论文已被ICML 2026正式接收,评测体系的学术价值获得国际顶会认可。

三、开源资源与社区交流

为推动全行业共同建设数据智能体评估体系,CoDA-Bench 已实现全资源开源,覆盖论文、测试数据集、评估代码全链路,支持对 Claude Code、Codex 等主流代码智能体进行一键化能力评估。

相关开源地址:

欢迎正在探索 LLM + 数据分析落地的开发者加入关注和鲸,共同推动数据智能体评测体系的完善与发展。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值