一、背景:数据科学智能体的落地与评测缺口
2025 年,中国人民大学信息学院范举教授团队联合清华大学研究力量,正式发布首个面向数据科学的 Agentic 大语言模型 ——DeepAnalyze。
该模型可模拟数据科学家的工作流程,自主完成数据准备、分析建模、可视化输出到报告生成的全链路工作。发布不到一周,项目便在 GitHub 收获超 1000 个星标,国内外社交媒体累计浏览量突破 20 万次。目前模型已在和鲸社区 ModelWhale 平台部署,用户无需本地环境配置即可在线体验。
随着 LLM 与 AI Agent 在数据分析场景的落地深化,行业暴露出明显的评测体系短板:传统代码生成 Benchmark 仅聚焦函数级编程能力,数据分析 Benchmark 多局限于单表查询场景,完全无法覆盖真实企业中成百上千文件的海量数据环境与复杂分析任务。数据智能体的真实落地能力,长期处于无统一、可复现评估标准的空白状态。
二、CoDA-Bench:海量数据场景下的智能体评测基准
针对上述行业痛点,人大团队正式推出CoDA-Bench评测基准,专门用于评估 AI Agent 在海量数据环境下的复杂分析任务解决能力。
该基准的测试环境平均包含约 1000 个数据文件,高度还原真实企业的数据规模、文件结构与任务复杂度,填补了多文件、跨数据源复杂分析场景的评测空白,能够更真实地反映代码智能体的落地能力。
目前,CoDA-Bench 相关研究论文已被ICML 2026正式接收,评测体系的学术价值获得国际顶会认可。
三、开源资源与社区交流
为推动全行业共同建设数据智能体评估体系,CoDA-Bench 已实现全资源开源,覆盖论文、测试数据集、评估代码全链路,支持对 Claude Code、Codex 等主流代码智能体进行一键化能力评估。
相关开源地址:
- 论文:https://huggingface.co/papers/2606.15300
- 代码仓库:https://github.com/ruc-datalab/CoDA-Bench
- 数据集:https://huggingface.co/datasets/RUC-DataLab/CoDA-Bench
欢迎正在探索 LLM + 数据分析落地的开发者加入关注和鲸,共同推动数据智能体评测体系的完善与发展。

153

被折叠的 条评论
为什么被折叠?



