AI AgentONE-EVAL
DeepSeek-V4 发布 10 小时,北大开源项目实现了自动化评测!
北京大学 DCAI 团队开源了基于 Agent 的交互式大模型评测框架 One-Eval,并用 DeepSeek-V4 展示了评测流程。
BestBlogs · Agent 关键词38 分钟阅读中文
阅读原文TL;DR: 北京大学 DCAI 团队开源了基于 Agent 的交互式大模型评测框架 One-Eval,并用 DeepSeek-V4 展示了评测流程。
以下为 BestBlogs · Agent 关键词 原文(中文)
📌 一句话摘要
北京大学 DCAI 团队开源 One-Eval,一个基于 Agent 的交互式大模型评测框架,支持自然语言发起评测、自动规划方案、全链路可追溯,并实测了 DeepSeek-V4。
📝 详细摘要
文章由北京大学 DCAI 团队撰写,介绍了其开源的 One-Eval 大模型评测框架。该框架旨在解决传统评测框架(如 lm-evaluation-harness、OpenCompass)自动化程度低、过程不透明、执行鲁棒性不足的问题。One-Eval 的核心创新在于将评测流程重构为一个基于 Agent 的智能系统:用户只需用自然语言描述评测需求,系统即可自动理解任务、筛选 benchmark、配置参数、执行评测并生成可读报告。文章通过实测 DeepSeek-V4 展示了其工作流程,并详细阐述了框架的六大设计特点:自然语言发起、自动规划方案、全链路可追溯(基于全局状态数据总线)、可插拔模块化设计、人机协同(Human-in-the-Loop)以及自动报告生成。该框架基于 DataFlow 算子化框架构建,旨在将评测从「跑分流水线」升级为「可理解、可组织、可干预、可复盘的系统过程」。
💡 主要观点
One-Eval 是一个基于 Agent 的交互式大模型评测框架,支持自然语言发起评测。
用户无需编写复杂配置,只需用自然语言描述评测需求(如测试模型在金融、法律领域的能力),One-Eval 即可自动理解任务、筛选 benchmark 并规划执行流程。
框架通过全局状态数据总线实现全链路可追溯,解决传统评测黑盒问题。
One-Eval 摒弃了无状态线性流水线,采用 Global State 架构,记录评测全生命周期中的每一步操作和中间结果,使过程透明,便于排查异常和复盘。
One-Eval 采用可插拔模块化设计,支持 Human-in-the-Loop 人机协同。
Benchmark Gallery 和 Metric Library 将评测组件标准化,便于扩展。同时,框架在关键节点会主动中断,等待用户确认或修改参数,将人的判断力保留在关键环节。
💬 文章金句
One-Eval 不再把评测理解成「写一堆配置然后跑脚本」,而是把它重构为一个从自然语言需求出发、自动规划、自动执行、可中断、可追溯、可生成报告的完整工作流。
评测不再只是跑分,而是一个可理解、可组织、可干预、可复盘的系统过程。 它不是在用自动化替代人,而是在用自动化减少低价值重复劳动,把人的参与放在真正关键的地方。
📊 文章信息
AI 初评:87
来源:Datawhale
作者:Datawhale
分类:人工智能
语言:中文
阅读时间:12 分钟
字数:2968
标签:
大模型评测, One-Eval, 北大 DCAI, AI Agent, 开源框架
阅读完整文章