返回
AI AgentONE-EVAL

DeepSeek-V4 发布 10 小时,北大开源项目实现了自动化评测!

北京大学 DCAI 团队开源了基于 Agent 的交互式大模型评测框架 One-Eval,并用 DeepSeek-V4 展示了评测流程。

BestBlogs · Agent 关键词38 分钟阅读中文
阅读原文
DeepSeek-V4 发布 10 小时,北大开源项目实现了自动化评测!
TL;DR: 北京大学 DCAI 团队开源了基于 Agent 的交互式大模型评测框架 One-Eval,并用 DeepSeek-V4 展示了评测流程。
以下为 BestBlogs · Agent 关键词 原文(中文

📌 一句话摘要

        北京大学 DCAI 团队开源 One-Eval,一个基于 Agent 的交互式大模型评测框架,支持自然语言发起评测、自动规划方案、全链路可追溯,并实测了 DeepSeek-V4。

    

        
            📝 详细摘要
        

        文章由北京大学 DCAI 团队撰写,介绍了其开源的 One-Eval 大模型评测框架。该框架旨在解决传统评测框架(如 lm-evaluation-harness、OpenCompass)自动化程度低、过程不透明、执行鲁棒性不足的问题。One-Eval 的核心创新在于将评测流程重构为一个基于 Agent 的智能系统:用户只需用自然语言描述评测需求,系统即可自动理解任务、筛选 benchmark、配置参数、执行评测并生成可读报告。文章通过实测 DeepSeek-V4 展示了其工作流程,并详细阐述了框架的六大设计特点:自然语言发起、自动规划方案、全链路可追溯(基于全局状态数据总线)、可插拔模块化设计、人机协同(Human-in-the-Loop)以及自动报告生成。该框架基于 DataFlow 算子化框架构建,旨在将评测从「跑分流水线」升级为「可理解、可组织、可干预、可复盘的系统过程」。

    

        
            💡 主要观点
        

        
            
                    One-Eval 是一个基于 Agent 的交互式大模型评测框架,支持自然语言发起评测。
                     用户无需编写复杂配置,只需用自然语言描述评测需求(如测试模型在金融、法律领域的能力),One-Eval 即可自动理解任务、筛选 benchmark 并规划执行流程。
                

                    框架通过全局状态数据总线实现全链路可追溯,解决传统评测黑盒问题。
                     One-Eval 摒弃了无状态线性流水线,采用 Global State 架构,记录评测全生命周期中的每一步操作和中间结果,使过程透明,便于排查异常和复盘。
                

                    One-Eval 采用可插拔模块化设计,支持 Human-in-the-Loop 人机协同。
                     Benchmark Gallery 和 Metric Library 将评测组件标准化,便于扩展。同时,框架在关键节点会主动中断,等待用户确认或修改参数,将人的判断力保留在关键环节。
                

        
    

        
            💬 文章金句
        

        
            One-Eval 不再把评测理解成「写一堆配置然后跑脚本」,而是把它重构为一个从自然语言需求出发、自动规划、自动执行、可中断、可追溯、可生成报告的完整工作流。

评测不再只是跑分,而是一个可理解、可组织、可干预、可复盘的系统过程。 它不是在用自动化替代人,而是在用自动化减少低价值重复劳动,把人的参与放在真正关键的地方。

            📊 文章信息
        

        
            AI 初评:87

来源:Datawhale

作者:Datawhale

分类:人工智能

语言:中文

阅读时间:12 分钟

字数:2968

                标签:
                
                    大模型评测, One-Eval, 北大 DCAI, AI Agent, 开源框架
                
            

        
    

    
        阅读完整文章