DeepSeek-V4 发布 10 小时，北大开源项目实现了自动化评测！ · RoboRadar

📌 一句话摘要

        北京大学 DCAI 团队开源 One-Eval，一个基于 Agent 的交互式大模型评测框架，支持自然语言发起评测、自动规划方案、全链路可追溯，并实测了 DeepSeek-V4。

    

        
            📝 详细摘要
        

        文章由北京大学 DCAI 团队撰写，介绍了其开源的 One-Eval 大模型评测框架。该框架旨在解决传统评测框架（如 lm-evaluation-harness、OpenCompass）自动化程度低、过程不透明、执行鲁棒性不足的问题。One-Eval 的核心创新在于将评测流程重构为一个基于 Agent 的智能系统：用户只需用自然语言描述评测需求，系统即可自动理解任务、筛选 benchmark、配置参数、执行评测并生成可读报告。文章通过实测 DeepSeek-V4 展示了其工作流程，并详细阐述了框架的六大设计特点：自然语言发起、自动规划方案、全链路可追溯（基于全局状态数据总线）、可插拔模块化设计、人机协同（Human-in-the-Loop）以及自动报告生成。该框架基于 DataFlow 算子化框架构建，旨在将评测从「跑分流水线」升级为「可理解、可组织、可干预、可复盘的系统过程」。

    

        
            💡 主要观点
        

        
            
                    One-Eval 是一个基于 Agent 的交互式大模型评测框架，支持自然语言发起评测。
                     用户无需编写复杂配置，只需用自然语言描述评测需求（如测试模型在金融、法律领域的能力），One-Eval 即可自动理解任务、筛选 benchmark 并规划执行流程。
                

                    框架通过全局状态数据总线实现全链路可追溯，解决传统评测黑盒问题。
                     One-Eval 摒弃了无状态线性流水线，采用 Global State 架构，记录评测全生命周期中的每一步操作和中间结果，使过程透明，便于排查异常和复盘。
                

                    One-Eval 采用可插拔模块化设计，支持 Human-in-the-Loop 人机协同。
                     Benchmark Gallery 和 Metric Library 将评测组件标准化，便于扩展。同时，框架在关键节点会主动中断，等待用户确认或修改参数，将人的判断力保留在关键环节。
                

        
    

        
            💬 文章金句
        

        
            One-Eval 不再把评测理解成「写一堆配置然后跑脚本」，而是把它重构为一个从自然语言需求出发、自动规划、自动执行、可中断、可追溯、可生成报告的完整工作流。

评测不再只是跑分，而是一个可理解、可组织、可干预、可复盘的系统过程。它不是在用自动化替代人，而是在用自动化减少低价值重复劳动，把人的参与放在真正关键的地方。

来源：Datawhale

作者：Datawhale

分类：人工智能

语言：中文

阅读时间：12 分钟

字数：2968

                标签：
                
                    大模型评测, One-Eval, 北大 DCAI, AI Agent, 开源框架
                
            

        
    

    
        阅读完整文章