How evals drive the next chapter in AI for businesses · RoboRadar

全球已有超过一百万家企业⁠正在利用人工智能提升效率并创造价值。但也有一些组织发现，结果并未达到预期。那么，差距究竟来自哪里？OpenAI 也在内部应用人工智能来实现雄心勃勃的目标。其中一类关键工具就是评估框架，它们用于衡量和提升 AI 系统满足期望的能力。与产品需求文档类似，评估框架能够让模糊的目标和抽象的想法变得具体而明确。战略性地使用评估框架，可以让面向客户的产品或内部工具在大规模应用中更可靠，减少严重错误，降低下行风险，并为组织提供一条可量化的路径来提升投资回报率 (ROI)。在 OpenAI，各种模型就是我们的产品。因此研究人员会使用严格的前沿评估框架⁠（在新窗口中打开）1来衡量模型在不同领域的表现。前沿评估框架帮助我们更快地推出更好的模型，但它们无法揭示所有细微差别，尤其是在特定业务场景或工作流程中确保模型表现的要求。因此，内部团队还创建了数十种情境评估框架，用于在具体产品或内部流程中测试性能。这也是为什么企业领导者需要学习如何设计符合自身组织需求和运营环境的情境评估框架。本入门指南专为希望在组织中应用评估框架的企业领导者而准备。针对特定组织的工作流程或产品量身定制的情境评估框架，目前仍处于积极发展阶段，尚未形成统一的流程。因此，本文提供了一个在多种情境下都被证明有效的通用框架。我们预计这一领域将不断演进，并会出现更多针对特定业务场景和目标的框架。例如，一个面向消费者的前沿 AI 产品所需的评估框架，可能与基于标准操作流程的内部自动化评估框架完全不同。我们相信，本文所介绍的框架能够在这两种情况下都作为最佳实践的集合，并为你在构建符合组织需求的评估框架时提供有价值的参考。首先从一个小型而有权能的团队开始。他们能够用简明的语言写下 AI 系统的目标，例如：“将合格的入站电子邮件转化为已安排的演示，同时保持品牌调性。”这个团队应由具备技术和领域专业知识的成员组成（在上述例子中，你需要销售专家加入）。他们需要能够指出最重要的衡量结果，梳理完整的工作流程，并识别 AI 系统在其中会遇到的关键决策点。在工作流程的每一步中，团队都要定义成功的标准，以及需要避免的情况。这个过程会建立起数十个示例输入（如入站邮件）与系统预期输出之间的映射关系。最终形成的“黄金示例集”应该成为一份鲜活的、权威的参考资料，体现最资深专家对“优秀”的判断和品味。不要因冷启动而感到压力，也不要试图一次性解决所有问题。这个过程具有迭代性且颇为混乱，早期原型设计会非常有帮助。审查系统早期版本的 50 到 100 个输出，可以揭示系统失败的方式和时机。这种“错误分析”会形成一个错误分类体系（及其频率），用于追踪系统的改进。这个过程并非纯粹的技术问题，而是跨职能的问题，核心在于定义业务目标和期望流程。技术团队不应被单独要求判断什么最能服务客户或其他团队（如产品、销售或人力资源）的需求。因此，领域专家、技术负责人和其他关键利益相关者都应共同承担责任。下一个步骤是衡量。衡量的目标是可靠地呈现系统失败的具体案例，以及失败的时间和方式。为此，需要建立一个专门的测试环境，尽可能贴近真实条件，而不仅仅是演示或提示实验场。要在相同压力和边界条件下，依据黄金示例集和错误分析来评估性能。评分标准可以帮助你更具体地判断系统的输出结果，但也可能因过度强调表面因素而偏离整体目标。此外，有些特质难以或无法衡量。在某些情况下，传统业务指标很重要；在其他情况下，你需要创造新的指标。在整个过程中让领域专家参与进来，并确保与核心目标紧密对齐。要有效测试系统，应尽可能使用真实场景的示例，并加入或设计那些罕见但一旦处理不当就代价高昂的边界案例。部分评估框架可以使用 LLM 评分器（一种像专家一样评估输出结果的 AI 模型）进行扩展，但仍需保持人工参与。领域专家需要定期审查 LLM 评分器的准确性，并直接检查系统行为的日志。评估框架可以帮助你判断系统是否准备好上线，但它们并不会在上线后停止运作。你应持续衡量系统在真实输入下产生的真实输出质量。与任何产品一样，来自终端用户（无论外部还是内部）的信号尤为重要，应当纳入评估框架中。最后一步是建立持续改进的流程。解决评估框架揭示的问题可能有多种方式：优化提示、调整数据访问、更新评估框架以更好地反映目标等等。随着新错误类型的出现，应将其加入错误分析并加以解决。每一次迭代都会在前一次的基础上累积：新的标准和更清晰的系统行为预期会揭示新的边界案例，以及需要纠正的轻微顽固问题。为支持这种迭代，构建一个数据飞轮。记录输入、输出和结果；定期抽样这些日志，并自动将模糊或高成本的案例交由专家审查。将这些专家判断加入评估框架和错误分析，再用它们来更新提示、工具或模型。通过这一循环，你会更清晰地定义系统的期望，使其更贴合这些期望，并识别更多相关的输出和结果以进行追踪。在规模化部署时，这一过程会产生一个庞大、差异化、情境特定的数据集。这是难以复制的数据集，成为组织在市场中打造最佳产品或流程时的重要资产。虽然评估框架提供了系统化的改进方式，但新的失败模式仍可能出现。实际上，随着模型、数据和业务目标的演变，组织也必须针对评估框架持续进行维护、扩展和压力测试。对于面向外部的部署，评估框架并不能替代传统的 A/B 测试和产品实验。它们是传统实验的补充，彼此相辅相成。此外，评估框架还有助于了解所做的更改如何影响实际表现。每一次重大技术转型都会重塑卓越运营和竞争优势。像 OKR 和 KPI 这样的框架，曾帮助组织在大数据分析时代围绕“衡量重要事项”进行定位。评估框架则是进入 AI 时代后自然延伸出的衡量方式。与概率性系统合作需要新的衡量方法，并更深入地考虑如何进行取舍。领导者必须决定何时需要精确，何时可以更灵活，以及如何在速度与可靠性之间取得平衡。实施评估框架并不容易，就像要打造出真正优秀的产品一样，需要严谨、远见和品味。如果做得好，评估框架会成为独特的差异化因素。在信息自由流通、专业知识广泛普及的世界里，组织的优势取决于系统在具体情境中执行得有多好。健全的评估框架会随着系统改进而不断积累优势和组织知识。从根本上说，评估框架是对业务情境和目标的深刻理解。如果你无法定义在应用场景中“优秀”的含义，就很难实现它。在这种意义上，评估框架突出了 AI 时代的一条关键经验：管理技能就是 AI 技能。清晰的目标、直接的反馈、审慎的判断，以及对价值主张、战略和流程的明确理解，依然重要，甚至比以往更重要。随着更多最佳实践和框架的不断涌现，我们会持续进行分享。与此同时，我们鼓励你试用评估框架，探索最适合自身需求的流程。若要开始，先明确要解决的问题和领域专家，召集你的小团队。如果你正在基于我们的 API 进行构建，可以查阅我们的平台文档⁠（在新窗口中打开）。不要只是期待“优秀”。要界定它，衡量它，并不断改进以实现它。