返回
AI AgentOPENAI

Introducing AgentKit, new Evals, and RFT for agents

OpenAI发布AgentKit、升级Evals,并为智能体推出RFT相关能力

OpenAI News11 分钟阅读中文
阅读原文
Introducing AgentKit, new Evals, and RFT for agents
TL;DR: OpenAI发布AgentKit、升级Evals,并为智能体推出RFT相关能力
以下为 OpenAI News 原文(中文

OpenAI用于构建、部署和优化智能体的新工具。今日我们正式发布 AgentKit,这是一套为开发人员和企业打造的完整工具集,用于构建、部署和优化智能体。过去,构建智能体往往意味着需要协调一堆零散工具:复杂的流程编排却缺乏版本控制、定制化连接器、手动评估流程、提示词调优,以及上线前长达数周的前端开发。借助 AgentKit,开发人员现在能够可视化设计工作流程,并利用全新构建模块快速嵌入智能体界面,例如:Agent Builder:用于创建和版本控制多智能体工作流程的可视化画布Connector Registry:为管理员提供统一管理 OpenAI 产品数据与工具连接配置的核心平台ChatKit:用于在产品中嵌入可定制对话式智能体体验的开发工具包 我们还通过多项新功能扩展评估能力,包括数据集、追踪评分、自动提示优化以及第三方模型支持,以衡量和提升智能体性能。自 3 月份发布 Responses API 和 Agents SDK⁠ 以来,我们看到开发人员和企业构建出多个端到端智能体工作流程,用于深度研究、客户支持等。Klarna 构建的客服智能体⁠可处理三分之二的工单量;Clay 则通过销售智能体实现了 10 倍增长⁠。AgentKit 基于 Responses API 构建,旨在帮助开发人员更高效、更可靠地构建智能体。随着智能体工作流程日益复杂,开发人员需要更清晰地掌握其运行方式。Agent Builder⁠(在新窗口中打开) 提供可视化画布,可通过拖拽节点组合逻辑、连接工具并配置自定义防护机制。该平台支持预览运行、内联评估配置和完整版本控制,是快速迭代的理想解决方案。构建者可以从空白画布起步,或直接使用预制模板。在 Ramp,公司团队仅用数小时就从零开始打造出一款采购智能体。Agent Builder 将原本需要数月时间完成的复杂编排、自定义编码与人工优化流程,压缩至短短数小时。可视化画布确保产品、法务与工程团队协同一致,迭代周期缩短 70%,智能体上线时间从两个季度缩减至两个冲刺周期。”— Ramp无独有偶,日本领先的科技与互联网服务企业 LY Corporation 使用 Agent Builder 在不足两小时内便成功构建出一款工作助手智能体。“Agent Builder 让我们以全新方式编排智能体,实现工程师与领域专家在统一界面协同工作。我们仅用不到两小时就构建并运行了首个多智能体工作流程,极大缩短了智能体创建与部署周期。”— LY Corporation我们还推出 Connector Registry,助力企业管理和维护跨多个工作空间和组织的数据。Connector Registry⁠(在新窗口中打开) 将 ChatGPT 与 API 的数据源整合至统一管理员面板。该注册表包含所有预置连接器,例如 Dropbox、Google Drive、Sharepoint 和 Microsoft Teams,以及第三方 MCP。为智能体部署聊天界面的复杂程度往往超乎想象——需要处理流式响应、管理对话线程、展示模型思考过程,并设计生动的对话交互。ChatKit 让您能够轻松嵌入基于聊天的智能体,使其在您的产品中看起来原生自然。它可以嵌入到应用程序或网站中,并可根据您的主题或品牌进行自定义。“借助 ChatKit,我们为 Canva 开发人员社区构建支持助手时节省超过两周时间,并在一小时内完成集成。该支持助手将彻底改变开发人员与文档互动的方式,将其转变为一种对话式体验,从而简化在 Canva 上构建应用和集成的过程。”— CanvaChatKit 已经为多种使用场景提供支持,从内部知识助手、入职引导到客户支持和研究型智能体都有应用。HubSpot⁠(在新窗口中打开) 的客户支持智能体就是一个例子:构建可靠且可立即投入生产的智能体需要严格的性能评估。去年,我们推出了 Evals⁠(在新窗口中打开),以帮助开发人员测试提示并衡量模型行为。现在,我们新增了四项功能,让构建评估更为便捷:数据集–快速从零开始构建智能体评估,并通过自动评分器和人工注释逐步扩展。追踪评分–对智能工作流程进行端到端评估,并自动评分以找出不足之处。自动提示优化–根据人工注释和评分器输出生成改进的提示。第三方模型支持–在 OpenAI Evals 平台内评估其他供应商的模型。我们已经从使用 Evals 的客户那里看到显著的性能提升。“该评估平台将我们多智能体尽职调查框架的开发周期缩短了 50% 以上,并将智能体准确率提升了 30%。”— Carlyle强化微调⁠(在新窗口中打开) (RFT) 赋予开发人员自定义推理模型的能力。该功能已在 OpenAI o4-mini 上正式发布,并在 GPT‑5 上提供内测版本。我们正与数十家客户紧密合作,在广泛发布前进一步完善 GPT‑5 的 RFT 功能。今日我们为 RFT 测试版推出两项新功能,旨在进一步提升智能体性能: 自定义工具调用–训练模型在恰当时机精准调用工具以优化推理 自定义评分器–根据应用场景的核心需求设置自定义评估标准自今日起,ChatKit 和全新 Evals 功能正式向所有开发人员开放。Agent Builder 现已推出测试版,Connector Registry 也即将面向部分 API、ChatGPT Enterprise 和 Edu 客户推出测试版,这些客户将配备全局管理控制台⁠(全局所有者可在其中管理域、单点登录和多个 API 组织)。全局管理控制台是⁠(在新窗口中打开)启用 Connector Registry 的先决条件。所有这些工具都包含在标准 API 模型定价中。我们计划很快为 ChatGPT 新增独立工作流 API 和智能体部署选项。我们期待见证您的构建成果。