Introducing AgentKit, new Evals, and RFT for agents · RoboRadar

OpenAI用于构建、部署和优化智能体的新工具。今日我们正式发布 AgentKit，这是一套为开发人员和企业打造的完整工具集，用于构建、部署和优化智能体。过去，构建智能体往往意味着需要协调一堆零散工具：复杂的流程编排却缺乏版本控制、定制化连接器、手动评估流程、提示词调优，以及上线前长达数周的前端开发。借助 AgentKit，开发人员现在能够可视化设计工作流程，并利用全新构建模块快速嵌入智能体界面，例如：Agent Builder：用于创建和版本控制多智能体工作流程的可视化画布Connector Registry：为管理员提供统一管理 OpenAI 产品数据与工具连接配置的核心平台ChatKit：用于在产品中嵌入可定制对话式智能体体验的开发工具包我们还通过多项新功能扩展评估能力，包括数据集、追踪评分、自动提示优化以及第三方模型支持，以衡量和提升智能体性能。自 3 月份发布 Responses API 和 Agents SDK⁠ 以来，我们看到开发人员和企业构建出多个端到端智能体工作流程，用于深度研究、客户支持等。Klarna 构建的客服智能体⁠可处理三分之二的工单量；Clay 则通过销售智能体实现了 10 倍增长⁠。AgentKit 基于 Responses API 构建，旨在帮助开发人员更高效、更可靠地构建智能体。随着智能体工作流程日益复杂，开发人员需要更清晰地掌握其运行方式。Agent Builder⁠（在新窗口中打开）提供可视化画布，可通过拖拽节点组合逻辑、连接工具并配置自定义防护机制。该平台支持预览运行、内联评估配置和完整版本控制，是快速迭代的理想解决方案。构建者可以从空白画布起步，或直接使用预制模板。在 Ramp，公司团队仅用数小时就从零开始打造出一款采购智能体。Agent Builder 将原本需要数月时间完成的复杂编排、自定义编码与人工优化流程，压缩至短短数小时。可视化画布确保产品、法务与工程团队协同一致，迭代周期缩短 70%，智能体上线时间从两个季度缩减至两个冲刺周期。”— Ramp无独有偶，日本领先的科技与互联网服务企业 LY Corporation 使用 Agent Builder 在不足两小时内便成功构建出一款工作助手智能体。“Agent Builder 让我们以全新方式编排智能体，实现工程师与领域专家在统一界面协同工作。我们仅用不到两小时就构建并运行了首个多智能体工作流程，极大缩短了智能体创建与部署周期。”— LY Corporation我们还推出 Connector Registry，助力企业管理和维护跨多个工作空间和组织的数据。Connector Registry⁠（在新窗口中打开）将 ChatGPT 与 API 的数据源整合至统一管理员面板。该注册表包含所有预置连接器，例如 Dropbox、Google Drive、Sharepoint 和 Microsoft Teams，以及第三方 MCP。为智能体部署聊天界面的复杂程度往往超乎想象——需要处理流式响应、管理对话线程、展示模型思考过程，并设计生动的对话交互。ChatKit 让您能够轻松嵌入基于聊天的智能体，使其在您的产品中看起来原生自然。它可以嵌入到应用程序或网站中，并可根据您的主题或品牌进行自定义。“借助 ChatKit，我们为 Canva 开发人员社区构建支持助手时节省超过两周时间，并在一小时内完成集成。该支持助手将彻底改变开发人员与文档互动的方式，将其转变为一种对话式体验，从而简化在 Canva 上构建应用和集成的过程。”— CanvaChatKit 已经为多种使用场景提供支持，从内部知识助手、入职引导到客户支持和研究型智能体都有应用。HubSpot⁠（在新窗口中打开）的客户支持智能体就是一个例子：构建可靠且可立即投入生产的智能体需要严格的性能评估。去年，我们推出了 Evals⁠（在新窗口中打开），以帮助开发人员测试提示并衡量模型行为。现在，我们新增了四项功能，让构建评估更为便捷：数据集–快速从零开始构建智能体评估，并通过自动评分器和人工注释逐步扩展。追踪评分–对智能工作流程进行端到端评估，并自动评分以找出不足之处。自动提示优化–根据人工注释和评分器输出生成改进的提示。第三方模型支持–在 OpenAI Evals 平台内评估其他供应商的模型。我们已经从使用 Evals 的客户那里看到显著的性能提升。“该评估平台将我们多智能体尽职调查框架的开发周期缩短了 50% 以上，并将智能体准确率提升了 30%。”— Carlyle强化微调⁠（在新窗口中打开） (RFT) 赋予开发人员自定义推理模型的能力。该功能已在 OpenAI o4-mini 上正式发布，并在 GPT‑5 上提供内测版本。我们正与数十家客户紧密合作，在广泛发布前进一步完善 GPT‑5 的 RFT 功能。今日我们为 RFT 测试版推出两项新功能，旨在进一步提升智能体性能：自定义工具调用–训练模型在恰当时机精准调用工具以优化推理自定义评分器–根据应用场景的核心需求设置自定义评估标准自今日起，ChatKit 和全新 Evals 功能正式向所有开发人员开放。Agent Builder 现已推出测试版，Connector Registry 也即将面向部分 API、ChatGPT Enterprise 和 Edu 客户推出测试版，这些客户将配备全局管理控制台⁠（全局所有者可在其中管理域、单点登录和多个 API 组织）。全局管理控制台是⁠（在新窗口中打开）启用 Connector Registry 的先决条件。所有这些工具都包含在标准 API 模型定价中。我们计划很快为 ChatGPT 新增独立工作流 API 和智能体部署选项。我们期待见证您的构建成果。