Introducing GPT-5.1 for developers
OpenAI 在 API 平台发布面向开发者的 GPT-5.1,新增动态推理、24 小时 Prompt 缓存、apply_patch 与 shell 工具,并强化编码和智能体工作流能力。

TL;DR: OpenAI 在 API 平台发布面向开发者的 GPT-5.1,新增动态推理、24 小时 Prompt 缓存、apply_patch 与 shell 工具,并强化编码和智能体工作流能力。
今天,我们在 API 平台上发布了 GPT‑5.1。这是 GPT‑5 系列中的下一代模型,在智能与速度之间实现平衡,适用于广泛的智能体与编码任务。GPT‑5.1 会根据任务复杂度动态调整思考时间,让模型在处理日常简单任务时实现显著提速,并且在令牌 (Token) 使用上更高效。该模型还提供了“无推理”模式,用于在无需深度思考的任务中实现更快速的响应,同时保持 GPT‑5.1 的前沿智能。为了让 GPT‑5.1 更加高效,我们推出了高级提示 (Prompt) 缓存功能,最长可保留 24 小时,从而在后续问题中以更低成本提供更快的响应。此外,我们的优先处理(在新窗口中打开)客户将可畅享相较 GPT‑5 实现大幅提速的 GPT‑5.1 性能。在编码方面,我们与 Cursor、Cognition、Augment Code、Factory 和 Warp 等初创公司紧密合作,升级了 GPT‑5.1 的编码个性、可控性和代码质量。总体而言,使用 GPT‑5.1 编码更直观,而且在完成任务时用户可看到更清晰的更新。最后,我们在 GPT‑5.1 中推出了两项新工具:一是 apply_patch 工具,助力更可靠地编辑代码;二是 shell 工具,使模型能够运行 Shell 命令。GPT‑5.1 标志着 GPT‑5 系列的又一次跃进,我们计划继续投资于更智能、更强大的模型,帮助开发者构建可靠的智能体工作流。为了让 GPT‑5.1 速度更快,我们全面改进了训练方式,使其具备更灵活的思考机制。在简单任务中,GPT‑5.1 使用更少的 Token 进行推理,从而带来更流畅的产品体验并降低 Token 成本。在需要额外思考的复杂任务中,GPT‑5.1 保持持久性,探索不同选项并自我检查,以有效提升可靠性。Balyasny Asset Management(在新窗口中打开) 表示,GPT‑5.1“在完整动态评估套件中表现优于 GPT‑4.1 和 GPT‑5,同时运行速度比 GPT‑5 快 2-3 倍。”他们还指出,在工具密集型推理任务中,GPT‑5.1“始终只使用领先竞争对手约一半的 Token,却能保持相同或更高的质量。”同样,AI 保险 BPO Pace(在新窗口中打开) 也测试了该模型,并表示他们的智能体在 GPT‑5.1 上运行速度“快了 50%,同时在准确性上超过了 GPT‑5 和其他领先模型的评估结果。”GPT‑5.1 在思考时间上的动态变化比 GPT‑5 更灵活。在具有代表性的 ChatGPT 任务分布中,GPT‑5.1 在较简单的任务上速度更快,即使在高推理投入的情况下也是如此。例如,当被问到“展示一个 npm 命令以列出全局安装的软件包”时,GPT‑5.1 在 2 秒内完成回答,而不是 10 秒。开发者现在可以通过将 reasoning_effort 设置为 'none' 来使用 GPT‑5.1 的无推理模式。这使模型在延迟敏感的场景中表现得像一个非推理模型,同时仍具备 GPT‑5.1 的高智能,并额外支持高性能的工具调用。与 GPT‑5 的 'minimal' 推理相比,GPT‑5.1 的无推理模式在并行工具调用(可提升端到端任务完成速度)、编码任务、指令遵循以及搜索工具使用方面表现更佳,并且在我们的 API 平台中支持网络搜索(在新窗口中打开)。Sierra(在新窗口中打开) 分享了他们的真实评估结果,显示 GPT‑5.1 在“无推理”模式下的低延迟工具调用性能相比 GPT‑5 最低推理提升了 20%。随着 'none' 作为 reasoning_effort 的新取值被引入,开发者在速度、成本与智能之间拥有了更大的灵活性与控制力。GPT‑5.1 默认使用 'none',非常适合延迟敏感的工作负载。我们建议开发者在更复杂的任务中选择 'low' 或 'medium',而在智能与可靠性比速度更重要的场景中选择 'high'。高级缓存功能让提示在缓存中保持最长 24 小时(而非目前仅支持的几分钟),提升了推理效率。更长的保留窗口让更多后续请求能够利用缓存上下文,从而在多轮对话、编码会话或知识检索等长时间交互中实现更低延迟和成本,以及更流畅的性能。提示缓存的定价保持不变:缓存的输入 Token 比未缓存的便宜 90%,且缓存写入或存储不收取额外费用。要在 GPT‑5.1 中使用高级缓存功能,只需在 Responses 或 Chat Completions API 中添加参数“prompt_cache_retention='24h'”。详情请参阅提示缓存文档(在新窗口中打开)。GPT‑5.1 在 GPT‑5 的编码能力基础上进一步提升,具备更可控的编码个性、更少的过度思考、更高的代码质量、更贴近用户的更新消息(前言提示)以及更实用的前端设计 — 在低推理投入的场景中表现尤为突出。在简单的编码任务中,例如快速代码编辑,GPT‑5.1 的更高速度让迭代往返变得轻松。GPT‑5.1 在简单任务上的加速并不会降低其在复杂任务中的表现。在 SWE-bench Verified 测试中,GPT‑5.1 的持续工作时间甚至超过 GPT‑5,并达到了 76.3%。SWE-bench Verified 为模型提供一个代码库和问题描述,模型并必须生成补丁来解决该问题。标签用于指示推理投入。准确性是所有 500 个问题的平均值。所有模型都使用了一个包含基于 JSON 的 apply_patch 工具的框架。我们收到来自多家编码公司关于 GPT‑5.1 的早期反馈。以下是他们的印象:Augment Code(在新窗口中打开) 表示,GPT‑5.1 “更为审慎,减少了无效操作,推理更高效,任务聚焦更好”,他们看到的效果是“更准确的代码修改、更顺畅的拉取请求 (Pull Request),以及在多文件项目中更快速的迭代”。Cline(在新窗口中打开) 分享道,在他们的评估中,“GPT‑5.1 在 diff 编辑基准测试中达到了 SOTA,并提升了 7%,展现出在复杂编码任务中的卓越可靠性。”CodeRabbit(在新窗口中打开) 称 GPT‑5.1 是他们“进行 PR 审查的首选模型”。Cognition(在新窗口中打开) 表示,GPT‑5.1 “在理解用户需求并协作完成任务方面有显著提升”。Factory(在新窗口中打开) 指出,“GPT‑5.1 的响应明显更快,并能根据任务调整推理深度,减少过度思考,提升整体开发者体验。”Warp(在新窗口中打开) 正在将 GPT‑5.1 设为新用户的默认模型,并表示它“在 GPT‑5 系列令人印象深刻的智能提升基础上更具响应性。”“GPT-5.1 不只是另一种大语言模型。它是真正的智能体,是我测试过的最自然自主的模型。它像人类一样书写、编码,能够轻松遵循复杂指令,并在前端任务中表现出色,能够无缝融入你现有的代码库。你可以在 Responses API 中真正释放它的全部潜力,我们也很高兴能在我们的 IDE 中提供该工具。”— Denis Shiryaev,JetBrains AI 开发工具生态负责人我们在 GPT‑5.1 中推出了两项新工具,帮助开发者在 Responses API 中更好地发挥模型的能力:自由形式的 apply_patch 工具,让代码编辑更加可靠,无需进行 JSON 转义;shell 工具,允许模型编写命令并在本地机器上运行。自由形式的 apply_patch 工具让 GPT‑5.1 能够在代码库中通过结构化 diff 来创建、更新并删除文件。与仅仅提出编辑建议不同,模型会生成补丁操作,由应用程序执行并反馈结果,从而支持逐步迭代且多步骤的代码编辑工作流。 在 Responses API 中使用 apply_patch工具时 ,可以在工具数组中包含 "tools": [{“type”: “apply_patch”}] ,并在输入中提供文件内容,或为模型提供与文件系统交互的工具。模型会生成 apply_patch_call 项,用于创建、更新或删除文件,这些文件包含需要在文件系统中应用的 diff。要了解更多关于如何集成 apply_patch 工具的信息,请参阅开发者文档(在新窗口中打开)。Shell 工具允许模型通过受控的命令行接口与本地计算机交互。模型会提出 shell 命令,由开发者的集成执行并返回输出。这形成了一个简单的“计划 — 执行”循环,使模型能够检查系统、运行工具并收集数据,直到完成任务。在 Responses API 中使用 shell 工具时,开发者可以在工具数组中包含 "tools": [{“type”: “shell”}]。API 会生成 "shell_call" 项,其中包含要执行的 shell 命令。开发者在本地环境中执行这些命令,并在下一次 API 请求中通过 "shell_call_output" 项传回执行结果。详情请参阅我们的开发者文档(在新窗口中打开)。GPT‑5.1 和 gpt-5.1-chat-latest 已在 API 的所有付费层级向开发者开放。定价和速率限制(在新窗口中打开)与 GPT‑5 保持一致。我们还在 API 中发布了 gpt-5.1-codex 以及 gpt-5.1-codex-mini。虽然 GPT‑5.1 在大多数编码任务中表现出色,但 GPT‑5.1‑codex 系列模型针对 Codex 或类似 Codex 的运行环境中具备代理能力的长期编码任务进行了优化。我们致力于持续迭代上线强大可靠的模型,用于真实的智能体与编码工作。这些模型能够高效思考、快速迭代、处理复杂任务,同时为开发者打造流畅的工作体验。通过自适应推理、更强的编码性能、更清晰的用户更新提示,以及 apply_patch 和 shell 等新工具,GPT‑5.1 旨在帮助你更轻松地完成构建。此外, 我们在这一领域持续加大投入。在未来的数周和数月中,你可以看到更强大的智能体与编码模型不断推出。评估GPT‑5.1(高)GPT‑5(高)SWE-bench Verified(全部 500 个问题)76.3%72.8%GPQA Diamond(无工具)88.1%85.7%AIME 2025(无工具)94.0%94.6%FrontierMath(使用 Python 工具)26.7%26.3%MMMU85.4%84.2%Tau2-bench Airline67.0%62.6%Tau2-bench Telecom*95.6%96.7%Tau2-bench Retail77.9%81.1%BrowseComp Long Context 128k90.0%90.0%* 在 Tau2-bench Telecom 测试中,我们为 GPT‑5.1 提供了一个简短、通用的提示,以提升其性能。