Introducing GPT-5.1 for developers · RoboRadar

今天，我们在 API 平台上发布了 GPT‑5.1。这是 GPT‑5 系列中的下一代模型，在智能与速度之间实现平衡，适用于广泛的智能体与编码任务。GPT‑5.1 会根据任务复杂度动态调整思考时间，让模型在处理日常简单任务时实现显著提速，并且在令牌 (Token) 使用上更高效。该模型还提供了“无推理”模式，用于在无需深度思考的任务中实现更快速的响应，同时保持 GPT‑5.1 的前沿智能。为了让 GPT‑5.1 更加高效，我们推出了高级提示 (Prompt) 缓存功能，最长可保留 24 小时，从而在后续问题中以更低成本提供更快的响应。此外，我们的优先处理⁠（在新窗口中打开）客户将可畅享相较 GPT‑5 实现大幅提速的 GPT‑5.1 性能。在编码方面，我们与 Cursor、Cognition、Augment Code、Factory 和 Warp 等初创公司紧密合作，升级了 GPT‑5.1 的编码个性、可控性和代码质量。总体而言，使用 GPT‑5.1 编码更直观，而且在完成任务时用户可看到更清晰的更新。最后，我们在 GPT‑5.1 中推出了两项新工具：一是 apply_patch 工具，助力更可靠地编辑代码；二是 shell 工具，使模型能够运行 Shell 命令。GPT‑5.1 标志着 GPT‑5 系列的又一次跃进，我们计划继续投资于更智能、更强大的模型，帮助开发者构建可靠的智能体工作流。为了让 GPT‑5.1 速度更快，我们全面改进了训练方式，使其具备更灵活的思考机制。在简单任务中，GPT‑5.1 使用更少的 Token 进行推理，从而带来更流畅的产品体验并降低 Token 成本。在需要额外思考的复杂任务中，GPT‑5.1 保持持久性，探索不同选项并自我检查，以有效提升可靠性。Balyasny Asset Management⁠（在新窗口中打开）表示，GPT‑5.1“在完整动态评估套件中表现优于 GPT‑4.1 和 GPT‑5，同时运行速度比 GPT‑5 快 2-3 倍。”他们还指出，在工具密集型推理任务中，GPT‑5.1“始终只使用领先竞争对手约一半的 Token，却能保持相同或更高的质量。”同样，AI 保险 BPO Pace⁠（在新窗口中打开）也测试了该模型，并表示他们的智能体在 GPT‑5.1 上运行速度“快了 50%，同时在准确性上超过了 GPT‑5 和其他领先模型的评估结果。”GPT‑5.1 在思考时间上的动态变化比 GPT‑5 更灵活。在具有代表性的 ChatGPT 任务分布中，GPT‑5.1 在较简单的任务上速度更快，即使在高推理投入的情况下也是如此。例如，当被问到“展示一个 npm 命令以列出全局安装的软件包”时，GPT‑5.1 在 2 秒内完成回答，而不是 10 秒。开发者现在可以通过将 reasoning_effort 设置为 'none' 来使用 GPT‑5.1 的无推理模式。这使模型在延迟敏感的场景中表现得像一个非推理模型，同时仍具备 GPT‑5.1 的高智能，并额外支持高性能的工具调用。与 GPT‑5 的 'minimal' 推理相比，GPT‑5.1 的无推理模式在并行工具调用（可提升端到端任务完成速度）、编码任务、指令遵循以及搜索工具使用方面表现更佳，并且在我们的 API 平台中支持网络搜索⁠（在新窗口中打开）。Sierra⁠（在新窗口中打开）分享了他们的真实评估结果，显示 GPT‑5.1 在“无推理”模式下的低延迟工具调用性能相比 GPT‑5 最低推理提升了 20%。随着 'none' 作为 reasoning_effort 的新取值被引入，开发者在速度、成本与智能之间拥有了更大的灵活性与控制力。GPT‑5.1 默认使用 'none'，非常适合延迟敏感的工作负载。我们建议开发者在更复杂的任务中选择 'low' 或 'medium'，而在智能与可靠性比速度更重要的场景中选择 'high'。高级缓存功能让提示在缓存中保持最长 24 小时（而非目前仅支持的几分钟），提升了推理效率。更长的保留窗口让更多后续请求能够利用缓存上下文，从而在多轮对话、编码会话或知识检索等长时间交互中实现更低延迟和成本，以及更流畅的性能。提示缓存的定价保持不变：缓存的输入 Token 比未缓存的便宜 90%，且缓存写入或存储不收取额外费用。要在 GPT‑5.1 中使用高级缓存功能，只需在 Responses 或 Chat Completions API 中添加参数“prompt_cache_retention='24h'”。详情请参阅提示缓存文档⁠（在新窗口中打开）。GPT‑5.1 在 GPT‑5 的编码能力基础上进一步提升，具备更可控的编码个性、更少的过度思考、更高的代码质量、更贴近用户的更新消息（前言提示）以及更实用的前端设计 — 在低推理投入的场景中表现尤为突出。在简单的编码任务中，例如快速代码编辑，GPT‑5.1 的更高速度让迭代往返变得轻松。GPT‑5.1 在简单任务上的加速并不会降低其在复杂任务中的表现。在 SWE-bench Verified 测试中，GPT‑5.1 的持续工作时间甚至超过 GPT‑5，并达到了 76.3%。SWE-bench Verified⁠⁠ 为模型提供一个代码库和问题描述，模型并必须生成补丁来解决该问题。标签用于指示推理投入。准确性是所有 500 个问题的平均值。所有模型都使用了一个包含基于 JSON 的 apply_patch 工具的框架。我们收到来自多家编码公司关于 GPT‑5.1 的早期反馈。以下是他们的印象：Augment Code⁠（在新窗口中打开）表示，GPT‑5.1 “更为审慎，减少了无效操作，推理更高效，任务聚焦更好”，他们看到的效果是“更准确的代码修改、更顺畅的拉取请求 (Pull Request)，以及在多文件项目中更快速的迭代”。Cline⁠（在新窗口中打开）分享道，在他们的评估中，“GPT‑5.1 在 diff 编辑基准测试中达到了 SOTA，并提升了 7%，展现出在复杂编码任务中的卓越可靠性。”CodeRabbit⁠（在新窗口中打开）称 GPT‑5.1 是他们“进行 PR 审查的首选模型”。Cognition⁠（在新窗口中打开）表示，GPT‑5.1 “在理解用户需求并协作完成任务方面有显著提升”。Factory⁠（在新窗口中打开）指出，“GPT‑5.1 的响应明显更快，并能根据任务调整推理深度，减少过度思考，提升整体开发者体验。”Warp⁠（在新窗口中打开）正在将 GPT‑5.1 设为新用户的默认模型，并表示它“在 GPT‑5 系列令人印象深刻的智能提升基础上更具响应性。”“GPT-5.1 不只是另一种大语言模型。它是真正的智能体，是我测试过的最自然自主的模型。它像人类一样书写、编码，能够轻松遵循复杂指令，并在前端任务中表现出色，能够无缝融入你现有的代码库。你可以在 Responses API 中真正释放它的全部潜力，我们也很高兴能在我们的 IDE 中提供该工具。”— Denis Shiryaev，JetBrains AI 开发工具生态负责人我们在 GPT‑5.1 中推出了两项新工具，帮助开发者在 Responses API 中更好地发挥模型的能力：自由形式的 apply_patch 工具，让代码编辑更加可靠，无需进行 JSON 转义；shell 工具，允许模型编写命令并在本地机器上运行。自由形式的 apply_patch 工具让 GPT‑5.1 能够在代码库中通过结构化 diff 来创建、更新并删除文件。与仅仅提出编辑建议不同，模型会生成补丁操作，由应用程序执行并反馈结果，从而支持逐步迭代且多步骤的代码编辑工作流。在 Responses API 中使用 apply_patch工具时，可以在工具数组中包含 "tools": [{“type”: “apply_patch”}] ，并在输入中提供文件内容，或为模型提供与文件系统交互的工具。模型会生成 apply_patch_call 项，用于创建、更新或删除文件，这些文件包含需要在文件系统中应用的 diff。要了解更多关于如何集成 apply_patch 工具的信息，请参阅开发者文档⁠（在新窗口中打开）。Shell 工具允许模型通过受控的命令行接口与本地计算机交互。模型会提出 shell 命令，由开发者的集成执行并返回输出。这形成了一个简单的“计划 — 执行”循环，使模型能够检查系统、运行工具并收集数据，直到完成任务。在 Responses API 中使用 shell 工具时，开发者可以在工具数组中包含 "tools": [{“type”: “shell”}]。API 会生成 "shell_call" 项，其中包含要执行的 shell 命令。开发者在本地环境中执行这些命令，并在下一次 API 请求中通过 "shell_call_output" 项传回执行结果。详情请参阅我们的开发者文档⁠（在新窗口中打开）。GPT‑5.1 和 gpt-5.1-chat-latest 已在 API 的所有付费层级向开发者开放。定价和速率限制⁠（在新窗口中打开）与 GPT‑5 保持一致。我们还在 API 中发布了 gpt-5.1-codex 以及 gpt-5.1-codex-mini。虽然 GPT‑5.1 在大多数编码任务中表现出色，但 GPT‑5.1‑codex 系列模型针对 Codex 或类似 Codex 的运行环境中具备代理能力的长期编码任务进行了优化。我们致力于持续迭代上线强大可靠的模型，用于真实的智能体与编码工作。这些模型能够高效思考、快速迭代、处理复杂任务，同时为开发者打造流畅的工作体验。通过自适应推理、更强的编码性能、更清晰的用户更新提示，以及 apply_patch 和 shell 等新工具，GPT‑5.1 旨在帮助你更轻松地完成构建。此外，我们在这一领域持续加大投入。在未来的数周和数月中，你可以看到更强大的智能体与编码模型不断推出。评估GPT‑5.1（高）GPT‑5（高）SWE-bench Verified（全部 500 个问题）76.3%72.8%GPQA Diamond（无工具）88.1%85.7%AIME 2025（无工具）94.0%94.6%FrontierMath（使用 Python 工具）26.7%26.3%MMMU85.4%84.2%Tau2-bench Airline67.0%62.6%Tau2-bench Telecom*95.6%96.7%Tau2-bench Retail77.9%81.1%BrowseComp Long Context 128k90.0%90.0%* 在 Tau2-bench Telecom 测试中，我们为 GPT‑5.1 提供了一个简短、通用的提示，以提升其性能。