Building more with GPT-5.1-Codex-Max
OpenAI发布长时编程智能体模型GPT-5.1-Codex-Max,并将其设为Codex默认模型

TL;DR: OpenAI发布长时编程智能体模型GPT-5.1-Codex-Max,并将其设为Codex默认模型
我们隆重推出 GPT‑5.1‑Codex‑Max:这款全新的前沿智能体编程模型现已在 Codex 上线。GPT‑5.1‑Codex‑Max 基于升级后的核心推理模型,专为软件工程、数学、科研等多种智能体任务而训练。它在开发周期的每个阶段都更快、更智能,并且令牌 (Token) 效率更高 ,迈出了成为可靠编程伙伴的重要一步。GPT‑5.1‑Codex‑Max 专为长时且繁复的工作而打造。它是首个原生训练、支持跨多个上下文窗口的模型,通过压缩 (compaction) 的过程,能够在单个任务中连贯处理数百万 Token。这解锁了项目级重构、深度调试会话,以及多小时的智能体循环。GPT‑5.1‑Codex‑Max 已在 Codex 中开放,支持 CLI、IDE 插件、云端环境与代码审查。API 接入也即将上线,敬请期待。GPT‑5.1‑Codex‑Max 在实际软件工程任务上进行了训练,包括 PR 创建、代码审查、前端开发以及问答,并在多项前沿编程评测中超越了我们之前的模型。模型在基准测试上的提升也带来了更好的实际应用表现:GPT‑5.1‑Codex‑Max 是我们首个能够在 Windows 环境中运行的模型,其训练内容还包括专门设计的任务,使其在 Codex CLI 中成为更优秀的协作伙伴。得益于更高效的推理,GPT‑5.1‑Codex‑Max 在 Token 效率上表现显著提升。在 SWE-bench Verified 测试中,GPT‑5.1‑Codex‑Max 在中等 (medium) 推理强度下,性能优于同等推理强度下的 GPT‑5.1‑Codex ,同时使用的思考 Token 减少了 30%。对于非延迟敏感型任务,我们还引入了新的超高 (xhigh) 推理强度,它会进行更长时间的思考,以提供更优答案。但我们仍推荐 medium 作为日常任务的首选。我们预计 Token 效率的提升将为开发者带来切实的成本节省。例如,GPT‑5.1‑Codex‑Max 能够以低于 GPT‑5.1‑Codex 的成本生成高质量的前端设计,同时保持相同的功能性与美观度。提示:生成一个单一的、可独立运行的浏览器应用,该应用能够渲染一个交互式的 CartPole 强化学习沙盒,包含 Canvas 图形、一个轻量级的策略梯度控制器、指标展示,以及一个 SVG 网络可视化器。功能必须能够实际训练一个策略,使模型在 CartPole 上表现更好模型训练或推理时的激活值/权重可视化工具显示每个回合中的步骤数与奖励显示最近一次存活时间和最佳存活时间(以步骤计)保存为 index.html压缩 (Compaction) 技术使 GPT‑5.1‑Codex‑Max 能够完成过去因上下文窗口限制而失败的任务,例如复杂的重构和长时间运行的智能体循环。它通过在长时间跨度中修剪历史记录,同时保留最重要的上下文,从而突破限制。在 Codex 应用中,GPT‑5.1‑Codex‑Max 会在接近上下文窗口上限时自动压缩会话,提供一个全新的上下文窗口,并不断重复这一过程,直到任务完成。能够在长时间跨度中保持连贯工作的能力,是迈向更通用、更可靠 AI 系统的基础能力之一。GPT‑5.1‑Codex‑Max 可以独立工作数小时。在我们的内部评估中,我们观察到它在某些任务上连续工作超过 24 小时,持续迭代实现、修复测试失败,最终交付成功结果。在此示例中,GPT‑5.1‑Codex‑Max 正在独立地重构 Codex CLI 开源代码库。当会话长度接近模型的上下文窗口时,它会自动压缩会话,以释放空间,从而在不丢失进度的情况下继续执行任务。视频已被剪辑并加速播放,以提高清晰度。GPT‑5.1‑Codex‑Max 在需要持续、长时推理的评测中表现出色。由于它能够通过压缩 (Compaction) 在多个上下文窗口中保持连贯工作,模型在长时编程与网络安全等领域中取得了更优结果。我们在 GPT‑5.1‑Codex‑Max 系统卡中分析了该模型在第一方与第三方评测中的表现。 根据我们的准备度框架 ,GPT‑5.1‑Codex‑Max 尚未达到网络安全领域的高 (High) 能力,但它是迄今为止我们部署的最强网络安全模型,并且智能体网络安全能力正在快速发展。因此,我们正在采取措施,为网络安全的高能力做好准备,强化在网络领域的防护,并通过 Aardvark 等项目确保防御者能够受益于这些经提升的能力。在推出 GPT‑5‑Codex 时,我们已实施专门的网络安全监控机制,用于检测和阻止恶意活动。虽然我们尚未观察到大规模滥用的显著增加,但我们正在为更高级的能力准备额外的缓解措施。我们的团队已成功阻止了试图滥用模型的网络行动,并通过政策监控系统将可疑活动转交审查。Codex 默认在安全沙箱中运行:文件写入仅限于其工作空间,网络访问在开发者未开启时保持禁用。我们建议保持 Codex 在这种受限模式下运行,因为启用互联网或网页搜索可能会引入来自不可信内容的提示注入 (prompt-injection) 风险。随着 Codex 在长时任务上的能力不断增强,开发者在进行修改或部署到生产环境之前审查智能体的工作变得愈发重要。为此,Codex 会生成终端日志,并引用其工具调用与测试结果。尽管其代码审查降低了将模型或人工产生的错误部署到生产环境的风险,但 Codex 应被视为额外的审查者,而非人工审查的替代。网络安全能力既可用于防御,也可用于攻击,因此我们采取迭代式部署方法:从实际使用中学习,更新防护措施,并保留重要的防御工具,例如自动化漏洞扫描与修复辅助。GPT‑5.1‑Codex‑Max 已在 Codex 上线,支持 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 套餐。关于各套餐的使用限制详情,请参阅我们的文档(在新窗口中打开)。对于通过 API Key 使用 Codex CLI 的开发者,我们计划很快在 API 中提供 GPT‑5.1‑Codex‑Max。 从今天起,GPT‑5.1‑Codex‑Max 将取代 GPT‑5.1‑Codex 成为 Codex 界面中的默认模型。与通用模型 GPT‑5.1 不同,我们建议仅在 Codex 或类似 Codex 的环境中,将 GPT‑5.1‑Codex‑Max 及其家族模型用于智能体编程任务。GPT‑5.1‑Codex‑Max 展示了模型在长时编程任务、复杂工作流管理以及高质量实现方面的巨大进步,并且能够以更少的 Token 完成更多工作。结合我们在 CLI、IDE 插件、云端集成和代码审查工具上的持续升级,该模型显著提升了工程效率:95% 的 OpenAI 内部工程师每周使用 Codex,并且自采用 Codex 以来,这些工程师提交的拉取请求 (Pull Request) 数量大约增加了 70%。随着我们不断推动智能体能力的前沿发展,我们也期待看到大家使用该工具构建出色的成果。GPT‑5.1‑Codex (high)GPT‑5.1‑Codex‑Max (xhigh)SWE-bench Verified (n=500)73.7%77.9%SWE-Lancer IC SWE66.3%79.9%Terminal-Bench 2.052.8%58.1%