返回
AI AgentOPENAI

Codex 已经可以支持 GPT-5.5 了,同时一口气推了五个能力升级,大方向是让 Codex 从“写代码的工具”变成“帮你干活的智能体”。 最大的变化是浏览器操控。Codex 现在可以直接操作网...

OpenAI Codex 接入 GPT-5.5,并新增浏览器操控、文档生成、电脑操控、自动审查和图像生成整合等能力

宝玉 @dotey20 分钟阅读中文
阅读原文
Codex 已经可以支持 GPT-5.5 了,同时一口气推了五个能力升级,大方向是让 Codex 从“写代码的工具”变成“帮你干活的智能体”。

最大的变化是浏览器操控。Codex 现在可以直接操作网...

为什么重要

OpenAI 的 Codex 已经支持 GPT-5.5,并同步推出五项能力升级。文章的核心判断是:Codex 正在从“写代码的工具”向“帮人完成工作流的智能体”演进。此次升级覆盖浏览器操控、文档生成、电脑操控、自动审查以及图像生成整合,目标不再局限于代码相关任务,而是让 AI 能跨网页、文件、办公软件和本地电脑连续执行任务。 最关键的变化是浏览器操控能力。Codex 现在可以直接操作网页应用,包括点击页面、填写表单、截图查看结果,并根据看到的内容持续迭代,直到任务完成。文章举例称,如果用户要求它测试一个注册流程,Codex 可以自行走完整个流程,并指出哪一步存在问题。这意味着 Codex 的使用边界正在从开发辅助扩展到 Web 流程测试和网页应用操作。 第二条主线是文档与办公场景。Codex 现在可以在 Microsoft Office 和 Google Drive 中生成电子表格、幻灯片和文档,且质量较此前提升。应用内新增文件预览器,用户可以在 Codex 修改文件后直接查看效果,并反复调整,减少在不同工具之间来回切换的摩擦。对于企业内部团队而言,需求文档、测试报告、演示材料、数据表等交付物可能被纳入同一个智能体工作流。 第三项升级是 Computer Use,即电脑操控能力随 GPT-5.5 增强。Codex 能看屏幕内容、点击、打字,并在不同应用之间传递上下文。文章提到,Anthropic 去年率先推出这一方向,OpenAI 现在也跟上。这反映出头部模型公司正在围绕“屏幕即接口”展开竞争:不要求每个软件开放 API,而是让智能体像人一样通过图形界面完成跨系统任务。 安全机制方面,Codex 新增“自动审查”(Auto-review)模式。过去 Codex 每执行一步都需要用户确认,如今可以连续执行更长任务链;当遇到高风险操作时,会启动一个独立的审查智能体进行检查,审核通过后才继续执行。文章将其类比为内置“安全审计员”,意在减少人工干预,同时控制风险。这对企业级落地尤其关键,因为智能体一旦拥有浏览器、文件和电脑控制权,权限边界、误操作和审计机制会成为部署时必须关注的问题。 此外,OpenAI 上周发布的图像生成模型 gpt-image-2 也被整合进 Codex,方便在应用原型、演示文稿等场景中直接生成配图,不必切换到其他工具。OpenAI Developers 官方账号在 X 上表示,借助 GPT-5.5,Codex 可以在浏览器、文件、文档和电脑上完成更多工作。对物流仓储自动化机器人公司而言,这不是直接的机器人硬件新闻,但它提示企业内部研发、测试、售前方案、运维文档和后台系统操作可能被新一代 AI Agent 重塑。

新进展

  • Codex 接入 GPT-5.5 后,能力边界从代码相关任务扩展到浏览器、文档、文件和电脑操控,呈现明显智能体化趋势。
  • 浏览器操控可自动点击、填表、截图和测试流程,对 Web 系统 QA、后台配置、客户演示环境巡检有潜在应用价值。
  • Auto-review 引入独立审查智能体,说明企业级 Agent 落地的重点正在从“能不能做”转向权限、安全和审计。
  • 对物流机器人公司而言,短期价值不在硬件,而在研发测试、方案文档、WMS/WCS 后台操作和售前交付自动化。
  • Anthropic 先推 Computer Use、OpenAI 跟进,表明屏幕级操作正在成为大模型厂商争夺企业工作流入口的新战场。
openaicodexgpt-5.5computer useauto-reviewgpt-image-2anthropic