AI AgentOPENAI

Codex 已经可以支持 GPT-5.5 了，同时一口气推了五个能力升级，大方向是让 Codex 从“写代码的工具”变成“帮你干活的智能体”。最大的变化是浏览器操控。Codex 现在可以直接操作网...

OpenAI Codex 接入 GPT-5.5，并新增浏览器操控、文档生成、电脑操控、自动审查和图像生成整合等能力

宝玉 @dotey2026年4月23日20 分钟阅读中文

Codex 已经可以支持 GPT-5.5 了，同时一口气推了五个能力升级，大方向是让 Codex 从“写代码的工具”变成“帮你干活的智能体”。

最大的变化是浏览器操控。Codex 现在可以直接操作网...

为什么重要

OpenAI 的 Codex 已经支持 GPT-5.5，并同步推出五项能力升级。文章的核心判断是：Codex 正在从“写代码的工具”向“帮人完成工作流的智能体”演进。此次升级覆盖浏览器操控、文档生成、电脑操控、自动审查以及图像生成整合，目标不再局限于代码相关任务，而是让 AI 能跨网页、文件、办公软件和本地电脑连续执行任务。最关键的变化是浏览器操控能力。Codex 现在可以直接操作网页应用，包括点击页面、填写表单、截图查看结果，并根据看到的内容持续迭代，直到任务完成。文章举例称，如果用户要求它测试一个注册流程，Codex 可以自行走完整个流程，并指出哪一步存在问题。这意味着 Codex 的使用边界正在从开发辅助扩展到 Web 流程测试和网页应用操作。第二条主线是文档与办公场景。Codex 现在可以在 Microsoft Office 和 Google Drive 中生成电子表格、幻灯片和文档，且质量较此前提升。应用内新增文件预览器，用户可以在 Codex 修改文件后直接查看效果，并反复调整，减少在不同工具之间来回切换的摩擦。对于企业内部团队而言，需求文档、测试报告、演示材料、数据表等交付物可能被纳入同一个智能体工作流。第三项升级是 Computer Use，即电脑操控能力随 GPT-5.5 增强。Codex 能看屏幕内容、点击、打字，并在不同应用之间传递上下文。文章提到，Anthropic 去年率先推出这一方向，OpenAI 现在也跟上。这反映出头部模型公司正在围绕“屏幕即接口”展开竞争：不要求每个软件开放 API，而是让智能体像人一样通过图形界面完成跨系统任务。安全机制方面，Codex 新增“自动审查”（Auto-review）模式。过去 Codex 每执行一步都需要用户确认，如今可以连续执行更长任务链；当遇到高风险操作时，会启动一个独立的审查智能体进行检查，审核通过后才继续执行。文章将其类比为内置“安全审计员”，意在减少人工干预，同时控制风险。这对企业级落地尤其关键，因为智能体一旦拥有浏览器、文件和电脑控制权，权限边界、误操作和审计机制会成为部署时必须关注的问题。此外，OpenAI 上周发布的图像生成模型 gpt-image-2 也被整合进 Codex，方便在应用原型、演示文稿等场景中直接生成配图，不必切换到其他工具。OpenAI Developers 官方账号在 X 上表示，借助 GPT-5.5，Codex 可以在浏览器、文件、文档和电脑上完成更多工作。对物流仓储自动化机器人公司而言，这不是直接的机器人硬件新闻，但它提示企业内部研发、测试、售前方案、运维文档和后台系统操作可能被新一代 AI Agent 重塑。

新进展

Codex 接入 GPT-5.5 后，能力边界从代码相关任务扩展到浏览器、文档、文件和电脑操控，呈现明显智能体化趋势。
浏览器操控可自动点击、填表、截图和测试流程，对 Web 系统 QA、后台配置、客户演示环境巡检有潜在应用价值。
Auto-review 引入独立审查智能体，说明企业级 Agent 落地的重点正在从“能不能做”转向权限、安全和审计。
对物流机器人公司而言，短期价值不在硬件，而在研发测试、方案文档、WMS/WCS 后台操作和售前交付自动化。
Anthropic 先推 Computer Use、OpenAI 跟进，表明屏幕级操作正在成为大模型厂商争夺企业工作流入口的新战场。

openaicodexgpt-5.5computer useauto-reviewgpt-image-2anthropic