GPT-5.5 来了！全榜第一碾压 Opus 4.7，OpenAI 今夜雪耻 · RoboRadar

📌 一句话摘要

        OpenAI 发布 GPT-5.5 旗舰模型，在编程、推理、Agent 任务等多项基准测试中全面超越 Claude Opus 4.7，重新夺回最强 AI 王座，并展示了从代码生成到科研辅助的 Agent 化工作能力。

    

        
            📝 详细摘要
        

        文章报道了 OpenAI 于 2026 年 4 月 24 日发布 GPT-5.5 模型的消息。该模型在 Terminal-Bench、Expert-SWE、GDPval 等多项基准测试中全面领先 Claude Opus 4.7 和 Gemini 3.1 Pro，尤其在编程和 Agent 任务上表现突出。文章详细介绍了 GPT-5.5 在 Codex 中的端到端编程能力、知识工作自动化（如财务审查、报告生成）以及科研辅助（如拉姆齐数证明、基因数据分析）方面的突破。同时，文章也指出其 API 定价相比 GPT-5.4 翻倍，成为一款溢价产品。文章认为，GPT-5.5 的发布标志着 AI 竞赛已从模型能力比拼转向 Agent 化办公场景的争夺。

    

        
            💡 主要观点
        

        
            
                    GPT-5.5 在多项基准测试中全面超越 Claude Opus 4.7，重夺 AI 王座。
                     在 Terminal-Bench 2.0、Expert-SWE、GDPval 等测试中，GPT-5.5 均取得领先，尤其在编程和 Agent 任务上优势明显，部分测试得分超过 Opus 4.7 十个百分点以上。
                

                    GPT-5.5 具备强大的 Agent 化编程和知识工作能力。
                     在 Codex 中，GPT-5.5 可端到端完成编程任务，并自动化处理财务审查、报告生成等知识工作，OpenAI 内部超过 85% 的员工跨部门使用 Codex。
                

                    GPT-5.5 在科研辅助上展现突破性潜力。
                     模型协助发现了关于拉姆齐数的新证明，并在 FrontierMath Tier 4 等前沿数学和生物信息学基准上取得显著进步，展示了从代码执行到数学论证的能力跃升。
                

                    GPT-5.5 API 定价翻倍，成为一款溢价产品。
                     每百万输入 Token 5 美元、输出 30 美元，相比 GPT-5.4 翻倍。OpenAI 解释称 token 效率提升可部分抵消成本，但整体使用成本仍将显著增加。
                

        
    

        
            💬 文章金句
        

        
            GPT-5.5 不是又一次「小版本迭代」，它是一次全新基座模型带来的整体性跃升。

跑分是前菜，Agent 化办公才是主战场。谁先定义「AI 怎么替人干活」，谁就定义下一代电脑使用界面。 GPT-5.5 是一个「你为更强的智能付更多的钱」的溢价产品。

来源：AINLP

作者：AINLP

分类：人工智能

语言：中文

阅读时间：17 分钟

字数：4247

                标签：
                
                    GPT-5.5, OpenAI, Claude Opus 4.7, AI 模型, Agent
                
            

        
    

    
        阅读完整文章