Notion’s GPT‑5 rebuild unlocks autonomous AI workflows · RoboRadar

OpenAI2025年11月7日Notion 利用 GPT‑5 对其智能体系统进行底层重构，成功打造了一个在各类工作流程中具备推理、执行及自适应能力的 AI 工作空间公司规模: 中型企业区域: 北美行业: 技术产品: API成效7.6%在符合真实用户反馈的输出方面，较顶尖模型的提升幅度2022 年底，在获得 GPT‑4 访问权限的短短几周内，Notion 就已推出了写作助手，提供覆盖整个工作空间的问答功能，并将 OpenAI 模型深度集成到其搜索、内容和规划工具之中。然而，随着模型能力的演进以及用户开始要求智能体完成整个工作流，Notion 团队看到了现有系统架构的瓶颈。以往那种仅通过提示词驱动模型完成孤立任务的模式，限制了平台能力的上限。智能体需要具备决策、工具编排以及在模糊场景下进行推理的能力，而这种转变已非单纯的“提示工程”(Prompt engineering) 所能实现。“我们不想只是在旧系统上缝缝补补，我们需要一种真正能适配‘推理模型’运作逻辑的架构。”Sarah Sachs，Notion AI 模型负责人围绕推理模型重构，而非简单的修补适配Notion 并非在现有的技术栈上“打补丁”，而是选择了推倒重来。他们用一个负责协调模块化子智能体的中央推理模型，取代了以往针对特定任务的提示词链。这些智能体现在能够跨越 Notion、Slack 乃至全网进行搜索，直接管理或更新数据库，并根据任务需求灵活调用各类工具来整合回复。随着 Notion 3.0 的发布，AI 不再仅仅是嵌入在工作流中的插件，而是成为了工作流的驾驶员。用户只需下达一个宽泛的指令 — 例如“汇总利益相关者的反馈” — 智能体便会自动制定计划、执行任务并提交报告。这种转型以“自主选择工作方式”的智能体为目标，其核心在于从底层设计之初就注重模型的自主性。在实际业务场景中测试 GPT‑5为了验证架构转型的成效，Notion 利用真实的用户任务，将 GPT‑5 与其他顶尖模型进行了对比评估。这些评估基于 Notion 标记为“高优先级”的反馈数据，涵盖了以下核心场景：在“研究模式”(Research Mode) 下提出的问题、需要多步推理的长篇任务，以及内容模糊或过时、极度依赖模型自主判断的复杂情境。团队采用了“以模型为评委”(LLM-as-judge) 的评分机制、结构化测试固件，以及人工标注反馈相结合的多维评估体系。关键结果：在符合真实用户反馈的输出方面，较顶尖模型提升 7.6%在复杂的“研究模式”问题上表现提升 15%在截止日期更新、竞品调研等跨步骤、结构化任务上表现提升 100% 以上在面对冲突或过时输入时，仍能完美通过基准测试的唯一模型这些评估让 Notion 精确锁定了 GPT‑5 的核心增值点 — 即逻辑推理、模糊处理及深度研究能力，同时也指明了哪些特定环节仍需通过环境调优来进一步完善。“我们并没有刻意挑选任务。这些都是来自产品的高频核心工作流。只有在这些场景下，模型之间的差异才会真正显现。”— Sarah Sachs，Notion AI 模型负责人开发者与团队的 GPT‑5 实践启示Notion 的这次重构不仅是为了发布 3.0 版本，更是为了构建一套能够支持全新模型能力、随模型进化而不断自适应的系统架构。对于正在生产环境中部署智能体 AI 的团队而言，Notion 的探索提供了一份极具参考价值的路线图：评估真正重要的内容：使用用户真实执行的任务，而不是合成基准测试。测试困难场景：当信息存在歧义、过时或需要多步骤处理时，GPT‑5 表现尤为出色。为自主性而设计架构：如果智能体需要做决策，系统必须为其提供推理空间和执行工具。清晰度即性能：即使是顶级模型，没有清晰的工具描述和良好的界面设计也会表现不佳。重构优于修补：如果系统是为补全模型而构建的，可能无法扩展以支持智能体。“我们看到了重构带来的成效。如果下一代模型能解锁新能力，我们也已经做好全力跟进的准备。”— Sarah Sachs，Notion AI 模型负责人继续阅读