返回
AI AgentNOTION

Notion’s GPT‑5 rebuild unlocks autonomous AI workflows

Notion 使用 GPT‑5 重构其 AI Agent 系统,使 AI 能在工作空间中推理、规划、调用工具并执行多步骤任务。

OpenAI News8 分钟阅读中文
阅读原文
Notion’s GPT‑5 rebuild unlocks autonomous AI workflows
TL;DR: Notion 使用 GPT‑5 重构其 AI Agent 系统,使 AI 能在工作空间中推理、规划、调用工具并执行多步骤任务。
以下为 OpenAI News 原文(中文

OpenAI2025年11月7日Notion 利用 GPT‑5 对其智能体系统进行底层重构,成功打造了一个在各类工作流程中具备推理、执行及自适应能力的 AI 工作空间公司规模: 中型企业区域: 北美行业: 技术产品: API成效7.6%在符合真实用户反馈的输出方面,较顶尖模型的提升幅度2022 年底,在获得 GPT‑4 访问权限的短短几周内,Notion 就已推出了写作助手,提供覆盖整个工作空间的问答功能,并将 OpenAI 模型深度集成到其搜索、内容和规划工具之中。然而,随着模型能力的演进以及用户开始要求智能体完成整个工作流,Notion 团队看到了现有系统架构的瓶颈。以往那种仅通过提示词驱动模型完成孤立任务的模式,限制了平台能力的上限。智能体需要具备决策、工具编排以及在模糊场景下进行推理的能力,而这种转变已非单纯的“提示工程”(Prompt engineering) 所能实现。“我们不想只是在旧系统上缝缝补补,我们需要一种真正能适配‘推理模型’运作逻辑的架构。”Sarah Sachs,Notion AI 模型负责人围绕推理模型重构,而非简单的修补适配Notion 并非在现有的技术栈上“打补丁”,而是选择了推倒重来。他们用一个负责协调模块化子智能体的中央推理模型,取代了以往针对特定任务的提示词链。这些智能体现在能够跨越 Notion、Slack 乃至全网进行搜索,直接管理或更新数据库,并根据任务需求灵活调用各类工具来整合回复。随着 Notion 3.0 的发布,AI 不再仅仅是嵌入在工作流中的插件,而是成为了工作流的驾驶员。用户只需下达一个宽泛的指令 — 例如“汇总利益相关者的反馈” — 智能体便会自动制定计划、执行任务并提交报告。这种转型以“自主选择工作方式”的智能体为目标,其核心在于从底层设计之初就注重模型的自主性。在实际业务场景中测试 GPT‑5为了验证架构转型的成效,Notion 利用真实的用户任务,将 GPT‑5 与其他顶尖模型进行了对比评估。这些评估基于 Notion 标记为“高优先级”的反馈数据,涵盖了以下核心场景:在“研究模式”(Research Mode) 下提出的问题、需要多步推理的长篇任务,以及内容模糊或过时、极度依赖模型自主判断的复杂情境。团队采用了“以模型为评委”(LLM-as-judge) 的评分机制、结构化测试固件,以及人工标注反馈相结合的多维评估体系。关键结果:在符合真实用户反馈的输出方面,较顶尖模型提升 7.6%在复杂的“研究模式”问题上表现提升 15%在截止日期更新、竞品调研等跨步骤、结构化任务上表现提升 100% 以上在面对冲突或过时输入时,仍能完美通过基准测试的唯一模型这些评估让 Notion 精确锁定了 GPT‑5 的核心增值点 — 即逻辑推理、模糊处理及深度研究能力,同时也指明了哪些特定环节仍需通过环境调优来进一步完善。“我们并没有刻意挑选任务。这些都是来自产品的高频核心工作流。只有在这些场景下,模型之间的差异才会真正显现。”— Sarah Sachs,Notion AI 模型负责人开发者与团队的 GPT‑5 实践启示Notion 的这次重构不仅是为了发布 3.0 版本,更是为了构建一套能够支持全新模型能力、随模型进化而不断自适应的系统架构。对于正在生产环境中部署智能体 AI 的团队而言,Notion 的探索提供了一份极具参考价值的路线图:评估真正重要的内容:使用用户真实执行的任务,而不是合成基准测试。测试困难场景:当信息存在歧义、过时或需要多步骤处理时,GPT‑5 表现尤为出色。为自主性而设计架构:如果智能体需要做决策,系统必须为其提供推理空间和执行工具。清晰度即性能:即使是顶级模型,没有清晰的工具描述和良好的界面设计也会表现不佳。重构优于修补:如果系统是为补全模型而构建的,可能无法扩展以支持智能体。“我们看到了重构带来的成效。如果下一代模型能解锁新能力,我们也已经做好全力跟进的准备。”— Sarah Sachs,Notion AI 模型负责人继续阅读