AI Agent王子涵
对话王子涵:离开 DeepSeek,我人生的逆向思考
前 DeepSeek 研究员王子涵在访谈中回顾科研经历,并阐述 Agent RL、环境开放度和资源自适应等观点。
BestBlogs · Agent 关键词40 分钟阅读中文
阅读原文TL;DR: 前 DeepSeek 研究员王子涵在访谈中回顾科研经历,并阐述 Agent RL、环境开放度和资源自适应等观点。
以下为 BestBlogs · Agent 关键词 原文(中文)
📌 一句话摘要
本文深度对话前 DeepSeek 研究员王子涵,回顾其从人大到伯克利、再到 DeepSeek 的科研历程,并系统阐述其对 Agent 系统、强化学习、资源自适应等前沿方向的独到见解。
📝 详细摘要
本文是 Z Potentials 对西北大学博士生、前 DeepSeek 研究员王子涵的深度访谈。文章从王子涵的早期科研经历切入,回顾了他在人大接触 AI、在伯克利跟随 Sergey Levine 学习强化学习、在 UIUC 参与 MINT Agent benchmark 构建的经历。随后重点讲述了他在 DeepSeek 的实践:参与 V2 模型开发、提出 ESFT 专家专业化微调方法,并分享了 DeepSeek 严谨的实验文化和 infra 优化理念。文章后半部分系统阐述了王子涵对 Agent 系统的核心观点:环境的开放程度决定 Agent 智能上限,而非算力或数据规模;当前 Agent RL 面临推理坍塌问题,其本质是信号噪声干扰;未来 Agent 的核心命题是资源自适应能力,即在不同预算约束下高效匹配投入产出比。他还介绍了 RAGEN、VAGEN 等框架的研发历程,以及基于信息论框架的 SNR-aware filtering 训练方案。
💡 主要观点
环境的开放程度决定 Agent 智能上限,而非算力或数据规模。
Agent 的能力边界由其所在环境的开放程度决定:完全开放的计算机环境可产生 OpenClaw,受限环境产生 Claude Code,仅聊天界面则止步于 GPT。扩展环境是 Agent scaling law 的核心。
Agent RL 面临推理坍塌问题,核心是信号噪声干扰。
多轮 Agent RL 中,模型推理长度随训练下降,本质是正则项噪声和环境随机噪声导致互信息降低。王子涵提出 SNR-aware filtering 方案,按奖励方差筛选高信噪比样本,避免噪声干扰。
未来 Agent 的核心命题是资源自适应能力。
真正实用的 Agent 应能在不同预算约束下高效匹配投入产出比,而非一味追求「越少越好」。这需要 Agent 具备世界模型和持续学习能力,在长期任务中内化经验并迁移到新场景。
💬 文章金句
环境的开放程度,决定了 Agent 从 0 到 1 的智能指数。
一个真正具备资源适应能力的人或 Agent,给他一万块能做出一万块的效果,给他一百万就能做出一百万的效果。 坚持做自己觉得正确的事,保持前进的步伐平稳,踏实地去验证每一个假设,让外界噪音的影响下降到最小。这个方向,就是前进最快的方向! DeepSeek 内部的实验做得极其严谨。仅仅自己相信某个方向是不够的,还要为相反的观点留出充分的辩论和验证空间。 预算并不是花得越少越好,核心是投入产出比的高效匹配。
📊 文章信息
AI 初评:87
来源:Z Potentials
作者:Z Potentials
分类:人工智能
语言:中文
阅读时间:73 分钟
字数:18011
标签:
Agent 系统, 强化学习, DeepSeek, MoE, Agent RL
阅读完整文章