对话王子涵：离开 DeepSeek，我人生的逆向思考 · RoboRadar

📌 一句话摘要

        本文深度对话前 DeepSeek 研究员王子涵，回顾其从人大到伯克利、再到 DeepSeek 的科研历程，并系统阐述其对 Agent 系统、强化学习、资源自适应等前沿方向的独到见解。

    

        
            📝 详细摘要
        

        本文是 Z Potentials 对西北大学博士生、前 DeepSeek 研究员王子涵的深度访谈。文章从王子涵的早期科研经历切入，回顾了他在人大接触 AI、在伯克利跟随 Sergey Levine 学习强化学习、在 UIUC 参与 MINT Agent benchmark 构建的经历。随后重点讲述了他在 DeepSeek 的实践：参与 V2 模型开发、提出 ESFT 专家专业化微调方法，并分享了 DeepSeek 严谨的实验文化和 infra 优化理念。文章后半部分系统阐述了王子涵对 Agent 系统的核心观点：环境的开放程度决定 Agent 智能上限，而非算力或数据规模；当前 Agent RL 面临推理坍塌问题，其本质是信号噪声干扰；未来 Agent 的核心命题是资源自适应能力，即在不同预算约束下高效匹配投入产出比。他还介绍了 RAGEN、VAGEN 等框架的研发历程，以及基于信息论框架的 SNR-aware filtering 训练方案。

    

        
            💡 主要观点
        

        
            
                    环境的开放程度决定 Agent 智能上限，而非算力或数据规模。
                     Agent 的能力边界由其所在环境的开放程度决定：完全开放的计算机环境可产生 OpenClaw，受限环境产生 Claude Code，仅聊天界面则止步于 GPT。扩展环境是 Agent scaling law 的核心。
                

                    Agent RL 面临推理坍塌问题，核心是信号噪声干扰。
                     多轮 Agent RL 中，模型推理长度随训练下降，本质是正则项噪声和环境随机噪声导致互信息降低。王子涵提出 SNR-aware filtering 方案，按奖励方差筛选高信噪比样本，避免噪声干扰。
                

                    未来 Agent 的核心命题是资源自适应能力。
                     真正实用的 Agent 应能在不同预算约束下高效匹配投入产出比，而非一味追求「越少越好」。这需要 Agent 具备世界模型和持续学习能力，在长期任务中内化经验并迁移到新场景。
                

        
    

        
            💬 文章金句
        

        
            环境的开放程度，决定了 Agent 从 0 到 1 的智能指数。

一个真正具备资源适应能力的人或 Agent，给他一万块能做出一万块的效果，给他一百万就能做出一百万的效果。坚持做自己觉得正确的事，保持前进的步伐平稳，踏实地去验证每一个假设，让外界噪音的影响下降到最小。这个方向，就是前进最快的方向！ DeepSeek 内部的实验做得极其严谨。仅仅自己相信某个方向是不够的，还要为相反的观点留出充分的辩论和验证空间。预算并不是花得越少越好，核心是投入产出比的高效匹配。

来源：Z Potentials

作者：Z Potentials

分类：人工智能

语言：中文

阅读时间：73 分钟

字数：18011

                标签：
                
                    Agent 系统, 强化学习, DeepSeek, MoE, Agent RL
                
            

        
    

    
        阅读完整文章