#509.前字节研究员深度访谈:中国 AI 的真实差距、刷榜文化与 Agent 新赛道
前字节跳动研究员 Chu Chu 认为中美 AI 差距在拉大,刷榜文化和数据蒸馏削弱了国内模型的真实可用性。
47 篇已分析·低质 17·失败 0·最近抓取 2 分钟前·权重 90
前字节跳动研究员 Chu Chu 认为中美 AI 差距在拉大,刷榜文化和数据蒸馏削弱了国内模型的真实可用性。
前 DeepSeek 研究员王子涵在访谈中回顾科研经历,并阐述 Agent RL、环境开放度和资源自适应等观点。
小米大模型团队负责人罗福莉在访谈中称,AI正在从预训练主导的Chat时代转向后训练主导的Agent时代。
Hermes Agent通过动态Skill生成与GRPO强化学习闭环实现“自进化”能力
面向 AI Agent 的产品设计需要提供成功规范、反馈循环和上下文补齐机制。
Anthropic 称 Claude Code 体验下降由推理强度调整、缓存清理 Bug 和系统提示词变更三项问题导致。
大淘宝技术介绍了用约800行TypeScript实现Open Claw轻量级单进程Agent框架的Tool、消息总线、子Agent管理和REPL主循环设计。
小米大模型团队负责人罗福莉在访谈中认为AI竞争正从预训练主导转向Agent后训练主导,并以OpenClaw讨论研究效率、算力分配和组织方式变化。
DeepSeek V4实测表现不算惊艳,但在Agent能力、注意力机制、后训练路径和国产算力适配上补齐短板
文章总结 Anthropic MCP 生产实践指南,覆盖连接方式取舍、MCP Server 构建模式、上下文优化以及 MCP 与 Skills 的关系。
Nanobot 通过 CronTool 和 CronService 为 AI Agent 实现应用级定时任务调度能力。
DeepSeek发布并开源V4预览版,包含Pro和Flash两个版本,原生支持1M token上下文并强调Agent能力提升。
网页摘要 Agent 训练实践中的 AI 涌现能力被划分为临界点亮、组合涌现、策略涌现、意图涌现和反思涌现五个递进层级。
作者开源了一个基于 Claude 等 AI Agent 使用的 PPT 生成 Skill,可生成具有杂志美学的单文件 HTML 演示文稿
Anthropic为Claude Managed Agents推出基于文件系统的公测版记忆功能
腾讯智慧出行发布7个座舱智能体,覆盖点单、向导、娱乐、车主服务和导航等车内场景。
新一代 Proactive Agent 强调主动监控上下文并执行任务,但落地受成本、场景和付费意愿制约。
腾讯 Hy3 preview 被文章定位为面向高频日常 Agent 任务的性价比模型样本
北京大学 DCAI 团队开源了基于 Agent 的交互式大模型评测框架 One-Eval,并用 DeepSeek-V4 展示了评测流程。
文章围绕 Addy Osmani 的“Agent = Model + Harness”公式,强调模型之外的提示、工具、记忆、沙箱和编排等工程层对 Agent 落地的重要性。
千问 PPT Agent 因南京商场一天制作 100 份 PPT 的事件受到关注,文章认为办公场景正成为 AI 助手竞争焦点
小米大模型负责人罗福莉认为2026年AI竞争焦点将从预训练转向Agent后训练,并强调OpenClaw框架的编排价值。
DeepSeek 发布 V4-Pro 和 V4-Flash 预览版并同步开源,主打混合注意力架构、百万 token 上下文与 Agent 能力。
DeepSeek发布V4系列模型,包含Pro和Flash两个版本,并称下半年将批量上华为算力。
DeepSeek发布V4预览版,包含Pro和Flash两个版本,标配1M上下文并开源模型权重和技术报告。
文章称 OpenAI 发布 GPT-5.5,并重点展示其在智能体式编码、知识工作、科学研究和网络安全上的能力提升
Codex App 新增 GPT-5.5 支持,并加入浏览器控制、文档预览、系统级听写和自动评审等 Agent 功能。
BestBlogs.dev 第92期周刊将 GPT-5.5、DeepSeek-V4、Kimi K2.6 与智能体工程化作为本期主线。
Google Cloud在Next开发者Keynote中展示了ADK、MCP、Agent Registry、Memory Bank等企业级Agent基础设施。
OpenAI发布GPT-5.5,作者称其在编程、Agent协作和UI风格延续上表现突出
宝玉对比了 Claude Code 与 Codex 在执行 Skills 时的模型偏好、运行环境和工具集差异。
面壁智能在北京车展发布 SuperMate 端侧智能座舱方案升级版,主打全场景 Agent、全模态交互和多芯片适配。
OpenAI发布GPT-5.5,称其在编程、知识工作、科研推理和token效率上较前代提升。
福客AI获阿里巴巴战略投资,主打以电商客服Agent覆盖售前售后高频场景。
OpenAI发布GPT-5.5,称其在编程、推理和Agent任务等基准测试中领先Claude Opus 4.7
OpenAI发布GPT-5.5,称其在Agentic自主代理、编码、计算机操作和科学研究任务上取得突破
OpenAI 发布面向 Agent 与真实工作的 GPT-5.5,并称已在 ChatGPT 和 Codex 中向 Plus 及企业级用户开放。
官方称 Claude 表现下降由 Claude Code 和 Agent SDK 的 harness 故障导致,更新已修复且 API 用户未受影响。
OpenAI Codex 升级支持 GPT-5.5,并新增浏览器操控、文档集成、Computer Use、自动审查和图像生成能力。
宝玉用“银鹿与车”的寓言解释 Agent Harness 如何让模型具备可控执行能力
OpenAI 发布 GPT-5.5,并称其面向复杂目标理解、工具使用和 Agent 任务执行,已上线 ChatGPT 和 Codex。
DeepSeek-V4 发布并开源,华为云首发适配并提供免部署 API 服务
DeepSeek发布V4预览版,提供1M上下文能力以及V4-Pro和V4-Flash两个版本
DeepSeek V4 系列发布,包含 Pro 和 Flash 两个版本,并开源权重和技术报告。
Firecrawl 在 `/crawl` 端点新增 `changeTracking`,可监控网页内容变化并返回 Diff。
小米发布 MiMo-V2.5-TTS 系列和开源 MiMo-V2.5-ASR,定位为面向 Agent 的全链路语音模型。
小米 MiMo 发布 V2.5-TTS 系列和已开源的 V2.5-ASR 语音模型。