AI AgentDEEPSEEK-V4
DeepSeek-V4 预览版正式上线并同步开源!
DeepSeek 发布 V4-Pro 和 V4-Flash 预览版并同步开源,主打混合注意力架构、百万 token 上下文与 Agent 能力。
BestBlogs · Agent 关键词38 分钟阅读中文
阅读原文TL;DR: DeepSeek 发布 V4-Pro 和 V4-Flash 预览版并同步开源,主打混合注意力架构、百万 token 上下文与 Agent 能力。
以下为 BestBlogs · Agent 关键词 原文(中文)
📌 一句话摘要
DeepSeek 发布 V4 系列模型预览版(Pro 和 Flash),采用全新混合注意力架构,支持百万上下文,Agent 与推理性能比肩顶级闭源模型,并已同步开源。
📝 详细摘要
DeepSeek 正式发布 V4 系列模型预览版,包含 V4-Pro(1.6T 总参数/49B 激活)和 V4-Flash(284B 总参数/13B 激活)两个版本,均支持百万 token 上下文并以 MIT 许可证开源。V4 系列的核心创新在于全新的混合注意力架构,结合压缩稀疏注意力(CSA)和重度压缩注意力(HCA),在 1M 上下文下,V4-Pro 的单 token 推理 FLOPs 仅为 V3.2 的 27%,KV 缓存仅为 V3.2 的 10%。模型在 Agent 能力、世界知识和推理性能上均实现开源领先,Agentic Coding 达到开源最佳水平,数学与竞赛代码评测比肩世界顶级闭源模型。文章还详细介绍了模型版本、结构创新、训练方法(Muon 优化器、两阶段后训练)以及 API 调用和本地推理指南。
💡 主要观点
DeepSeek-V4 采用全新混合注意力架构,大幅提升长上下文效率。
结合压缩稀疏注意力(CSA)和重度压缩注意力(HCA),在 1M 上下文下,V4-Pro 的推理 FLOPs 和 KV 缓存分别降至 V3.2 的 27% 和 10%。
V4 系列在 Agent 和推理性能上达到开源领先水平,比肩顶级闭源模型。
Agentic Coding 评测开源最佳,内部使用体验优于 Sonnet 4.5;LiveCodeBench 得分 93.5,Codeforces Rating 3206,超越所有已公开评测的开源模型。
V4 提供 Pro 和 Flash 双版本,覆盖极致性能与高效经济两种需求。
Pro 版追求性能上限,Flash 版参数更小、推理速度更快,在简单 Agent 任务上与 Pro 旗鼓相当,适合对成本和延迟敏感的场景。
💬 文章金句
DeepSeek-V4 开创了全新的混合注意力机制,结合压缩稀疏注意力(CSA)和重度压缩注意力(HCA),在 token 维度进行压缩。
V4-Pro 在 1M 上下文下,单 token 推理 FLOPs 仅为 V3.2 的 27%,KV 缓存仅为 V3.2 的 10%。 Agentic Coding 达到开源最佳水平,已成为公司内部员工使用的 Agentic Coding 模型。使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式。
📊 文章信息
AI 初评:88
来源:魔搭ModelScope社区
作者:魔搭ModelScope社区
分类:人工智能
语言:中文
阅读时间:10 分钟
字数:2282
标签:
DeepSeek-V4, 开源模型, 大语言模型, 混合注意力, 百万上下文
阅读完整文章