DeepSeek-V4 预览版正式上线并同步开源！ · RoboRadar

📌 一句话摘要

        DeepSeek 发布 V4 系列模型预览版（Pro 和 Flash），采用全新混合注意力架构，支持百万上下文，Agent 与推理性能比肩顶级闭源模型，并已同步开源。

    

        
            📝 详细摘要
        

        DeepSeek 正式发布 V4 系列模型预览版，包含 V4-Pro（1.6T 总参数/49B 激活）和 V4-Flash（284B 总参数/13B 激活）两个版本，均支持百万 token 上下文并以 MIT 许可证开源。V4 系列的核心创新在于全新的混合注意力架构，结合压缩稀疏注意力（CSA）和重度压缩注意力（HCA），在 1M 上下文下，V4-Pro 的单 token 推理 FLOPs 仅为 V3.2 的 27%，KV 缓存仅为 V3.2 的 10%。模型在 Agent 能力、世界知识和推理性能上均实现开源领先，Agentic Coding 达到开源最佳水平，数学与竞赛代码评测比肩世界顶级闭源模型。文章还详细介绍了模型版本、结构创新、训练方法（Muon 优化器、两阶段后训练）以及 API 调用和本地推理指南。

    

        
            💡 主要观点
        

        
            
                    DeepSeek-V4 采用全新混合注意力架构，大幅提升长上下文效率。
                     结合压缩稀疏注意力（CSA）和重度压缩注意力（HCA），在 1M 上下文下，V4-Pro 的推理 FLOPs 和 KV 缓存分别降至 V3.2 的 27% 和 10%。
                

                    V4 系列在 Agent 和推理性能上达到开源领先水平，比肩顶级闭源模型。
                     Agentic Coding 评测开源最佳，内部使用体验优于 Sonnet 4.5；LiveCodeBench 得分 93.5，Codeforces Rating 3206，超越所有已公开评测的开源模型。
                

                    V4 提供 Pro 和 Flash 双版本，覆盖极致性能与高效经济两种需求。
                     Pro 版追求性能上限，Flash 版参数更小、推理速度更快，在简单 Agent 任务上与 Pro 旗鼓相当，适合对成本和延迟敏感的场景。
                

        
    

        
            💬 文章金句
        

        
            DeepSeek-V4 开创了全新的混合注意力机制，结合压缩稀疏注意力（CSA）和重度压缩注意力（HCA），在 token 维度进行压缩。

V4-Pro 在 1M 上下文下，单 token 推理 FLOPs 仅为 V3.2 的 27%，KV 缓存仅为 V3.2 的 10%。 Agentic Coding 达到开源最佳水平，已成为公司内部员工使用的 Agentic Coding 模型。使用体验优于 Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式。

来源：魔搭ModelScope社区

作者：魔搭ModelScope社区

分类：人工智能

语言：中文

阅读时间：10 分钟

字数：2282

                标签：
                
                    DeepSeek-V4, 开源模型, 大语言模型, 混合注意力, 百万上下文
                
            

        
    

    
        阅读完整文章