DeepSeek-V4 终于更新了！一百万超长上下文，Agent 能力大幅增强，能力接近 Opus 4.6 · RoboRadar

📌 一句话摘要

        DeepSeek 正式发布并开源 V4 系列模型（Pro/Flash），原生支持 1M 超长上下文，Agent 能力大幅增强，性能对标顶级闭源模型。

    

        
            📝 详细摘要
        

        文章报道了 DeepSeek-V4 的发布信息。V4 系列包含 Pro 和 Flash 两个版本，均原生支持 1M token 的超长上下文。V4-Pro 作为旗舰版本，总参数达 1.6T，激活参数 49B，在 Agentic Coding 评测中达到开源模型最佳水平，内部评测体验优于 Sonnet 4.5，交付质量接近 Opus 4.6。V4-Flash 则面向成本敏感场景，参数更小但推理能力接近 Pro。文章还介绍了 V4 在架构上的核心创新，包括全新的 CSA+HCA 混合注意力机制、mHC 流形约束超连接以及 Muon 优化器，这些创新使得在 1M 上下文下，Pro 版本的推理 FLOPs 仅为 V3.2 的 27%，KV Cache 仅为 10%。目前模型已在官网、App 和 API 同步上线，并已开源权重和技术报告。

    

        
            💡 主要观点
        

        
            
                    DeepSeek-V4 系列发布，包含 Pro 和 Flash 两个版本，均支持 1M 超长上下文。
                     V4-Pro 为旗舰版，总参数 1.6T，激活参数 49B；V4-Flash 为轻量版，总参数 284B，激活参数 13B。1M 上下文将成为 DeepSeek 所有官方服务的标配。
                

                    V4 的 Agent 能力大幅增强，在 Agentic Coding 评测中达到开源模型最佳水平。
                     内部评测显示，V4-Pro 的 Agent 体验优于 Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式，并针对 Claude Code 等主流 Agent 产品进行了专项优化。
                

                    V4 采用全新的 CSA+HCA 混合注意力机制，大幅提升长上下文效率。
                     在 1M token 场景下，V4-Pro 的单 token 推理 FLOPs 仅为 V3.2 的 27%，KV Cache 大小仅为 10%，实现了计算和显存需求的大幅降低。
                

        
    

        
            💬 文章金句
        

        
            DeepSeek 正式上线并开源了 DeepSeek-V4 的预览版，分为 Pro 和 Flash 两个版本。

一百万上下文将成为 DeepSeek 所有官方服务的标配。 V4-Pro 在 Agentic Coding 评测中已经达到了当前开源模型最佳水平。在 1M token 上下文场景下，V4-Pro 的单 token 推理 FLOPs 仅为 DeepSeek-V3.2 的 27%，KV Cache 大小仅为 10%。

来源：Founder Park

作者：Founder Park

分类：人工智能

语言：中文

阅读时间：8 分钟

字数：1966

                标签：
                
                    DeepSeek-V4, 大语言模型, 超长上下文, Agent, 开源模型
                
            

        
    

    
        阅读完整文章