实测 DeepSeek V4：不炸裂了，但在做更重要的事 · RoboRadar

📌 一句话摘要

        DeepSeek V4 实测表现虽不惊艳，但在注意力机制、模型架构、后训练路径和 Agent 能力上进行了扎实的基础性改进，补齐了关键短板。

    

        
            📝 详细摘要
        

        本文对 DeepSeek 最新发布的 V4 Pro 和 V4 Flash 模型进行了全面的实测评估。文章首先介绍了 V4 系列的参数规模和官方定位，指出其 Agent 能力、世界知识和推理性能分别对标或接近 Claude Sonnet 4.5、Gemini-Pro-3.1 和 GPT-5.4，整体约滞后前沿闭源模型 3-6 个月。随后，作者通过编程（3D 任务、Skills 任务、网站开发）、Agent 长程任务、世界知识问答和写作任务等多个维度进行实测。结果显示，V4 在 3D 前端任务中表现一般，但在 Skills 调用和复杂长程 Agent 任务中表现出色，能稳定生成高质量报告和带后端的网站。世界知识覆盖较广，但存在知识截止日期限制。写作能力尚可，但风格上仍偏技术化。文章最后指出，V4 虽不「炸裂」，但在重写注意力机制（DSA 稀疏注意力）、适配国产昇腾 NPU、切换后训练路径（OPD）以及补齐 Agent 生态等方面做了大量基础性工作，这些「补课」对行业长远发展至关重要。

    

        
            💡 主要观点
        

        
            
                    DeepSeek V4 实测表现「一般」，但定位清晰，约滞后前沿闭源模型 3-6 个月。
                     官方和实测均表明，V4 在 Agent、世界知识和推理能力上分别对标或接近 Claude Sonnet 4.5、Gemini-Pro-3.1 和 GPT-5.4，并非颠覆性突破，而是稳健的迭代升级。
                

                    V4 在 Agent 长程任务和 Skills 调用上表现出色，具备实用价值。
                     实测中，V4 Pro 能稳定完成联网搜索、生成 Word 报告、调用外部 Skill 并创建带后端的网站等复杂任务，展示了其在工程化 Agent 场景下的可靠性。
                

                    V4 的核心价值在于底层架构和工程优化，而非表面性能的「炸裂」。
                     文章强调 V4 重写了注意力机制（DSA 稀疏注意力）、适配了英伟达和华为昇腾双平台、切换了更先进的后训练路径（OPD），这些基础性工作对模型的长远发展和生态建设意义重大。
                

        
    

        
            💬 文章金句
        

        
            DeepSeek V4 给我的感觉也是这样。它不惊艳，但它在补课。

不是任何东西，一出来就是张雪机车，就是世界第一的叙事。有时候，真正决定行业走向的，反而是这些「差一点点」的版本：更稳一点，更可控一点，生态更完善一点。这些事情，没有一件是能上热搜的。但，总得有人要去做。

来源：沃垠AI

作者： (沃垠AI)

分类：人工智能

语言：中文

阅读时间：13 分钟

字数：3159

                标签：
                
                    DeepSeek V4, 大语言模型, 模型评测, 开源模型, AI Agent
                
            

        
    

    
        阅读完整文章