返回
AI AgentDEEPSEEK V4

实测 DeepSeek V4:不炸裂了,但在做更重要的事

DeepSeek V4实测表现不算惊艳,但在Agent能力、注意力机制、后训练路径和国产算力适配上补齐短板

BestBlogs · Agent 关键词39 分钟阅读中文
阅读原文
实测 DeepSeek V4:不炸裂了,但在做更重要的事
TL;DR: DeepSeek V4实测表现不算惊艳,但在Agent能力、注意力机制、后训练路径和国产算力适配上补齐短板
以下为 BestBlogs · Agent 关键词 原文(中文

📌 一句话摘要

        DeepSeek V4 实测表现虽不惊艳,但在注意力机制、模型架构、后训练路径和 Agent 能力上进行了扎实的基础性改进,补齐了关键短板。

    

        
            📝 详细摘要
        

        本文对 DeepSeek 最新发布的 V4 Pro 和 V4 Flash 模型进行了全面的实测评估。文章首先介绍了 V4 系列的参数规模和官方定位,指出其 Agent 能力、世界知识和推理性能分别对标或接近 Claude Sonnet 4.5、Gemini-Pro-3.1 和 GPT-5.4,整体约滞后前沿闭源模型 3-6 个月。随后,作者通过编程(3D 任务、Skills 任务、网站开发)、Agent 长程任务、世界知识问答和写作任务等多个维度进行实测。结果显示,V4 在 3D 前端任务中表现一般,但在 Skills 调用和复杂长程 Agent 任务中表现出色,能稳定生成高质量报告和带后端的网站。世界知识覆盖较广,但存在知识截止日期限制。写作能力尚可,但风格上仍偏技术化。文章最后指出,V4 虽不「炸裂」,但在重写注意力机制(DSA 稀疏注意力)、适配国产昇腾 NPU、切换后训练路径(OPD)以及补齐 Agent 生态等方面做了大量基础性工作,这些「补课」对行业长远发展至关重要。

    

        
            💡 主要观点
        

        
            
                    DeepSeek V4 实测表现「一般」,但定位清晰,约滞后前沿闭源模型 3-6 个月。
                     官方和实测均表明,V4 在 Agent、世界知识和推理能力上分别对标或接近 Claude Sonnet 4.5、Gemini-Pro-3.1 和 GPT-5.4,并非颠覆性突破,而是稳健的迭代升级。
                

                    V4 在 Agent 长程任务和 Skills 调用上表现出色,具备实用价值。
                     实测中,V4 Pro 能稳定完成联网搜索、生成 Word 报告、调用外部 Skill 并创建带后端的网站等复杂任务,展示了其在工程化 Agent 场景下的可靠性。
                

                    V4 的核心价值在于底层架构和工程优化,而非表面性能的「炸裂」。
                     文章强调 V4 重写了注意力机制(DSA 稀疏注意力)、适配了英伟达和华为昇腾双平台、切换了更先进的后训练路径(OPD),这些基础性工作对模型的长远发展和生态建设意义重大。
                

        
    

        
            💬 文章金句
        

        
            DeepSeek V4 给我的感觉也是这样。它不惊艳,但它在补课。

不是任何东西,一出来就是张雪机车,就是世界第一的叙事。 有时候,真正决定行业走向的,反而是这些「差一点点」的版本:更稳一点,更可控一点,生态更完善一点。 这些事情,没有一件是能上热搜的。但,总得有人要去做。

            📊 文章信息
        

        
            AI 初评:85

来源:沃垠AI

作者: (沃垠AI)

分类:人工智能

语言:中文

阅读时间:13 分钟

字数:3159

                标签:
                
                    DeepSeek V4, 大语言模型, 模型评测, 开源模型, AI Agent
                
            

        
    

    
        阅读完整文章