DeepSeek-V4 预览版：迈入百万上下文普惠时代 · RoboRadar

📌 一句话摘要

        DeepSeek 正式发布 V4 预览版，拥有百万字超长上下文，在 Agent 能力、世界知识和推理性能上均实现国内与开源领域领先，并提供 Pro 和 Flash 两个版本。

    

        
            📝 详细摘要
        

        本文是 DeepSeek 官方发布的 V4 预览版公告。新模型拥有百万字超长上下文，通过创新的注意力机制和 DSA 稀疏注意力技术，在降低计算和显存需求的同时实现了全球领先的长上下文能力。模型分为两个版本：V4-Pro 性能比肩顶级闭源模型，在 Agent 能力、世界知识和推理性能上均表现出色；V4-Flash 则提供更快捷经济的 API 服务。文章详细介绍了模型在 Agent 能力、世界知识、推理性能等方面的评测表现，以及 API 调用方式、开源权重和技术报告的获取途径。

    

        
            💡 主要观点
        

        
            
                    DeepSeek-V4 拥有百万字超长上下文，通过创新的注意力机制和 DSA 稀疏注意力实现。
                     新模型在 token 维度进行压缩，结合 DSA 稀疏注意力，大幅降低了对计算和显存的需求，使得百万上下文成为 DeepSeek 官方服务的标配。
                

                    V4-Pro 在 Agent 能力、世界知识和推理性能上均达到国内与开源领域领先水平。
                     在 Agentic Coding 评测中达到开源模型最佳水平，世界知识大幅领先其他开源模型，推理性能超越所有已公开评测的开源模型，比肩顶级闭源模型。
                

                    V4-Flash 提供更快捷经济的 API 服务，推理能力接近 Pro 版本。
                     V4-Flash 在世界知识储备方面稍逊于 Pro 版本，但展现出了接近的推理能力，由于参数和激活更小，能够提供更加经济的 API 服务。
                

        
    

        
            💬 文章金句
        

        
            DeepSeek-V4 拥有百万字超长上下文，在 Agent 能力、世界知识和推理性能上均实现国内与开源领域的领先。

DeepSeek-V4 开创了一种全新的注意力机制，在 token 维度进行压缩，结合 DSA 稀疏注意力，实现了全球领先的长上下文能力。从现在开始，1M（一百万）上下文将是 DeepSeek 所有官方服务的标配。

来源：PaperAgent

作者：PaperAgent

分类：人工智能

语言：中文

阅读时间：6 分钟

字数：1360

                标签：
                
                    DeepSeek-V4, 大语言模型, 百万上下文, Agent, 开源模型
                
            

        
    

    
        阅读完整文章