DeepSeek-V4系列震撼发布：百万token上下文高效MoE模型，开源新标杆_大模型动态

AI新闻中心

首页 AI新闻中心大模型动态

DeepSeek-V4系列震撼发布：百万token上下文高效MoE模型，开源新标杆

#大模型动态时间2026-04-28 09:32:18

DeepSeek-AI于4月27日在Hugging Face正式推出DeepSeek-V4系列预览版，带来两款高性能Mixture-of-Experts（MoE）大语言模型：DeepSeek-V4-Pro（总参数1.6万亿，激活参数49B）和DeepSeek-V4-Flash（总参数284B，激活参数13B）。两款模型均原生支持100万token超长上下文，标志着开源模型在长序列处理效率上实现重大突破。

相比前代DeepSeek-V3.2，DeepSeek-V4系列在架构上进行了多项关键创新：引入混合注意力机制（Compressed Sparse Attention + Heavily Compressed Attention），大幅压缩KV缓存；采用Manifold-Constrained Hyper-Connections（mHC）升级残差连接，提升模型表达能力；同时首次大规模应用Muon优化器，实现更快的收敛速度和更高的训练稳定性。模型在超过32万亿高质量多样化token上完成预训练，随后经过全面的后训练流程，进一步释放和强化了推理、工具调用、代理等核心能力。

性能方面，DeepSeek-V4-Pro-Max（最大推理努力模式）在多项核心基准测试中刷新开源模型纪录，尤其在长上下文场景下表现出色。在100万token上下文环境中，其单token推理FLOPs仅为DeepSeek-V3.2的27%，KV缓存占用更是降至10%，让百万token长序列任务从“理论可能”真正走向“日常可用”。这一效率飞跃不仅为测试时扩展（test-time scaling）打开全新空间，也为复杂代理工作流、海量文档分析等长时程任务奠定坚实基础。

DeepSeek-V4系列继续沿用DeepSeekMoE框架与Multi-Token Prediction（MTP）策略，同时在训练基础设施上实现多项优化，包括专家并行中的精细通信-计算重叠、TileLang内核开发、FP4量化感知训练以及高效的上下文并行机制，确保训练与推理均具备极高性价比。

模型权重已开源至Hugging Face（MIT许可），开发者可立即下载部署。DeepSeek-AI表示，V4系列的百万token高效支持，将推动开源社区在长上下文智能、在线学习等前沿方向加速探索，助力下一代通用人工智能的实际落地。

这一发布再次巩固DeepSeek在高性价比开源大模型领域的领先地位，也为全球AI开发者提供了更强大、更高效的长上下文工具。后续版本迭代与完整技术报告值得持续关注。

AI新闻中心

DeepSeek-V4系列震撼发布：百万token上下文高效MoE模型，开源新标杆

DeepSeek-V4系列震撼发布：百万token上下文高效MoE模型，开源新标杆

评论