简体中文
关闭
AI新闻中心

DeepSeek-V4系列震撼发布:百万token上下文高效MoE模型,开源新标杆

#大模型动态 时间2026-04-28 09:32:18


DeepSeek-AI427日在Hugging Face正式推出DeepSeek-V4系列预览版,带来两款高性能Mixture-of-ExpertsMoE)大语言模型:DeepSeek-V4-Pro(总参数1.6万亿,激活参数49B)和DeepSeek-V4-Flash(总参数284B,激活参数13B)。两款模型均原生支持100token超长上下文,标志着开源模型在长序列处理效率上实现重大突破。

相比前代DeepSeek-V3.2DeepSeek-V4系列在架构上进行了多项关键创新:引入混合注意力机制(Compressed Sparse Attention + Heavily Compressed Attention),大幅压缩KV缓存;采用Manifold-Constrained Hyper-ConnectionsmHC)升级残差连接,提升模型表达能力;同时首次大规模应用Muon优化器,实现更快的收敛速度和更高的训练稳定性。模型在超过32万亿高质量多样化token上完成预训练,随后经过全面的后训练流程,进一步释放和强化了推理、工具调用、代理等核心能力。

性能方面,DeepSeek-V4-Pro-Max(最大推理努力模式)在多项核心基准测试中刷新开源模型纪录,尤其在长上下文场景下表现出色。在100token上下文环境中,其单token推理FLOPs仅为DeepSeek-V3.227%KV缓存占用更是降至10%,让百万token长序列任务从理论可能真正走向日常可用。这一效率飞跃不仅为测试时扩展(test-time scaling)打开全新空间,也为复杂代理工作流、海量文档分析等长时程任务奠定坚实基础。

DeepSeek-V4系列继续沿用DeepSeekMoE框架与Multi-Token PredictionMTP)策略,同时在训练基础设施上实现多项优化,包括专家并行中的精细通信-计算重叠、TileLang内核开发、FP4量化感知训练以及高效的上下文并行机制,确保训练与推理均具备极高性价比。

模型权重已开源至Hugging FaceMIT许可),开发者可立即下载部署。DeepSeek-AI表示,V4系列的百万token高效支持,将推动开源社区在长上下文智能、在线学习等前沿方向加速探索,助力下一代通用人工智能的实际落地。

这一发布再次巩固DeepSeek在高性价比开源大模型领域的领先地位,也为全球AI开发者提供了更强大、更高效的长上下文工具。后续版本迭代与完整技术报告值得持续关注。

相关标签:

分享本文
DeepSeek-V4系列震撼发布:百万token上下文高效MoE模型,开源新标杆

DeepSeek-V4系列震撼发布:百万token上下文高效MoE模型,开源新标杆

DeepSeek-AI于4月27日在Hugging Face正式推出DeepSeek-V4系列预览版,带来两款高性能Mixture-of-Experts(MoE)大语言模型:DeepSeek-V4-P...

评论

0 条
暂无评论,快来抢沙发。

Copyright © 2026 IAICA 版权所有  隐私政策 用户协议 Cookie说明 备案号:沪ICP备11018632号-8

18351659883