DeepSeek-V3技术报告 DeepSeek-V3 Technical Report
本文档由 30f3f2045c 分享于2025-01-16 18:23
本文主要是介绍DeepSeek-V3的技术报告,它是一款强大的Mixture-of-Experts(MoE)语言模型,拥有671B总参数,其中37B是激活的,每token一个。为了实现高效的推理和经济实惠的训练,DeepSeek-V3采用了Multi-head Latent Attention(MLA)和DeepSeekMoE架构,这些在DeepSeek-V2中得到了充分验证。此外,DeepSeek-V3首创了无辅助损失的负载均衡策略,并设置了多token..
下载文档
收藏
打印
分享:
君,已阅读到文档的结尾了呢~~