DeepSeek-V3技术报告 DeepSeek-V3 Technical Report

4阅读 5530f3f2045c上传于2025-01-16 举报/认领 合伙人(招募中) 展开

本文档由 30f3f2045c 分享于2025-01-16 18:23

本文主要是介绍DeepSeek-V3的技术报告,它是一款强大的Mixture-of-Experts(MoE)语言模型,拥有671B总参数,其中37B是激活的,每token一个。为了实现高效的推理和经济实惠的训练,DeepSeek-V3采用了Multi-head Latent Attention(MLA)和DeepSeekMoE架构,这些在DeepSeek-V2中得到了充分验证。此外,DeepSeek-V3首创了无辅助损失的负载均衡策略,并设置了多token..
文档格式:
.pdf
文档大小:
1.76M
文档页数:
55
顶 /踩数:
0 0
收藏人数:
0
评论次数:
0
文档热度:
文档分类:
通信/电子  —  4G及新技术
添加到豆单
下载文档
收藏
打印

扫扫二维码,随身浏览文档

手机或平板扫扫即可继续访问

推荐豆丁书房APP  

获取二维码

分享文档

将文档分享至:
分享完整地址
文档地址: 复制
粘贴到BBS或博客
flash地址: 复制

支持嵌入FLASH地址的网站使用

html代码: 复制

默认尺寸450px*300px480px*400px650px*490px

支持嵌入HTML代码的网站使用





82