国信证券发表报告表示,中国人工智能公司深度求索(DeepSeek)於去年12月26日上线并开源DeepSeek-V3模型,多项评测超同类开源模型,在重要领域与顶尖闭源模型相当,训练成本低。模型层采用MoE架构,经多阶段训练与能力提炼,在知识、代码、数学推理等测评中领先开源模型。架构层沿用V2架构,引入新技术,如无辅助损失负载均衡策略、MTP提升数据利用率。训练层通过DualPipe算法和FP8混合精度训练实现成本控制与效率提升。
推理层先推出R1-Lite模型,後将R1推理能力迁移至V3提升其性能,推理算力包含GB300、博通、marvell等各类asic芯片。2025年1月发布的DeepSeek-R1模型在多测试中超越OpenAI的o1,在数学、编程及多种测试中表现出色。
国信证券指,DeepSeek的MoE较传统MoE有多方面改进。与传统MoE架构相比,DeepSeek MoE使用了更细粒度的专家,并将部分专家设置为共享专家,能够更精确地针对特定的问题提供解决方案。同时,传统MoE架构采用辅助损失来鼓励负载平衡,以免不平衡的专家载荷导致计算效率降低,但这可能在某些情况下影响模型性能。DeepSeekMoE引入了无辅助损失的负载平衡策略,在每个专家模型的任务匹配程度评分中添加一个偏置项,用於调整每个专家在决定哪些专家应该处理哪些任务时的负载,同时使用补充序列级辅助损失,以此来优化整个系统的性能和效率。
该行指,为了促进模型的高效训练,DeepSeek实施了工程优化。首先,模型使用了DualPipe算法,以实现高效的管道并行。与现有方法相比,DualPipe具有更少的管道气泡(等待数据处理或通信延迟形成的停滞区域),在模型训练的前向和後向传播过程实现了重叠计算和通信,从而提高了整体的训练效率。其次,DeepSeek引入了FP8混合精度训练,优化了训练期间的内存占用。
DualPipe技术优化通信成本。在大规模分布式训练系统中,每个计算节点需要频繁地与其他节点交换信息,导致部分时间在等待数据的传输,计算资源不能持续进行数据处理,资源利用率低下。以DeepSeek-V3为例,在模型训练时跨节点的专家并行性带来的通信开销导致计算与通信的比率约为1:1。为了解决这一问题,DeepSeek在单独的前向和後向块内部重叠计算和通信,通过采用双向管道调度, 同时从管道的两端供给数据,使大部分通信可以完全重叠,从而实现通信成本的降低。
本周一(20)日晚,拥有660B参数的超大规模模型DeepSeekR1正式发布。这款模型在数学任务上表现出色,如在AIME2024上获得79.8%的pass@1得分,略超OpenAI-o1;在MATH-500上得分高达97.3%,与OpenAI-o1相当。编程任务方面,如Codeforces 上获得2029 Elo评级,超越96.3%的人类参与者。在MMLU、MMLU-Pro和GPQA Diamond等知识基准测试中,DeepSeek R1得分分别为90.8%、84.0%和71.5%,虽略低於OpenAI-o1,但优於其他闭源模型。在最新公布的大模型竞技场LM Arena的综合榜单中,DeepSeek R1排名第三, 与o1并列。(wl/k)
AASTOCKS新闻