DeepSeek开源第四弹:并行优化策略3项齐开快讯

TechWeb.com.cn 2025-02-27 18:02
分享到:
导读

//github.com/deepseek-ai/profile-data 一、DualPipe DualPipe是DeepSeek-V3技术报告中提出的一种创新双向流水线并行算法,//github.com/deepseek-ai/DualPipe https,一种用于V3/R1模型训练中实现计算与通信重叠的双向流水线并行算法 EPLB。

【TechWeb】2月27日消息,DeepSeek开源周第四日,DeepSeek开源了并行优化策略(Optimized Parallelism Strategies),一次开源了3项:

DualPipe:一种用于V3/R1模型训练中实现计算与通信重叠的双向流水线并行算法

EPLB:一个针对V3/R1的专家并行负载均衡工具

Profile-data:训练和推理框架的分析数据

GitHub地址:

https://github.com/deepseek-ai/DualPipe

https://github.com/deepseek-ai/eplb

https://github.com/deepseek-ai/profile-data

一、DualPipe

DualPipe是DeepSeek-V3技术报告中提出的一种创新双向流水线并行算法。

它能够实现前向与后向计算和通信阶段的完全重叠,同时有效减少流水线气泡(空闲时间)。

DeepSeek展示了在8个流水线并行阶段和20个micro-batches情况下,DualPipe在两个方向上的调度示例。(来自DeepSeek-V3技术报告)

反向方向的微批次与前向方向对称,为了简化图示,这里省略了反向方向的批次 ID。图中由同一个黑色边框包围的两个单元格具有相互重叠的计算和通信。

流水线气泡与内存使用比较

表中,

并行 流水线 DualPipe 通信 计算
分享到:

1.TMT观察网遵循行业规范,任何转载的稿件都会明确标注作者和来源;
2.TMT观察网的原创文章,请转载时务必注明文章作者和"来源:TMT观察网",不尊重原创的行为TMT观察网或将追究责任;
3.作者投稿可能会经TMT观察网编辑修改或补充。