📄️ Fp32以及BF16与FP16分析
image-20251212204215116
📄️ DualPipe学习记录
Deepseek V3选择仍使用ZeRO-1
📄️ Megatron源码解读(不再着重理论分析,针对代码细节解读)
image-20251219202437778
📄️ 自动并行训练知识点记录
1.tensor在不同视角下的名称
📄️ ShardingStage1_Zero1两种实现
DygraphShardingOptimizer简单介绍
📄️ ShardingStage2_Zero2
分为GroupShardedOptimizerStage2与GroupShardedStage2,前者会服务于后者
📄️ ShardingStage3_Zero3
paddle中model和opt的处理放在同一个ShardingStage3类
📄️ fused_qkv实现逻辑_llama_vs_ernie
fused_qkv(llama)实现逻辑图:
📄️ 分布式通信与并行策略
1.通信方式(NVIDIA NCCL标准)