发布于 5 天前
摘要
摘要:随着深度学习模型的日益复杂,单机内存和计算能力已无法满足大规模模型的训练需求。分布式训练成为解决这一问题的有效途径。在PyTorch框架中,分布式通信是提高模型训练效率的关键。本文将围绕gRPC和NCCL两种