发布于 3 天前
摘要
摘要:随着深度学习技术的飞速发展,大模型在各个领域得到了广泛应用。大模型的训练过程复杂且耗时,一旦训练节点出现故障,将导致训练中断,影响模型性能。本文将围绕深度学习大模型的容灾设计,提出一种基于冗余训练节点的方案,