(示意圖/取自pixabay)
根據Meta 發布的一份研究報告顯示,其用於訓練 4050 億參數模型 Llama 3 的 16384 個NVIDIA H100 顯卡集群在 54 天內出現了 419 次意外故障,平均每三小時就有一次。
其中,一半以上的故障是由顯卡或其搭載的高頻寬內存(HBM3)引起的,由於系統規模巨大且任務高度同步,單個顯卡故障可能導致整個訓練任務中斷,需要重新開始。
儘管如此,Meta 團隊還是保持了 90% 以上的有效訓練時間。
在為期 54 天的預訓練中,共出現了 466 次工作中斷,其中 47 次是計劃中斷,419 次是意外中斷。
本文為品玩授權刊登,原文標題為「Meta 訓練 Llama 3 遭遇頻繁故障:16384 塊 H100 GPU 訓練集群每 3 小時「罷工」一次」