Meta 訓練 Llama 3 遭遇頻繁故障：16384 塊 H100 GPU 訓練集群每 3 小時「罷工」一次

（示意圖/取自pixabay）

根據Meta 發布的一份研究報告顯示，其用於訓練 4050 億參數模型 Llama 3 的 16384 個NVIDIA H100 顯卡集群在 54 天內出現了 419 次意外故障，平均每三小時就有一次。

其中，一半以上的故障是由顯卡或其搭載的高頻寬內存（HBM3）引起的，由於系統規模巨大且任務高度同步，單個顯卡故障可能導致整個訓練任務中斷，需要重新開始。

儘管如此，Meta 團隊還是保持了 90% 以上的有效訓練時間。

在為期 54 天的預訓練中，共出現了 466 次工作中斷，其中 47 次是計劃中斷，419 次是意外中斷。