微軟推出專為大語言模型訓練訂製的FP8混合精度訓練框架,比BF16快64%
東尋 / 何渝婷編譯
2023-11-10 14:40

(示意圖/取自pixabay)

根據《 IT 之家》 11 月 10 日報導,為了提高處理速度,降低內存使用量和通訊成本,來自 Microsoft Azure 和 Microsoft Research 的一組研究人員推出了一個高效的 FP8 混合精度框架,專為大語言模型(LLM)訓練量身訂製。

微軟引入了三個優化階段,利用 FP8 進行分布式和混合精度訓練,隨著這些層級的進展,FP8 集成程度的提高變得明顯,這表明對 LLM 訓練過程的影響更大。

微軟經過測試,與廣泛採用的 BF16 混合精度方法相比,內存佔用減少 27% 至 42%,權重梯度通訊開銷顯著降低 63% 至 65%。

運行速度比廣泛採用的 BF16 框架(例如 Megatron-LM)快了 64%,比 Nvidia Transformer Engine 的速度快了 17%。

在訓練 GPT-175B 模型時,混合 FP8 精度框架在 H100 GPU 平台上節省 21% 的內存,而且相比較 TE(Transformer Engine),訓練時間減少 17%。

本文為巴比特授權刊登,原文標題為「微軟推出專為大語言模型訓練定制的 FP8 混合精度訓練框架,比 BF16 快 64%