根據《 tomshardware 》報導,富士通本週發表了 Fugaku-LLM,這是一個具有先進日語處理能力的大型語言模型,專為研究和商業應用而設計。
富士通的 Fugaku-LLM 是在基於 A64FX 處理器的 Fugaku 超級電腦的 13,824 個節點上使用 3,800 億個詞庫進行訓練的,該處理器支持 FP64、FP32、FP16 和 INT8 模式,適用於各種人工智慧和傳統超級電腦應用。
Fugaku-LLM 的訓練,自然利用了針對超級電腦架構和 Tofu 互聯 D 進行優化的分散式並行學習技術。
Fugaku-LLM具有130億個參數,與GPT-4的1750億個參數相比顯得微不足道,而GPT-4是日本有史以來訓練的最大LLM。
富士通表示,130 億參數的 LLM 不需要龐大的運算資源來進行推理,這對日本的企業和研究人員來說是最佳選擇。大約有 60% 的訓練數據是日語數據,40% 的數據是英語、數學和程式碼數據。
本文為品玩授權刊登,原文標題為「日本聯合研究團隊發佈 Fugaku-LLM,利用超算訓練」
