日本聯合研究團隊發表Fugaku-LLM，利用超級電腦訓練

根據《 tomshardware 》報導，富士通本週發表了 Fugaku-LLM，這是一個具有先進日語處理能力的大型語言模型，專為研究和商業應用而設計。

富士通的 Fugaku-LLM 是在基於 A64FX 處理器的 Fugaku 超級電腦的 13,824 個節點上使用 3,800 億個詞庫進行訓練的，該處理器支持 FP64、FP32、FP16 和 INT8 模式，適用於各種人工智慧和傳統超級電腦應用。

Fugaku-LLM 的訓練，自然利用了針對超級電腦架構和 Tofu 互聯 D 進行優化的分散式並行學習技術。

Fugaku-LLM具有130億個參數，與GPT-4的1750億個參數相比顯得微不足道，而GPT-4是日本有史以來訓練的最大LLM。

富士通表示，130 億參數的 LLM 不需要龐大的運算資源來進行推理，這對日本的企業和研究人員來說是最佳選擇。大約有 60% 的訓練數據是日語數據，40% 的數據是英語、數學和程式碼數據。