(取自NVIDIA臉書粉專)
NVIDIA近日宣布,聯手 Meta 推出了一款Llama-3.1-Minitron 4B AI 模型,這是一款 只有40億參數的小模型。
據悉這款模型是通過對NVIDIA Nemotron 系列中較大的 15B 兄弟姐妹,進行剪枝和蒸餾而獲得的。
剪枝和蒸餾可帶來多種好處:與從頭開始訓練相比,MMLU 分數提高了 16%,每個額外模型所需的訓練標記更少,約為 1 億個標記,最多可減少 40 倍。
與從頭開始訓練所有模型相比,訓練一系列模型的運算成本最多可節省 1.8 倍。
研究顯示,蒸餾和剪枝之後的模型性能可與在更多代幣上訓練的 Mistral 7B、Gemma 7B 和 Llama-3 8B 相媲美,最多可達 15T Token。
本文為品玩授權刊登,原文標題為「英偉達聯手Meta,推出 Llama-3.1-Minitron 4B AI 模型」