包含多個不同參數模型！Hugging Face 推出SmolLM小語言 Python 編程模型

（示意圖／圖片取自unsplash）

根據 Hugging Face 官方消息，Hugging Face 近日推出一系列 SmolLM小模型，包含多個不同參數的模型。

SmolLM系列模型採用原創 SmolLM-Corpus 的數據集訓練。該數據集主要包含 Python 教學內容 Python-Edu、Web 教育內容 FineWeb-Edu 以及使用 Mixtral-8x7B-Instruct-v0.1 和 Cosmopedia v2 兩款模型生成的常識內容，token 量總計 6000 億。此後 Hugging Face 團隊便使用 SmolLM-Corpus 數據集，訓練了「SmolLM」小語言模型。

SmolLM系列模型擁有1.35 億、3.6 億及 17 億參數模型，主要用於利用Python 語言編寫代碼。

本文為品玩授權刊登，原文標題為「Hugging Face 推出SmolLM小語言 Python 編程模型」