蘋果介紹Ferret-UI多模態大語言模型：更充分理解手機螢幕內容

蘋果公司近日發表研究論文，展示了 Ferret-UI AI 系統，可以理解應用程式螢幕上的內容。

以 ChatGPT 為代表的 AI 大語言模型（LLMs），其訓練資料通常是文本內容，為了能夠讓 AI 模型能夠理解圖像、影片和音訊等非文本內容，多模態大語言模型（MLLMs）因此孕育而生。

只是現階段 MLLMs 還無法有效理解行動應用程式，這主要有以下幾個原因，包括手機螢幕的寬高比，和大多數訓練圖像使用的螢幕寬高比不同，MLLMs 需要辨識出圖標和按鈕，但它們相對來說都比較小，因此蘋果構想了名為 Ferret-UI 的 MLLM 系統解決了這些問題。

蘋果在論文中表示相比較現有的 GPT-4V，以及其它 MLLMs 模型，Ferret-UI AI 模型更為優秀。