蘋果介紹Ferret-UI多模態大語言模型:更充分理解手機螢幕內容
品玩 / 何渝婷編譯
2024-04-11 08:05

蘋果公司近日發表研究論文,展示了 Ferret-UI AI 系統,可以理解應用程式螢幕上的內容。

以 ChatGPT 為代表的 AI 大語言模型(LLMs),其訓練資料通常是文本內容,為了能夠讓 AI 模型能夠理解圖像、影片和音訊等非文本內容,多模態大語言模型(MLLMs)因此孕育而生。

只是現階段 MLLMs 還無法有效理解行動應用程式,這主要有以下幾個原因,包括手機螢幕的寬高比,和大多數訓練圖像使用的螢幕寬高比不同,MLLMs 需要辨識出圖標和按鈕,但它們相對來說都比較小,因此蘋果構想了名為 Ferret-UI 的 MLLM 系統解決了這些問題。

蘋果在論文中表示相比較現有的 GPT-4V,以及其它 MLLMs 模型,Ferret-UI AI 模型更為優秀。

本文為品玩授權刊登,原文標題為「蘋果介紹 Ferret-UI 多模態大語言模型:更充分理解手機屏幕內容