今日凌晨,OpenAI 正式發布其首個 AI 智慧體「Operator」研究預覽版。
作為 OpenAI 首款真正模擬人類操作網頁瀏覽器的 AI 助理,Operator 能夠自動完成預訂旅行住宿、餐廳預約和線上購物等複雜任務。用戶可以在多個類別中選擇不同的自動化任務,涵蓋購物、配送、餐飲和旅行等領域。
目前,OpenAI 已與 DoorDash、Instacart、Priceline、StubHub 和 Uber 等公司建立合作。
技術層面,Operator 採用遠程雲端瀏覽器執行任務,無需依賴網站 API,它通過截圖辨識介面元素,規劃後續動作,形成「觀察-計劃-執行」的閉環,直至完成任務,系統支持多任務並行處理,運行效率高,且能保持登錄狀態。
據瞭解,Computer-Using Agent (CUA)是支撐 Operator 的核心技術,它融合了 GPT-4o 的視覺識別能力和基於強化學習的高級推理功能。
CUA 通過訓練掌握了與圖形用戶介面(GUI)交互的能力,能像人類一樣操作螢幕上的按鈕、菜單和文本框,無需依賴特定的操作系統或網絡 API。
不過 OpenAI 坦言 CUA 還有許多需要改進的地方,比如目前就沒法保證在所有場景下都能穩定運行。
據悉,當用戶啓用 Operator 時,系統會彈出一個小窗口,展示專用 Web 瀏覽器的操作介面,並即時說明正在執行的任務。
在此期間,允許用戶隨時接管控制,但 Operator 目前最大的問題還是不夠穩定,其在發佈會剛開始演示時還算順利,但中後期的演示過程中遭遇連環「翻車」,甚至未能成功加載相關網頁。
The Rundown AI 創辦人 Rowan Cheung 提前體驗 Operator,並分享了自己的回饋表示,目前 Operator 的系統仍存在限制,包括部分網站會屏蔽 AI 訪問,合作夥伴集成有限。
同時 Rowan Cheung 指出 Operator 需要特定的使用方法來優化效果,就像 GPT-4 適合 CoT 提示一樣,但目前對 Operator 的最佳使用方式研究還很初步。
此前有消息稱,Operator 在執行任務時使用的截圖內容可能被惡意利用,導致「提示注入攻擊」,存在嚴重的安全隱患。
因此,為確保 Operator 的安全使用,OpenAI 通過多層保護措施防止濫用並確保用戶牢牢控制 Operator,如系統在瀏覽器中輸入敏感信息(例如登錄憑據或支付資訊)時要求用戶接管。
目前,Operator 將率先向訂閱 200 美元 Pro 計劃的美國用戶開放,隨後逐步擴展至 Plus、Team 和 Enterprise 級別用戶,API 預計將在數周內推出,用戶可通過 operator.chatgpt.com 訪問該服務,OpenAI 計劃後續將其整合到 ChatGPT。
此外,OpenAI CEO Sam Altman 宣布 ChatGPT 用戶不僅將獲得 o3-mini 的免費試用機會,Plus 付費訂閱會員還將享有更多使用額度。
近日,OpenAI 產品長 Kevin Weil 還在達沃斯世界經濟論壇上表示,公司預計在 2 月或 3 月發表更智慧的 GPT-o3 模型。
本文為愛范兒授權刊登,原文標題為「OpenAI 發佈首個 AI 智能體」