OpenAI發表首個AI智慧體

今日凌晨，OpenAI 正式發布其首個 AI 智慧體「Operator」研究預覽版。

作為 OpenAI 首款真正模擬人類操作網頁瀏覽器的 AI 助理，Operator 能夠自動完成預訂旅行住宿、餐廳預約和線上購物等複雜任務。用戶可以在多個類別中選擇不同的自動化任務，涵蓋購物、配送、餐飲和旅行等領域。

目前，OpenAI 已與 DoorDash、Instacart、Priceline、StubHub 和 Uber 等公司建立合作。

技術層面，Operator 採用遠程雲端瀏覽器執行任務，無需依賴網站 API，它通過截圖辨識介面元素，規劃後續動作，形成「觀察-計劃-執行」的閉環，直至完成任務，系統支持多任務並行處理，運行效率高，且能保持登錄狀態。

據瞭解，Computer-Using Agent （CUA）是支撐 Operator 的核心技術，它融合了 GPT-4o 的視覺識別能力和基於強化學習的高級推理功能。

CUA 通過訓練掌握了與圖形用戶介面（GUI）交互的能力，能像人類一樣操作螢幕上的按鈕、菜單和文本框，無需依賴特定的操作系統或網絡 API。

不過 OpenAI 坦言 CUA 還有許多需要改進的地方，比如目前就沒法保證在所有場景下都能穩定運行。

據悉，當用戶啓用 Operator 時，系統會彈出一個小窗口，展示專用 Web 瀏覽器的操作介面，並即時說明正在執行的任務。

在此期間，允許用戶隨時接管控制，但 Operator 目前最大的問題還是不夠穩定，其在發佈會剛開始演示時還算順利，但中後期的演示過程中遭遇連環「翻車」，甚至未能成功加載相關網頁。

The Rundown AI 創辦人 Rowan Cheung 提前體驗 Operator，並分享了自己的回饋表示，目前 Operator 的系統仍存在限制，包括部分網站會屏蔽 AI 訪問，合作夥伴集成有限。

同時 Rowan Cheung 指出 Operator 需要特定的使用方法來優化效果，就像 GPT-4 適合 CoT 提示一樣，但目前對 Operator 的最佳使用方式研究還很初步。

此前有消息稱，Operator 在執行任務時使用的截圖內容可能被惡意利用，導致「提示注入攻擊」，存在嚴重的安全隱患。

因此，為確保 Operator 的安全使用，OpenAI 通過多層保護措施防止濫用並確保用戶牢牢控制 Operator，如系統在瀏覽器中輸入敏感信息（例如登錄憑據或支付資訊）時要求用戶接管。

目前，Operator 將率先向訂閱 200 美元 Pro 計劃的美國用戶開放，隨後逐步擴展至 Plus、Team 和 Enterprise 級別用戶，API 預計將在數周內推出，用戶可通過 operator.chatgpt.com 訪問該服務，OpenAI 計劃後續將其整合到 ChatGPT。

此外，OpenAI CEO Sam Altman 宣布 ChatGPT 用戶不僅將獲得 o3-mini 的免費試用機會，Plus 付費訂閱會員還將享有更多使用額度。

近日，OpenAI 產品長 Kevin Weil 還在達沃斯世界經濟論壇上表示，公司預計在 2 月或 3 月發表更智慧的 GPT-o3 模型。

本文為愛范兒授權刊登，原文標題為「OpenAI 發佈首個 AI 智能體」