AI智慧體正在加速嘗試代替人類去做一些「力所能及」的事情。
當地時間1月23日,OpenAI發布了首個AI智慧Operator,據該公司CEO阿特曼介紹,這款智慧體能像人類一樣使用網頁瀏覽器,並點擊按鈕、打字輸入內容等,能自動完成預訂旅行住宿、餐廳預約、線上購物等複雜任務。
不僅如此,系統還支持多任務並行處理,比如在某購物網站上訂購搪瓷馬克杯之時,也能同步在另一平台預定露營地。
Operator支持個性訂製,用戶可為特定網頁或全站添加自定義指令,並在主頁保存,實現跨聊天窗口的多任務處理,如設置訂機票時的首選航司等。
其技術原理主要由Computer-Using Agent(CUA)模型驅動,並結合了GPT-4o的視覺辨識能力和基於強化學習的高級推理功能,使得Operator能「看見」網頁,使用滑鼠和鍵盤與網頁互動。
目前,Operator研究預覽版率先向訂閱200美元Pro計劃的美國用戶開放,後續將逐步擴展至Plus、Team和 Enterprise級別用戶。
OpenAI表示,希望很快將Operator集成到其所有ChatGPT應用程式中。
從現有體驗來看,Operator在基礎網頁操作和重複性任務方面表現出色,如搜尋篩選、創建購物清單和音樂播放列表等任務成功率較高。
但在處理複雜的房產搜尋等任務時,成功率相對較低;在處理不熟悉的UI介面和文本編輯時表現欠佳。
在發布演示和用戶測試中,Operator出現了網頁無法成功加載等情況,表明其在運行穩定性上存在不足。
此外,由於部分網站可能會屏蔽AI訪問,導致智慧體無法在這些網站上執行任務,使其應用範圍受到一定限制。
據OpenAI方面介紹,這款智慧體在WebArena測試中得分58.1%,而在WebVoyager測試中實際網站導航成功率達87%,OSWorld測試的得分則為38.1%。
WebArena是由卡內基梅隆大學等機構推出的一項用於測試智慧代理在網路環境中執行任務能力的測試,WebVoyager測試主要在亞馬遜、開源網站GitHub和谷歌地圖等真實網站上測試模型的性能,而OSWorld測試用於評估模型控制Windows和macOS等完整操作系統的能力。
儘管還談不上完美,但「這款產品是我們進軍智慧體領域的開始。」阿特曼在直播中這樣表示。
可以說,Operator是OpenAI向通用人工智慧(AGI)目標邁進的重要一步,也將進一步增強該公司在AI領域的競爭力,但考慮到Operator在代替用戶執行任務時可能需要輸入敏感資訊,如何避免潛在安全風險將成為重要問題。
本文為界面新聞授權刊登,原文標題為「OpenAI首個AI智能體來了,可自主幫人訂餐購物」