用大模型控制滑鼠、鍵盤!OpenAI最想做的事,讓Anthropic搶先了
AIGC開放社區 / 何渝婷編譯
2024-10-23 11:15

(取自Anthropic官網)

今天凌晨,全球著名大模型平台Anthropic發布了Claude 3.5 Sonnet升級版以及新模型Claude 3.5 Haiku。

同時推出了一個革命性的功能Computer use,通過API開發者可以讓 Claude 像人類一樣使用電腦控制滑鼠、鍵盤,包括查看螢幕、移動游標、點擊按鈕和輸入文本等操作。

例如,用戶可以讓 Claude 去搜尋網頁上的資訊、在電子表格中填寫數據;或者打開軟體進行特定的操作;也能協助開發人員執行重複性任務、測試程式碼等,整個流程Claude都會根據指令自動執行相應的操作。

微軟創辦人比爾·蓋茲曾在部落格裡說過,他一生中只見過兩次最有影響力的技術革命,一個是他自己發明的圖形交互系統Windows,另外一個便是OpenAI發明的ChatGPT。

現在, Computer use再一次顛覆電腦交互用AI來控制一切,OpenAI最想做的事情,讓競爭對手Anthropic搶先了,我們正式進入真AI操作系統時代。

Anthropic甩出超強功能後,網友是徹底沸騰炸鍋了,尤其是那些專業的開發人員簡直是拿到了屠龍刀,這以後開發效率呈指數級成長。

Computer use技術原理簡單介紹

目前,Computer use主要依靠API來驅動自動化指令,當開發者通過API 向 Claude 發送指令時,Claude會運用其自然語言處理能力解析指令,其內部語言模型會對指令文本進行詞法、句法和語義分析,例如,對於「使用電腦中的數據填寫線上表格」這樣的指令,Claude 會辨識出關鍵動作是填寫表格以及數據來源是電腦中的數據。

這一過程類似它在處理文本生成任務時對語義的理解,只是此時語義重點在於電腦操作,會基於預訓練過程中學到的語言模式和知識,將指令意圖映射到對應的電腦操作概念上,預訓練的知識包括常見的電腦操作術語、軟體功能描述等,以便準確執行特定操作。

為了實現與電腦的交互功能,Claude再次通過API來控制Windows、MacOS等系統中的底層框架,包括滑鼠、鍵盤、按鈕、文本框等。

當Claude確定了要執行的電腦操作後,就會開始執行具體的動作。例如,移動游標操作,API會向操作系統發送相應指令,操作系統會將這個指令傳遞給滑鼠驅動程式,從而實現光標的移動。

對於點擊按鈕操作,API 會先定位按鈕在螢幕上的位置,然後模擬滑鼠點擊事件發送給操作系統。在輸入文本時,它會將文本內容通過鍵盤輸入模擬的方式逐個字符或按詞組輸入到目標文本框中。

知名大模型開發網紅Mckay Wrigley已經展示了,如何通過API搭建Computer use開發平台,整個流程還算簡單10幾分鐘就完事了。

新模型Claude 3.5 Haiku

Claude 3.5 Haiku在3.0基礎上進行了大幅度更新,在相同成本的情況下推理效率、性能得到顯著增強。即便與上一代的最大模型Claude 3 Opus相比, 3.5Haiku在許多智慧基準測試中都表現出了超越的態勢。

在程式碼任務方面,Claude 3.5 Haiku特別強,在 SWE-bench Verified 上得分達到了 40.6%,超越了許多使用公開可用的最先進模型的模型,包括原始的 Claude 3.5 Sonnet 和 GPT-4o。

低延遲推理則是Claude 3.5 Haiku 的另外一個技術亮點,這使得它能夠快速響應用戶的指令,減少等待時間,提高工作效率。

在實際應用中,低延遲對於需要即時交互的場景非常重要,比如線上客服、智慧助理等,用戶可以在短時間內獲得準確的回答和解決方案,提升用戶體驗。

此外,Claude 3.5 Haiku 在提示指令遵循方面也有很大的改進,能夠更加準確地理解用戶的指令,並按照指令執行相應的任務。

這對於需要精確控制和操作的場景非常有幫助,比如自動化流程、數據處理等,通過更好地遵循指令,Claude 3.5 Haiku 可以減少錯誤和失誤,提高工作的準確性和可靠性。

本文為AI新智界授權刊登,原文標題為「 用大模型控制鼠標、鍵盤!OpenAI最想做的事,讓Anthropic搶先了