(取自Google blog)
當地時間12月12日,在OpenAI宣布ChatGPT全面接入蘋果之際,Google發表新一代大模型Gemini 2.0,值得注意的是,Gemini 2.0專為AI智慧體(AI Agent)而生。
Google執行長Sundar Pichai在公開信中稱,「在過去一年中,我們一直在投資開發更具『代理性』的模型,即這些模型能更深入地理解你周圍的世界,提前多步思考,並在你的監督下為你執行任務。今天,我們很高興迎來新一代的模型Gemini 2.0,它是我們迄今為止最強大的模型,通過多模態的新進展,如原生圖像和音訊輸出,以及原生工具使用,我們能夠建構新的AI智慧體,使我們更接近普遍AI助理的願景。」
Google DeepMind CEO Demis Hassabis也表示,2025年將是AI智慧體的時代,Gemini 2.0將是支撐我們基於智慧體工作的最新一代模型。
目前Gemini 2.0版本尚未正式上線,Google表示已經將其提供給了一些開發者內測,第一時間上線的是比Gemini 1.5 Pro更強的Gemini 2.0 Flash實驗版,實驗版已在網頁端開放,Gemini用戶可以通過PC端訪問Gemini 2.0 Flash,行動端即將推出。
根據Google發表的基準測試結果,不論是在多模態的圖片、影片能力上,還是程式碼、數學等能力上,僅是Flash實驗版的Gemini 2.0表現幾乎全面超越Gemini 1.5 Pro,且響應速度提升了2倍。
Google集中火力猛攻AI智慧體
通過Google的本次更新,我們已經可以窺見其AI佈局的冰川一角,一切為了智慧體。
1、更強大的多模態能力:
Gemini 2.0 Flash實驗版除了支持圖像、視訊和音訊等多模態輸入,還支持多模態輸出,比如原生生成的圖像與文本結合,以及可操控的多語言文本轉語音(TTS)音頻。
2、更專業的AI搜尋:
Google在Gemini Advanced中推出了一項名為深度研究(Deep Research)的智慧體新功能,該功能結合了Google的搜尋專長和Gemini的高級推理能力,可以圍繞一個複雜主題生成研究報告,相當於一個私人研究助理。
3、多款智慧體更新、上線:
更新了基於Gemini 2.0構建的智能體Project Astra :Astra的新功能包括支持多語言混合對話;能夠在Gemini應用中直接調用Google Lens和地圖功能;記憶能力提升,具備最多10分鐘的會話內記憶,對話更連貫;借助新的流式處理技術和原生音訊理解能力,該智慧體能夠以近於人類對話的延遲來理解語言。
值得注意的是,Astra是Google為眼鏡項目所做的前瞻項目,Google提到,正在將Project Astra移植到眼鏡等更多行動終端中。
發表適用於瀏覽器的智慧體Project Mariner(海員項目):該智慧體能夠理解並推理瀏覽器螢幕上的資訊,包括像素和網頁元素(如文本、程式碼和圖片),然後通過Chrome擴展程式來利用這些資訊幫你完成任務。
發表專為開發者打造的AI編程智慧體Jules:Jules支持直接集成到GitHub工作流中,用戶使用自然語言描述問題,就能直接生成可以合併到GitHub項目中的程式碼;發表遊戲智慧體:能夠即時解讀螢幕畫面,通過用戶遊戲螢幕上的動作給出下一步操作建議,或直接在你打遊戲的時候通過和你語音交流。
Google表示,明年年初,會將Gemini 2.0擴展到更多旗下產品中。此前推出的AI Overviews將集成 Gemini 2.0,從而提升複雜問題處理能力,包括高級數學公式、多模態查詢和編程。
本週已經進行有限測試,預計明年推廣,並擴展至更多國家和語言。
本文為AI新智界授權刊登,原文標題為「谷歌狙擊OpenAI!」