專為AI Agent而生！Google發表新一代大模型Gemini 2.0

（取自Google blog）

當地時間12月12日，在OpenAI宣布ChatGPT全面接入蘋果之際，Google發表新一代大模型Gemini 2.0，值得注意的是，Gemini 2.0專為AI智慧體（AI Agent）而生。

Google執行長Sundar Pichai在公開信中稱，「在過去一年中，我們一直在投資開發更具『代理性』的模型，即這些模型能更深入地理解你周圍的世界，提前多步思考，並在你的監督下為你執行任務。今天，我們很高興迎來新一代的模型Gemini 2.0，它是我們迄今為止最強大的模型，通過多模態的新進展，如原生圖像和音訊輸出，以及原生工具使用，我們能夠建構新的AI智慧體，使我們更接近普遍AI助理的願景。」

Google DeepMind CEO Demis Hassabis也表示，2025年將是AI智慧體的時代，Gemini 2.0將是支撐我們基於智慧體工作的最新一代模型。

目前Gemini 2.0版本尚未正式上線，Google表示已經將其提供給了一些開發者內測，第一時間上線的是比Gemini 1.5 Pro更強的Gemini 2.0 Flash實驗版，實驗版已在網頁端開放，Gemini用戶可以通過PC端訪問Gemini 2.0 Flash，行動端即將推出。

根據Google發表的基準測試結果，不論是在多模態的圖片、影片能力上，還是程式碼、數學等能力上，僅是Flash實驗版的Gemini 2.0表現幾乎全面超越Gemini 1.5 Pro，且響應速度提升了2倍。

Google集中火力猛攻AI智慧體

通過Google的本次更新，我們已經可以窺見其AI佈局的冰川一角，一切為了智慧體。

1、更強大的多模態能力：

Gemini 2.0 Flash實驗版除了支持圖像、視訊和音訊等多模態輸入，還支持多模態輸出，比如原生生成的圖像與文本結合，以及可操控的多語言文本轉語音（TTS）音頻。

2、更專業的AI搜尋：

Google在Gemini Advanced中推出了一項名為深度研究（Deep Research）的智慧體新功能，該功能結合了Google的搜尋專長和Gemini的高級推理能力，可以圍繞一個複雜主題生成研究報告，相當於一個私人研究助理。

3、多款智慧體更新、上線：

更新了基於Gemini 2.0構建的智能體Project Astra ：Astra的新功能包括支持多語言混合對話；能夠在Gemini應用中直接調用Google Lens和地圖功能；記憶能力提升，具備最多10分鐘的會話內記憶，對話更連貫；借助新的流式處理技術和原生音訊理解能力，該智慧體能夠以近於人類對話的延遲來理解語言。

值得注意的是，Astra是Google為眼鏡項目所做的前瞻項目，Google提到，正在將Project Astra移植到眼鏡等更多行動終端中。

發表適用於瀏覽器的智慧體Project Mariner（海員項目）：該智慧體能夠理解並推理瀏覽器螢幕上的資訊，包括像素和網頁元素（如文本、程式碼和圖片），然後通過Chrome擴展程式來利用這些資訊幫你完成任務。

發表專為開發者打造的AI編程智慧體Jules：Jules支持直接集成到GitHub工作流中，用戶使用自然語言描述問題，就能直接生成可以合併到GitHub項目中的程式碼；發表遊戲智慧體：能夠即時解讀螢幕畫面，通過用戶遊戲螢幕上的動作給出下一步操作建議，或直接在你打遊戲的時候通過和你語音交流。

Google表示，明年年初，會將Gemini 2.0擴展到更多旗下產品中。此前推出的AI Overviews將集成 Gemini 2.0，從而提升複雜問題處理能力，包括高級數學公式、多模態查詢和編程。

本週已經進行有限測試，預計明年推廣，並擴展至更多國家和語言。

本文為AI新智界授權刊登，原文標題為「谷歌狙擊OpenAI！」