Google Gemini 2.0 Flash引入原生圖像生成功能

昨日，Google 發文宣佈，Google Gemini 2.0 Flash 正式引入原生圖像生成功能。

據官方介紹，Gemini 2.0 Flash 結合多模態輸入、增強版推理以及自然語言理解來進行圖像生成。

Gemini 2.0 Flash 支持文字理解並生成圖像，並能夠理解上下文保持角色和圖像場景的一致性；同時 Gemini 2.0 Flash 還支持自然語言對話的理解，以及利用現實世界的內容和增強版推理來生成圖像，Google 官方指出，這對繪製食譜等精準類的內容將會有很大幫助。

值得關注的是，Gemini 2.0 Flash 能夠對長文本進行精準繪製，從官方發布的樣張顯示，Gemini 2.0 Flash 能夠準確生成出正確的文字內容，減少生成出扭曲的「抽象」字體。

但據網友實測，目前 Gemini 2.0 Flash 對於過長的提示詞文本依然沒有能力處理好，Gemini 團隊的研究員 Kaushik Shivakumar 也現身回覆上述情況稱，未來團隊將會改進，目前如果需要輸入較長的提示詞，建議先讓模型以文本形式思考，從而更好地生成圖像。

目前，Google 已將上述功能提供給 Google AI Studio 的開發者，開發者可以通過 Gemini API 進行體驗測試。

本文為愛范兒授權刊登，原文標題為「Google Gemini 2.0 Flash 引入原生圖像生成功能」