昨日,Google 發文宣佈,Google Gemini 2.0 Flash 正式引入原生圖像生成功能。
據官方介紹,Gemini 2.0 Flash 結合多模態輸入、增強版推理以及自然語言理解來進行圖像生成。
Gemini 2.0 Flash 支持文字理解並生成圖像,並能夠理解上下文保持角色和圖像場景的一致性;同時 Gemini 2.0 Flash 還支持自然語言對話的理解,以及利用現實世界的內容和增強版推理來生成圖像,Google 官方指出,這對繪製食譜等精準類的內容將會有很大幫助。
值得關注的是,Gemini 2.0 Flash 能夠對長文本進行精準繪製,從官方發布的樣張顯示,Gemini 2.0 Flash 能夠準確生成出正確的文字內容,減少生成出扭曲的「抽象」字體。
但據網友實測,目前 Gemini 2.0 Flash 對於過長的提示詞文本依然沒有能力處理好,Gemini 團隊的研究員 Kaushik Shivakumar 也現身回覆上述情況稱,未來團隊將會改進,目前如果需要輸入較長的提示詞,建議先讓模型以文本形式思考,從而更好地生成圖像。
目前,Google 已將上述功能提供給 Google AI Studio 的開發者,開發者可以通過 Gemini API 進行體驗測試。
本文為愛范兒授權刊登,原文標題為「Google Gemini 2.0 Flash 引入原生圖像生成功能」