(示意圖/圖片取自unsplash)
螞蟻集團近日宣布,開源旗下 AI 項目EchoMimic 。該模型可以根據人像面部特徵和音訊來幫人物對口型,結合面部標誌點和音訊內容生成較為穩定、自然的影音。
EchoMimic具備較高的穩定性和自然度,透過融合音訊和面部標誌點(面部關鍵特徵和結構,通常位於眼、鼻、嘴等位置)的特徵,可生成更符合真實面部運動和表情變化的影音。
其支持單獨使用音訊或面部標誌點生成肖像影音,也支持將音訊和人像照片相結合做出「對口型」一般的效果。據悉,其支持多語言(包含中文、英語)及多風格,也可應對唱歌等場景。
本文為品玩授權刊登,原文標題為「螞蟻集團開源 EchoMimic 項目,為人像照片對口型」