本公開涉及視頻處理,尤其是涉及一種視頻幀生成方法、裝置和電子設(shè)備。
背景技術(shù):
1、隨著數(shù)字人與虛擬角色在娛樂、教育、影視等領(lǐng)域的需求不斷增長,“可控且逼真的人像視頻合成”技術(shù)受到廣泛關(guān)注。相關(guān)技術(shù)中,通常使用二維關(guān)鍵點來驅(qū)動物體運動,或者根據(jù)音頻驅(qū)動口型,該方式合成的視頻可可控制的維度較少,難以準(zhǔn)確還原真實的物體運動,無法保持高保真、自然連貫的視頻效果。
技術(shù)實現(xiàn)思路
1、有鑒于此,本公開的目的在于提供一種視頻幀生成方法、裝置和電子設(shè)備,通過渲染第一圖像和第二圖像,引導(dǎo)目標(biāo)網(wǎng)絡(luò)模型在生成視頻幀時能夠參考第一圖像中目標(biāo)物體的表情和姿勢以及第二圖像的光照信息,使得目標(biāo)網(wǎng)絡(luò)模型在生成視頻幀時能夠獨立調(diào)節(jié)表情、姿勢和光照,以實現(xiàn)更加靈活的可控性,能夠準(zhǔn)確的還原真實的物體運動,提高高保真、自然連貫的視頻效果。
2、第一方面,本公開實施例提供了一種視頻幀生成方法,該方法包括:獲取包含目標(biāo)物體的至少一目標(biāo)圖像,根據(jù)目標(biāo)圖像確定目標(biāo)物體的三維網(wǎng)格,以及至少一物體信息和至少一相機信息;其中,物體信息至少包括目標(biāo)物體的姿勢參數(shù)和/或表情參數(shù),相機信息至少包括相機拍攝目標(biāo)物體時使用的相機參數(shù);基于三維網(wǎng)格、物體信息、相機信息、以及預(yù)設(shè)的第一光照信息,渲染目標(biāo)物體得到第一圖像;基于三維網(wǎng)格和預(yù)設(shè)的第二光照信息,渲染目標(biāo)物體得到第二圖像;將第一圖像和第二圖像輸入至預(yù)先訓(xùn)練完成的目標(biāo)網(wǎng)絡(luò)模型,通過目標(biāo)網(wǎng)絡(luò)模型生成第一圖像對應(yīng)的視頻幀;其中,第一圖像和第二圖像為目標(biāo)網(wǎng)絡(luò)模型的引導(dǎo)信息,第一圖像對應(yīng)的視頻幀中目標(biāo)物體的姿勢和/或表情符合物體信息,第一圖像對應(yīng)的視頻幀中目標(biāo)物體的光照信息符合第二光照信息。
3、第二方面,本公開實施例提供了一種視頻幀生成裝置,裝置包括:信息確定模塊,用于獲取包含目標(biāo)物體的至少一目標(biāo)圖像,根據(jù)目標(biāo)圖像確定目標(biāo)物體的三維網(wǎng)格,以及至少一物體信息和至少一相機信息;其中,物體信息至少包括目標(biāo)物體的姿勢參數(shù)和/或表情參數(shù),相機信息至少包括相機拍攝目標(biāo)物體時使用的相機參數(shù);第一渲染模塊,用于基于三維網(wǎng)格、物體信息、相機信息、以及預(yù)設(shè)的第一光照信息,渲染目標(biāo)物體得到第一圖像;第二渲染模塊,用于基于三維網(wǎng)格和預(yù)設(shè)的第二光照信息,渲染目標(biāo)物體得到第二圖像;視頻幀生成模塊,用于將第一圖像和第二圖像輸入至預(yù)先訓(xùn)練完成的目標(biāo)網(wǎng)絡(luò)模型,通過目標(biāo)網(wǎng)絡(luò)模型生成第一圖像對應(yīng)的視頻幀;其中,第一圖像和第二圖像為目標(biāo)網(wǎng)絡(luò)模型的引導(dǎo)信息,第一圖像對應(yīng)的視頻幀中目標(biāo)物體的姿勢和/或表情符合物體信息,第一圖像對應(yīng)的視頻幀中目標(biāo)物體的光照信息符合第二光照信息。
4、第三方面,本公開實施例提供了一種電子設(shè)備,包括處理器和存儲器,存儲器存儲有能夠被處理器執(zhí)行的計算機可執(zhí)行指令,處理器執(zhí)行計算機可執(zhí)行指令以實現(xiàn)任一項的視頻幀生成方法。
5、第四方面,本公開實施例提供了一種計算機可讀存儲介質(zhì),計算機可讀存儲介質(zhì)存儲有計算機可執(zhí)行指令,計算機可執(zhí)行指令在被處理器調(diào)用和執(zhí)行時,計算機可執(zhí)行指令促使處理器實現(xiàn)第一方面任一項的視頻幀生成方法。
6、本公開實施例帶來了以下有益效果:
7、本公開提供了一種視頻幀生成方法、裝置和電子設(shè)備,獲取包含目標(biāo)物體的至少一目標(biāo)圖像,根據(jù)目標(biāo)圖像確定目標(biāo)物體的三維網(wǎng)格,以及至少一物體信息和至少一相機信息;其中,物體信息至少包括目標(biāo)物體的姿勢參數(shù)和/或表情參數(shù),相機信息至少包括相機拍攝目標(biāo)物體時使用的相機參數(shù);基于三維網(wǎng)格、物體信息、相機信息、以及預(yù)設(shè)的第一光照信息,渲染目標(biāo)物體得到第一圖像;基于三維網(wǎng)格和預(yù)設(shè)的第二光照信息,渲染目標(biāo)物體得到第二圖像;將第一圖像和第二圖像輸入至預(yù)先訓(xùn)練完成的目標(biāo)網(wǎng)絡(luò)模型,通過目標(biāo)網(wǎng)絡(luò)模型生成第一圖像對應(yīng)的視頻幀;其中,第一圖像和第二圖像為目標(biāo)網(wǎng)絡(luò)模型的引導(dǎo)信息,第一圖像對應(yīng)的視頻幀中目標(biāo)物體的姿勢和/或表情符合物體信息,第一圖像對應(yīng)的視頻幀中目標(biāo)物體的光照信息符合第二光照信息。該方式中,通過渲染第一圖像和第二圖像,引導(dǎo)目標(biāo)網(wǎng)絡(luò)模型在生成視頻幀時能夠參考第一圖像中目標(biāo)物體的表情和姿勢以及第二圖像的光照信息,使得目標(biāo)網(wǎng)絡(luò)模型在生成視頻幀時能夠獨立調(diào)節(jié)表情、姿勢和光照,實現(xiàn)了更加靈活的可控性,準(zhǔn)確的還原了真實的物體運動,提高了高保真、自然連貫的視頻效果。
8、本公開的其他特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本公開而了解。本公開的目的和其他優(yōu)點在說明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。
9、為使本公開的上述目的、特征和優(yōu)點能更明顯易懂,下文特舉較佳實施例,并配合所附附圖,作詳細說明如下。
1.一種視頻幀生成方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述目標(biāo)圖像確定所述目標(biāo)物體的三維網(wǎng)格,以及至少一物體信息和至少一相機信息的步驟,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于所述三維網(wǎng)格、所述物體信息、所述相機信息、以及預(yù)設(shè)的第一光照信息,渲染所述目標(biāo)物體得到第一圖像的步驟,包括:
4.權(quán)利要求3所述的方法,其特征在于,基于所述第一目標(biāo)三維網(wǎng)格和所述預(yù)設(shè)的第一光照信息,渲染所述目標(biāo)物體得到第一圖像的步驟,包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于所述三維網(wǎng)格和預(yù)設(shè)的第二光照信息,渲染所述目標(biāo)物體得到第二圖像的步驟,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,基于所述第二目標(biāo)三維網(wǎng)格和所述預(yù)設(shè)的第二光照信息,渲染所述目標(biāo)物體得到第二圖像的步驟,包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述第一圖像用于引導(dǎo)所述目標(biāo)網(wǎng)絡(luò)模型生成的視頻幀中目標(biāo)物體的表情和/或姿勢符合所述表情參數(shù)和/或姿勢參數(shù);所述第二圖像用于引導(dǎo)所述目標(biāo)網(wǎng)絡(luò)模型生成的視頻幀中目標(biāo)物體的光照環(huán)境符合所述預(yù)設(shè)的第二光照信息。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,將所述第一圖像和所述第二圖像輸入至預(yù)先訓(xùn)練完成的目標(biāo)網(wǎng)絡(luò)模型,通過所述目標(biāo)網(wǎng)絡(luò)模型生成所述第一圖像對應(yīng)的視頻幀的步驟,包括:
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,將所述第一圖像特征和所述第二圖像特征輸入至所述目標(biāo)網(wǎng)絡(luò)模型,通過所述目標(biāo)網(wǎng)絡(luò)模型生成所述第一圖像對應(yīng)的視頻幀的步驟,包括:
10.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
11.根據(jù)權(quán)利要求10所述的方法,其特征在于,將所述第一圖像、所述第二圖像和所述語音信息輸入至預(yù)先訓(xùn)練完成的目標(biāo)網(wǎng)絡(luò)模型,通過所述目標(biāo)網(wǎng)絡(luò)模型生成所述第一圖像對應(yīng)的視頻幀的步驟,包括:
12.根據(jù)權(quán)利要求11所述的方法,其特征在于,在所述目標(biāo)網(wǎng)絡(luò)模型的目標(biāo)網(wǎng)絡(luò)層進行歸一化操作時,對所述目標(biāo)網(wǎng)絡(luò)層輸出的特征映射進行縮放和/或平移的步驟,包括:
13.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
14.根據(jù)權(quán)利要求13所述的方法,其特征在于,將所述第一圖像和所述第二圖像輸入至預(yù)先訓(xùn)練完成的目標(biāo)網(wǎng)絡(luò)模型,通過所述目標(biāo)網(wǎng)絡(luò)模型生成所述第一圖像對應(yīng)的視頻幀的步驟,包括:
15.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
16.根據(jù)權(quán)利要求15所述的方法,其特征在于,將所述第一圖像和所述第二圖像輸入至預(yù)先訓(xùn)練完成的目標(biāo)網(wǎng)絡(luò)模型,通過所述目標(biāo)網(wǎng)絡(luò)模型生成所述第一圖像對應(yīng)的視頻幀的步驟,包括:
17.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
18.一種視頻幀生成裝置,其特征在于,所述裝置包括:
19.一種電子設(shè)備,其特征在于,包括處理器和存儲器,所述存儲器存儲有能夠被所述處理器執(zhí)行的計算機可執(zhí)行指令,所述處理器執(zhí)行所述計算機可執(zhí)行指令以實現(xiàn)權(quán)利要求1-17任一項所述的視頻幀生成方法。
20.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)存儲有計算機可執(zhí)行指令,所述計算機可執(zhí)行指令在被處理器調(diào)用和執(zhí)行時,所述計算機可執(zhí)行指令促使所述處理器實現(xiàn)權(quán)利要求1-17任一項所述的視頻幀生成方法。