中文字幕s级优女区,欧美人人草,色综合九九,伊香蕉大综综综合久久,久久99精品久久久久久牛牛影视,国产成人综合久久,中文久草

視頻幀生成方法、裝置和電子設(shè)備與流程

文檔序號:42592350發(fā)布日期:2025-07-29 17:44閱讀:9來源:國知局

本公開涉及視頻處理,尤其是涉及一種視頻幀生成方法、裝置和電子設(shè)備。


背景技術(shù):

1、隨著數(shù)字人與虛擬角色在娛樂、教育、影視等領(lǐng)域的需求不斷增長,“可控且逼真的人像視頻合成”技術(shù)受到廣泛關(guān)注。相關(guān)技術(shù)中,通常使用二維關(guān)鍵點來驅(qū)動物體運動,或者根據(jù)音頻驅(qū)動口型,該方式合成的視頻可可控制的維度較少,難以準(zhǔn)確還原真實的物體運動,無法保持高保真、自然連貫的視頻效果。


技術(shù)實現(xiàn)思路

1、有鑒于此,本公開的目的在于提供一種視頻幀生成方法、裝置和電子設(shè)備,通過渲染第一圖像和第二圖像,引導(dǎo)目標(biāo)網(wǎng)絡(luò)模型在生成視頻幀時能夠參考第一圖像中目標(biāo)物體的表情和姿勢以及第二圖像的光照信息,使得目標(biāo)網(wǎng)絡(luò)模型在生成視頻幀時能夠獨立調(diào)節(jié)表情、姿勢和光照,以實現(xiàn)更加靈活的可控性,能夠準(zhǔn)確的還原真實的物體運動,提高高保真、自然連貫的視頻效果。

2、第一方面,本公開實施例提供了一種視頻幀生成方法,該方法包括:獲取包含目標(biāo)物體的至少一目標(biāo)圖像,根據(jù)目標(biāo)圖像確定目標(biāo)物體的三維網(wǎng)格,以及至少一物體信息和至少一相機信息;其中,物體信息至少包括目標(biāo)物體的姿勢參數(shù)和/或表情參數(shù),相機信息至少包括相機拍攝目標(biāo)物體時使用的相機參數(shù);基于三維網(wǎng)格、物體信息、相機信息、以及預(yù)設(shè)的第一光照信息,渲染目標(biāo)物體得到第一圖像;基于三維網(wǎng)格和預(yù)設(shè)的第二光照信息,渲染目標(biāo)物體得到第二圖像;將第一圖像和第二圖像輸入至預(yù)先訓(xùn)練完成的目標(biāo)網(wǎng)絡(luò)模型,通過目標(biāo)網(wǎng)絡(luò)模型生成第一圖像對應(yīng)的視頻幀;其中,第一圖像和第二圖像為目標(biāo)網(wǎng)絡(luò)模型的引導(dǎo)信息,第一圖像對應(yīng)的視頻幀中目標(biāo)物體的姿勢和/或表情符合物體信息,第一圖像對應(yīng)的視頻幀中目標(biāo)物體的光照信息符合第二光照信息。

3、第二方面,本公開實施例提供了一種視頻幀生成裝置,裝置包括:信息確定模塊,用于獲取包含目標(biāo)物體的至少一目標(biāo)圖像,根據(jù)目標(biāo)圖像確定目標(biāo)物體的三維網(wǎng)格,以及至少一物體信息和至少一相機信息;其中,物體信息至少包括目標(biāo)物體的姿勢參數(shù)和/或表情參數(shù),相機信息至少包括相機拍攝目標(biāo)物體時使用的相機參數(shù);第一渲染模塊,用于基于三維網(wǎng)格、物體信息、相機信息、以及預(yù)設(shè)的第一光照信息,渲染目標(biāo)物體得到第一圖像;第二渲染模塊,用于基于三維網(wǎng)格和預(yù)設(shè)的第二光照信息,渲染目標(biāo)物體得到第二圖像;視頻幀生成模塊,用于將第一圖像和第二圖像輸入至預(yù)先訓(xùn)練完成的目標(biāo)網(wǎng)絡(luò)模型,通過目標(biāo)網(wǎng)絡(luò)模型生成第一圖像對應(yīng)的視頻幀;其中,第一圖像和第二圖像為目標(biāo)網(wǎng)絡(luò)模型的引導(dǎo)信息,第一圖像對應(yīng)的視頻幀中目標(biāo)物體的姿勢和/或表情符合物體信息,第一圖像對應(yīng)的視頻幀中目標(biāo)物體的光照信息符合第二光照信息。

4、第三方面,本公開實施例提供了一種電子設(shè)備,包括處理器和存儲器,存儲器存儲有能夠被處理器執(zhí)行的計算機可執(zhí)行指令,處理器執(zhí)行計算機可執(zhí)行指令以實現(xiàn)任一項的視頻幀生成方法。

5、第四方面,本公開實施例提供了一種計算機可讀存儲介質(zhì),計算機可讀存儲介質(zhì)存儲有計算機可執(zhí)行指令,計算機可執(zhí)行指令在被處理器調(diào)用和執(zhí)行時,計算機可執(zhí)行指令促使處理器實現(xiàn)第一方面任一項的視頻幀生成方法。

6、本公開實施例帶來了以下有益效果:

7、本公開提供了一種視頻幀生成方法、裝置和電子設(shè)備,獲取包含目標(biāo)物體的至少一目標(biāo)圖像,根據(jù)目標(biāo)圖像確定目標(biāo)物體的三維網(wǎng)格,以及至少一物體信息和至少一相機信息;其中,物體信息至少包括目標(biāo)物體的姿勢參數(shù)和/或表情參數(shù),相機信息至少包括相機拍攝目標(biāo)物體時使用的相機參數(shù);基于三維網(wǎng)格、物體信息、相機信息、以及預(yù)設(shè)的第一光照信息,渲染目標(biāo)物體得到第一圖像;基于三維網(wǎng)格和預(yù)設(shè)的第二光照信息,渲染目標(biāo)物體得到第二圖像;將第一圖像和第二圖像輸入至預(yù)先訓(xùn)練完成的目標(biāo)網(wǎng)絡(luò)模型,通過目標(biāo)網(wǎng)絡(luò)模型生成第一圖像對應(yīng)的視頻幀;其中,第一圖像和第二圖像為目標(biāo)網(wǎng)絡(luò)模型的引導(dǎo)信息,第一圖像對應(yīng)的視頻幀中目標(biāo)物體的姿勢和/或表情符合物體信息,第一圖像對應(yīng)的視頻幀中目標(biāo)物體的光照信息符合第二光照信息。該方式中,通過渲染第一圖像和第二圖像,引導(dǎo)目標(biāo)網(wǎng)絡(luò)模型在生成視頻幀時能夠參考第一圖像中目標(biāo)物體的表情和姿勢以及第二圖像的光照信息,使得目標(biāo)網(wǎng)絡(luò)模型在生成視頻幀時能夠獨立調(diào)節(jié)表情、姿勢和光照,實現(xiàn)了更加靈活的可控性,準(zhǔn)確的還原了真實的物體運動,提高了高保真、自然連貫的視頻效果。

8、本公開的其他特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本公開而了解。本公開的目的和其他優(yōu)點在說明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。

9、為使本公開的上述目的、特征和優(yōu)點能更明顯易懂,下文特舉較佳實施例,并配合所附附圖,作詳細說明如下。



技術(shù)特征:

1.一種視頻幀生成方法,其特征在于,所述方法包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述目標(biāo)圖像確定所述目標(biāo)物體的三維網(wǎng)格,以及至少一物體信息和至少一相機信息的步驟,包括:

3.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于所述三維網(wǎng)格、所述物體信息、所述相機信息、以及預(yù)設(shè)的第一光照信息,渲染所述目標(biāo)物體得到第一圖像的步驟,包括:

4.權(quán)利要求3所述的方法,其特征在于,基于所述第一目標(biāo)三維網(wǎng)格和所述預(yù)設(shè)的第一光照信息,渲染所述目標(biāo)物體得到第一圖像的步驟,包括:

5.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于所述三維網(wǎng)格和預(yù)設(shè)的第二光照信息,渲染所述目標(biāo)物體得到第二圖像的步驟,包括:

6.根據(jù)權(quán)利要求5所述的方法,其特征在于,基于所述第二目標(biāo)三維網(wǎng)格和所述預(yù)設(shè)的第二光照信息,渲染所述目標(biāo)物體得到第二圖像的步驟,包括:

7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述第一圖像用于引導(dǎo)所述目標(biāo)網(wǎng)絡(luò)模型生成的視頻幀中目標(biāo)物體的表情和/或姿勢符合所述表情參數(shù)和/或姿勢參數(shù);所述第二圖像用于引導(dǎo)所述目標(biāo)網(wǎng)絡(luò)模型生成的視頻幀中目標(biāo)物體的光照環(huán)境符合所述預(yù)設(shè)的第二光照信息。

8.根據(jù)權(quán)利要求1所述的方法,其特征在于,將所述第一圖像和所述第二圖像輸入至預(yù)先訓(xùn)練完成的目標(biāo)網(wǎng)絡(luò)模型,通過所述目標(biāo)網(wǎng)絡(luò)模型生成所述第一圖像對應(yīng)的視頻幀的步驟,包括:

9.根據(jù)權(quán)利要求8所述的方法,其特征在于,將所述第一圖像特征和所述第二圖像特征輸入至所述目標(biāo)網(wǎng)絡(luò)模型,通過所述目標(biāo)網(wǎng)絡(luò)模型生成所述第一圖像對應(yīng)的視頻幀的步驟,包括:

10.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:

11.根據(jù)權(quán)利要求10所述的方法,其特征在于,將所述第一圖像、所述第二圖像和所述語音信息輸入至預(yù)先訓(xùn)練完成的目標(biāo)網(wǎng)絡(luò)模型,通過所述目標(biāo)網(wǎng)絡(luò)模型生成所述第一圖像對應(yīng)的視頻幀的步驟,包括:

12.根據(jù)權(quán)利要求11所述的方法,其特征在于,在所述目標(biāo)網(wǎng)絡(luò)模型的目標(biāo)網(wǎng)絡(luò)層進行歸一化操作時,對所述目標(biāo)網(wǎng)絡(luò)層輸出的特征映射進行縮放和/或平移的步驟,包括:

13.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:

14.根據(jù)權(quán)利要求13所述的方法,其特征在于,將所述第一圖像和所述第二圖像輸入至預(yù)先訓(xùn)練完成的目標(biāo)網(wǎng)絡(luò)模型,通過所述目標(biāo)網(wǎng)絡(luò)模型生成所述第一圖像對應(yīng)的視頻幀的步驟,包括:

15.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:

16.根據(jù)權(quán)利要求15所述的方法,其特征在于,將所述第一圖像和所述第二圖像輸入至預(yù)先訓(xùn)練完成的目標(biāo)網(wǎng)絡(luò)模型,通過所述目標(biāo)網(wǎng)絡(luò)模型生成所述第一圖像對應(yīng)的視頻幀的步驟,包括:

17.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:

18.一種視頻幀生成裝置,其特征在于,所述裝置包括:

19.一種電子設(shè)備,其特征在于,包括處理器和存儲器,所述存儲器存儲有能夠被所述處理器執(zhí)行的計算機可執(zhí)行指令,所述處理器執(zhí)行所述計算機可執(zhí)行指令以實現(xiàn)權(quán)利要求1-17任一項所述的視頻幀生成方法。

20.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)存儲有計算機可執(zhí)行指令,所述計算機可執(zhí)行指令在被處理器調(diào)用和執(zhí)行時,所述計算機可執(zhí)行指令促使所述處理器實現(xiàn)權(quán)利要求1-17任一項所述的視頻幀生成方法。


技術(shù)總結(jié)
本公開提供了一種視頻幀生成方法、裝置和電子設(shè)備,獲取至少一目標(biāo)圖像,根據(jù)目標(biāo)圖像確定目標(biāo)物體的三維網(wǎng)格,以及物體信息和相機信息;基于三維網(wǎng)格、物體信息、相機信息和第一光照信息,渲染目標(biāo)物體得到第一圖像;基于三維網(wǎng)格和第二光照信息,渲染目標(biāo)物體得到第二圖像;將第一圖像和第二圖像輸入至目標(biāo)網(wǎng)絡(luò)模型,生成第一圖像對應(yīng)的視頻幀。該方式中,通過渲染第一圖像和第二圖像,引導(dǎo)目標(biāo)網(wǎng)絡(luò)模型在生成視頻幀時能夠參考第一圖像中目標(biāo)物體的表情和姿勢以及第二圖像的光照信息,使得目標(biāo)網(wǎng)絡(luò)模型在生成視頻幀時能夠獨立調(diào)節(jié)表情、姿勢和光照,實現(xiàn)了更加靈活的可控性,準(zhǔn)確的還原了真實的物體運動,提高了高保真、自然連貫的視頻效果。

技術(shù)研發(fā)人員:張新楠
受保護的技術(shù)使用者:網(wǎng)易(杭州)網(wǎng)絡(luò)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/7/28
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1