視頻幀生成方法、裝置和電子設(shè)備與流程

文檔序號：42592350發(fā)布日期：2025-07-29 17:44閱讀：9來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

本公開涉及視頻處理，尤其是涉及一種視頻幀生成方法、裝置和電子設(shè)備。

背景技術(shù)：

1、隨著數(shù)字人與虛擬角色在娛樂、教育、影視等領(lǐng)域的需求不斷增長，“可控且逼真的人像視頻合成”技術(shù)受到廣泛關(guān)注。相關(guān)技術(shù)中，通常使用二維關(guān)鍵點來驅(qū)動物體運動，或者根據(jù)音頻驅(qū)動口型，該方式合成的視頻可可控制的維度較少，難以準(zhǔn)確還原真實的物體運動，無法保持高保真、自然連貫的視頻效果。

技術(shù)實現(xiàn)思路

1、有鑒于此，本公開的目的在于提供一種視頻幀生成方法、裝置和電子設(shè)備，通過渲染第一圖像和第二圖像，引導(dǎo)目標(biāo)網(wǎng)絡(luò)模型在生成視頻幀時能夠參考第一圖像中目標(biāo)物體的表情和姿勢以及第二圖像的光照信息，使得目標(biāo)網(wǎng)絡(luò)模型在生成視頻幀時能夠獨立調(diào)節(jié)表情、姿勢和光照，以實現(xiàn)更加靈活的可控性，能夠準(zhǔn)確的還原真實的物體運動，提高高保真、自然連貫的視頻效果。

2、第一方面，本公開實施例提供了一種視頻幀生成方法，該方法包括：獲取包含目標(biāo)物體的至少一目標(biāo)圖像，根據(jù)目標(biāo)圖像確定目標(biāo)物體的三維網(wǎng)格，以及至少一物體信息和至少一相機信息；其中，物體信息至少包括目標(biāo)物體的姿勢參數(shù)和/或表情參數(shù)，相機信息至少包括相機拍攝目標(biāo)物體時使用的相機參數(shù)；基于三維網(wǎng)格、物體信息、相機信息、以及預(yù)設(shè)的第一光照信息，渲染目標(biāo)物體得到第一圖像；基于三維網(wǎng)格和預(yù)設(shè)的第二光照信息，渲染目標(biāo)物體得到第二圖像；將第一圖像和第二圖像輸入至預(yù)先訓(xùn)練完成的目標(biāo)網(wǎng)絡(luò)模型，通過目標(biāo)網(wǎng)絡(luò)模型生成第一圖像對應(yīng)的視頻幀；其中，第一圖像和第二圖像為目標(biāo)網(wǎng)絡(luò)模型的引導(dǎo)信息，第一圖像對應(yīng)的視頻幀中目標(biāo)物體的姿勢和/或表情符合物體信息，第一圖像對應(yīng)的視頻幀中目標(biāo)物體的光照信息符合第二光照信息。

3、第二方面，本公開實施例提供了一種視頻幀生成裝置，裝置包括：信息確定模塊，用于獲取包含目標(biāo)物體的至少一目標(biāo)圖像，根據(jù)目標(biāo)圖像確定目標(biāo)物體的三維網(wǎng)格，以及至少一物體信息和至少一相機信息；其中，物體信息至少包括目標(biāo)物體的姿勢參數(shù)和/或表情參數(shù)，相機信息至少包括相機拍攝目標(biāo)物體時使用的相機參數(shù)；第一渲染模塊，用于基于三維網(wǎng)格、物體信息、相機信息、以及預(yù)設(shè)的第一光照信息，渲染目標(biāo)物體得到第一圖像；第二渲染模塊，用于基于三維網(wǎng)格和預(yù)設(shè)的第二光照信息，渲染目標(biāo)物體得到第二圖像；視頻幀生成模塊，用于將第一圖像和第二圖像輸入至預(yù)先訓(xùn)練完成的目標(biāo)網(wǎng)絡(luò)模型，通過目標(biāo)網(wǎng)絡(luò)模型生成第一圖像對應(yīng)的視頻幀；其中，第一圖像和第二圖像為目標(biāo)網(wǎng)絡(luò)模型的引導(dǎo)信息，第一圖像對應(yīng)的視頻幀中目標(biāo)物體的姿勢和/或表情符合物體信息，第一圖像對應(yīng)的視頻幀中目標(biāo)物體的光照信息符合第二光照信息。

4、第三方面，本公開實施例提供了一種電子設(shè)備，包括處理器和存儲器，存儲器存儲有能夠被處理器執(zhí)行的計算機可執(zhí)行指令，處理器執(zhí)行計算機可執(zhí)行指令以實現(xiàn)任一項的視頻幀生成方法。

5、第四方面，本公開實施例提供了一種計算機可讀存儲介質(zhì)，計算機可讀存儲介質(zhì)存儲有計算機可執(zhí)行指令，計算機可執(zhí)行指令在被處理器調(diào)用和執(zhí)行時，計算機可執(zhí)行指令促使處理器實現(xiàn)第一方面任一項的視頻幀生成方法。

6、本公開實施例帶來了以下有益效果：

7、本公開提供了一種視頻幀生成方法、裝置和電子設(shè)備，獲取包含目標(biāo)物體的至少一目標(biāo)圖像，根據(jù)目標(biāo)圖像確定目標(biāo)物體的三維網(wǎng)格，以及至少一物體信息和至少一相機信息；其中，物體信息至少包括目標(biāo)物體的姿勢參數(shù)和/或表情參數(shù)，相機信息至少包括相機拍攝目標(biāo)物體時使用的相機參數(shù)；基于三維網(wǎng)格、物體信息、相機信息、以及預(yù)設(shè)的第一光照信息，渲染目標(biāo)物體得到第一圖像；基于三維網(wǎng)格和預(yù)設(shè)的第二光照信息，渲染目標(biāo)物體得到第二圖像；將第一圖像和第二圖像輸入至預(yù)先訓(xùn)練完成的目標(biāo)網(wǎng)絡(luò)模型，通過目標(biāo)網(wǎng)絡(luò)模型生成第一圖像對應(yīng)的視頻幀；其中，第一圖像和第二圖像為目標(biāo)網(wǎng)絡(luò)模型的引導(dǎo)信息，第一圖像對應(yīng)的視頻幀中目標(biāo)物體的姿勢和/或表情符合物體信息，第一圖像對應(yīng)的視頻幀中目標(biāo)物體的光照信息符合第二光照信息。該方式中，通過渲染第一圖像和第二圖像，引導(dǎo)目標(biāo)網(wǎng)絡(luò)模型在生成視頻幀時能夠參考第一圖像中目標(biāo)物體的表情和姿勢以及第二圖像的光照信息，使得目標(biāo)網(wǎng)絡(luò)模型在生成視頻幀時能夠獨立調(diào)節(jié)表情、姿勢和光照，實現(xiàn)了更加靈活的可控性，準(zhǔn)確的還原了真實的物體運動，提高了高保真、自然連貫的視頻效果。

8、本公開的其他特征和優(yōu)點將在隨后的說明書中闡述，并且，部分地從說明書中變得顯而易見，或者通過實施本公開而了解。本公開的目的和其他優(yōu)點在說明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。

9、為使本公開的上述目的、特征和優(yōu)點能更明顯易懂，下文特舉較佳實施例，并配合所附附圖，作詳細說明如下。

技術(shù)特征：

1.一種視頻幀生成方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，根據(jù)所述目標(biāo)圖像確定所述目標(biāo)物體的三維網(wǎng)格，以及至少一物體信息和至少一相機信息的步驟，包括：

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，基于所述三維網(wǎng)格、所述物體信息、所述相機信息、以及預(yù)設(shè)的第一光照信息，渲染所述目標(biāo)物體得到第一圖像的步驟，包括：

4.權(quán)利要求3所述的方法，其特征在于，基于所述第一目標(biāo)三維網(wǎng)格和所述預(yù)設(shè)的第一光照信息，渲染所述目標(biāo)物體得到第一圖像的步驟，包括：

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，基于所述三維網(wǎng)格和預(yù)設(shè)的第二光照信息，渲染所述目標(biāo)物體得到第二圖像的步驟，包括：

6.根據(jù)權(quán)利要求5所述的方法，其特征在于，基于所述第二目標(biāo)三維網(wǎng)格和所述預(yù)設(shè)的第二光照信息，渲染所述目標(biāo)物體得到第二圖像的步驟，包括：

7.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述第一圖像用于引導(dǎo)所述目標(biāo)網(wǎng)絡(luò)模型生成的視頻幀中目標(biāo)物體的表情和/或姿勢符合所述表情參數(shù)和/或姿勢參數(shù)；所述第二圖像用于引導(dǎo)所述目標(biāo)網(wǎng)絡(luò)模型生成的視頻幀中目標(biāo)物體的光照環(huán)境符合所述預(yù)設(shè)的第二光照信息。

8.根據(jù)權(quán)利要求1所述的方法，其特征在于，將所述第一圖像和所述第二圖像輸入至預(yù)先訓(xùn)練完成的目標(biāo)網(wǎng)絡(luò)模型，通過所述目標(biāo)網(wǎng)絡(luò)模型生成所述第一圖像對應(yīng)的視頻幀的步驟，包括：

9.根據(jù)權(quán)利要求8所述的方法，其特征在于，將所述第一圖像特征和所述第二圖像特征輸入至所述目標(biāo)網(wǎng)絡(luò)模型，通過所述目標(biāo)網(wǎng)絡(luò)模型生成所述第一圖像對應(yīng)的視頻幀的步驟，包括：

10.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述方法還包括：

11.根據(jù)權(quán)利要求10所述的方法，其特征在于，將所述第一圖像、所述第二圖像和所述語音信息輸入至預(yù)先訓(xùn)練完成的目標(biāo)網(wǎng)絡(luò)模型，通過所述目標(biāo)網(wǎng)絡(luò)模型生成所述第一圖像對應(yīng)的視頻幀的步驟，包括：

12.根據(jù)權(quán)利要求11所述的方法，其特征在于，在所述目標(biāo)網(wǎng)絡(luò)模型的目標(biāo)網(wǎng)絡(luò)層進行歸一化操作時，對所述目標(biāo)網(wǎng)絡(luò)層輸出的特征映射進行縮放和/或平移的步驟，包括：

13.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述方法還包括：

14.根據(jù)權(quán)利要求13所述的方法，其特征在于，將所述第一圖像和所述第二圖像輸入至預(yù)先訓(xùn)練完成的目標(biāo)網(wǎng)絡(luò)模型，通過所述目標(biāo)網(wǎng)絡(luò)模型生成所述第一圖像對應(yīng)的視頻幀的步驟，包括：

15.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述方法還包括：

16.根據(jù)權(quán)利要求15所述的方法，其特征在于，將所述第一圖像和所述第二圖像輸入至預(yù)先訓(xùn)練完成的目標(biāo)網(wǎng)絡(luò)模型，通過所述目標(biāo)網(wǎng)絡(luò)模型生成所述第一圖像對應(yīng)的視頻幀的步驟，包括：

17.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述方法還包括：

18.一種視頻幀生成裝置，其特征在于，所述裝置包括：

19.一種電子設(shè)備，其特征在于，包括處理器和存儲器，所述存儲器存儲有能夠被所述處理器執(zhí)行的計算機可執(zhí)行指令，所述處理器執(zhí)行所述計算機可執(zhí)行指令以實現(xiàn)權(quán)利要求1-17任一項所述的視頻幀生成方法。

20.一種計算機可讀存儲介質(zhì)，其特征在于，所述計算機可讀存儲介質(zhì)存儲有計算機可執(zhí)行指令，所述計算機可執(zhí)行指令在被處理器調(diào)用和執(zhí)行時，所述計算機可執(zhí)行指令促使所述處理器實現(xiàn)權(quán)利要求1-17任一項所述的視頻幀生成方法。

技術(shù)總結(jié)
本公開提供了一種視頻幀生成方法、裝置和電子設(shè)備，獲取至少一目標(biāo)圖像，根據(jù)目標(biāo)圖像確定目標(biāo)物體的三維網(wǎng)格，以及物體信息和相機信息；基于三維網(wǎng)格、物體信息、相機信息和第一光照信息，渲染目標(biāo)物體得到第一圖像；基于三維網(wǎng)格和第二光照信息，渲染目標(biāo)物體得到第二圖像；將第一圖像和第二圖像輸入至目標(biāo)網(wǎng)絡(luò)模型，生成第一圖像對應(yīng)的視頻幀。該方式中，通過渲染第一圖像和第二圖像，引導(dǎo)目標(biāo)網(wǎng)絡(luò)模型在生成視頻幀時能夠參考第一圖像中目標(biāo)物體的表情和姿勢以及第二圖像的光照信息，使得目標(biāo)網(wǎng)絡(luò)模型在生成視頻幀時能夠獨立調(diào)節(jié)表情、姿勢和光照，實現(xiàn)了更加靈活的可控性，準(zhǔn)確的還原了真實的物體運動，提高了高保真、自然連貫的視頻效果。

技術(shù)研發(fā)人員：張新楠
受保護的技術(shù)使用者：網(wǎng)易（杭州）網(wǎng)絡(luò)有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/7/28

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張新楠
技術(shù)所有人：網(wǎng)易（杭州）網(wǎng)絡(luò)有限公司
我是此專利的發(fā)明人

上一篇：再生可燃和不可燃的含氫氟烯烴的制冷劑的過程和方法與流程
下一篇：一種電解水槽的仿真系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學(xué)與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

中文字幕s级优女区,欧美人人草,色综合九九,伊香蕉大综综综合久久,久久99精品久久久久久牛牛影视,国产成人综合久久,中文久草

視頻幀生成方法、裝置和電子設(shè)備與流程

視頻幀生成方法、裝置和電子設(shè)備與流程