中文字幕s级优女区,欧美人人草,色综合九九,伊香蕉大综综综合久久,久久99精品久久久久久牛牛影视,国产成人综合久久,中文久草

基于大模型的布局生成方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào):42592392發(fā)布日期:2025-07-29 17:45閱讀:16來(lái)源:國(guó)知局

本公開(kāi)涉及人工智能,尤其涉及計(jì)算機(jī)視覺(jué)、深度學(xué)習(xí)、大模型、圖像處理等,可應(yīng)用于基于人工智能的內(nèi)容生成等場(chǎng)景,具體涉及基于大模型的布局生成方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。


背景技術(shù):

1、近年來(lái),隨著多模態(tài)感知技術(shù)的快速發(fā)展,推動(dòng)了基于大模型的圖像布局生成的發(fā)展。但是,目前大模型生成的布局與圖像語(yǔ)義內(nèi)容匹配度不足,存在元素位置分布不準(zhǔn)確的問(wèn)題,進(jìn)而導(dǎo)致實(shí)際應(yīng)用價(jià)值較低。


技術(shù)實(shí)現(xiàn)思路

1、本公開(kāi)提供了一種基于大模型的布局生成方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。

2、根據(jù)本公開(kāi)的第一方面,提供了一種基于大模型的布局生成方法,包括:

3、通過(guò)目標(biāo)檢測(cè)模型與語(yǔ)義分割模型提取原始圖像的視覺(jué)信息;

4、將視覺(jué)信息轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),并利用空間關(guān)系編碼將結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為自然語(yǔ)言描述,空間關(guān)系編碼用于將元素的坐標(biāo)、尺寸及相對(duì)位置轉(zhuǎn)換化為自然語(yǔ)言描述;

5、基于自然語(yǔ)言描述和用戶指令,構(gòu)建多模態(tài)提示(prompt);其中,用戶指令包括針對(duì)原始圖像的動(dòng)作和動(dòng)作對(duì)應(yīng)的目標(biāo)對(duì)象,多模態(tài)prompt用于將自然語(yǔ)言描述與用戶指令關(guān)聯(lián);

6、將構(gòu)建好的多模態(tài)prompt輸入大模型,得到大模型輸出的目標(biāo)對(duì)象在原始圖像中的布局信息,布局信息包括目標(biāo)對(duì)象在原始圖像中的位置和尺寸。

7、根據(jù)本公開(kāi)的第二方面,提供了一種基于大模型的布局生成裝置,包括:

8、提取模塊,用于通過(guò)目標(biāo)檢測(cè)模型與語(yǔ)義分割模型提取原始圖像的視覺(jué)信息;

9、轉(zhuǎn)換模塊,用于將視覺(jué)信息轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),并利用空間關(guān)系編碼將結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為自然語(yǔ)言描述,空間關(guān)系編碼用于將元素的坐標(biāo)、尺寸及相對(duì)位置轉(zhuǎn)換化為自然語(yǔ)言描述;

10、構(gòu)建模塊,用于基于自然語(yǔ)言描述和用戶指令,構(gòu)建多模態(tài)prompt;其中,用戶指令包括針對(duì)原始圖像的動(dòng)作和動(dòng)作對(duì)應(yīng)的目標(biāo)對(duì)象,多模態(tài)prompt用于將自然語(yǔ)言描述與用戶指令關(guān)聯(lián);

11、生成模塊,用于將構(gòu)建好的多模態(tài)prompt輸入大模型,得到大模型輸出的目標(biāo)對(duì)象在原始圖像中的布局信息,布局信息包括目標(biāo)對(duì)象在原始圖像中的位置和尺寸。

12、根據(jù)本公開(kāi)的第三方面,提供了一種電子設(shè)備,包括:

13、至少一個(gè)處理器;以及

14、與該至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,

15、該存儲(chǔ)器存儲(chǔ)有可被該至少一個(gè)處理器執(zhí)行的指令,該指令被該至少一個(gè)處理器執(zhí)行,以使該至少一個(gè)處理器能夠執(zhí)行本公開(kāi)實(shí)施例中任一的方法。

16、根據(jù)本公開(kāi)的第四方面,提供了一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,該計(jì)算機(jī)指令用于使該計(jì)算機(jī)執(zhí)行根據(jù)本公開(kāi)實(shí)施例中任一的方法。

17、根據(jù)本公開(kāi)的第五方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,該計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)本公開(kāi)實(shí)施例中任一的方法。

18、采用本公開(kāi)的方案,能提高布局生成的質(zhì)量和效率。

19、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識(shí)本公開(kāi)的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本公開(kāi)的范圍。本公開(kāi)的其它特征將通過(guò)以下的說(shuō)明書(shū)而變得容易理解。



技術(shù)特征:

1.一種基于大模型的布局生成方法,包括:

2.根據(jù)權(quán)利要求1所述的方法,還包括:

3.根據(jù)權(quán)利要求1所述的方法,還包括:

4.根據(jù)權(quán)利要求3所述的方法,其中,所述基于所述原始圖像和所述用戶指令預(yù)測(cè)所述目標(biāo)對(duì)象的預(yù)期位置,包括:

5.根據(jù)權(quán)利要求2或3所述的方法,其中,所述基于所述偏差更新所述多模態(tài)prompt,包括:

6.根據(jù)權(quán)利要求2或3所述的方法,其中,所述基于所述偏差更新所述多模態(tài)prompt,包括:

7.根據(jù)權(quán)利要求2或3所述的方法,其中,所述方法還包括:

8.根據(jù)權(quán)利要求1所述的方法,其中,所述目標(biāo)對(duì)象包括第一對(duì)象,在所述用戶指令包括刪除所述第一對(duì)象時(shí),所述基于所述自然語(yǔ)言描述和用戶指令,構(gòu)建多模態(tài)prompt,包括:

9.根據(jù)權(quán)利要求1所述的方法,其中,所述目標(biāo)對(duì)象包括第二對(duì)象,在所述用戶指令包括添加所述第二對(duì)象時(shí),所述基于所述自然語(yǔ)言描述和用戶指令,構(gòu)建多模態(tài)prompt,包括:

10.根據(jù)權(quán)利要求1所述的方法,其中,所述構(gòu)建多模態(tài)prompt,包括:

11.根據(jù)權(quán)利要求10所述的方法,其中,所述預(yù)定義模版包括:

12.根據(jù)權(quán)利要求1所述的方法,其中,所述構(gòu)建多模態(tài)prompt,包括:

13.一種基于大模型的布局生成裝置,包括:

14.一種電子設(shè)備,包括:

15.一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,計(jì)算機(jī)指令用于使計(jì)算機(jī)執(zhí)行根據(jù)權(quán)利要求1-12中任一項(xiàng)的方法。

16.一種計(jì)算機(jī)程序產(chǎn)品,包括存儲(chǔ)在存儲(chǔ)介質(zhì)上的計(jì)算機(jī)程序,計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)權(quán)利要求1-12中任一項(xiàng)的方法。


技術(shù)總結(jié)
本公開(kāi)提供了基于大模型的布局生成方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),涉及人工智能技術(shù)領(lǐng)域,尤其涉及計(jì)算機(jī)視覺(jué)、深度學(xué)習(xí)、大模型、圖像處理等技術(shù)領(lǐng)域,可應(yīng)用于基于人工智能的內(nèi)容生成等場(chǎng)景。具體實(shí)現(xiàn)方案為:通過(guò)目標(biāo)檢測(cè)模型與語(yǔ)義分割模型提取原始圖像的視覺(jué)信息;將視覺(jué)信息轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),并利用空間關(guān)系編碼將結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為自然語(yǔ)言描述;基于自然語(yǔ)言描述和用戶指令,構(gòu)建多模態(tài)Prompt;將構(gòu)建好的多模態(tài)Prompt輸入大模型,得到大模型輸出的目標(biāo)對(duì)象在原始圖像中的布局信息。本方案能提高布局生成的質(zhì)量和效率。

技術(shù)研發(fā)人員:馮霞,謝群義
受保護(hù)的技術(shù)使用者:北京百度網(wǎng)訊科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/7/28
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1