本技術(shù)涉及人工智能和自然語言處理,尤其涉及一種多源異構(gòu)數(shù)據(jù)的知識庫體系構(gòu)建方法、設(shè)備及介質(zhì)。
背景技術(shù):
1、隨著人工智能和大數(shù)據(jù)技術(shù)的快速發(fā)展,各行業(yè)積累并需要處理的數(shù)據(jù)呈現(xiàn)出多源、異構(gòu)、海量、關(guān)聯(lián)復(fù)雜的特點,包括大量的結(jié)構(gòu)化表格數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)(如xml,json)以及非結(jié)構(gòu)化文本、圖片、文檔等。高效地整合這些多源異構(gòu)數(shù)據(jù)并構(gòu)建統(tǒng)一的知識體系,是實現(xiàn)智能檢索、知識問答、決策支持等高級應(yīng)用的基礎(chǔ)。目前,基于大語言模型等技術(shù)的智能應(yīng)用雖然在單一模態(tài)數(shù)據(jù)處理上取得顯著進展,但在面對復(fù)雜多源異構(gòu)數(shù)據(jù)的綜合處理和檢索時仍面臨嚴(yán)峻挑戰(zhàn)。
2、現(xiàn)有技術(shù)在構(gòu)建多源異構(gòu)知識庫體系方面主要存在以下瓶頸:首先,不同來源和模態(tài)的數(shù)據(jù)(如文本、表格、圖像、文檔格式)存在顯著的模態(tài)特征差異和語義碎片化問題,缺乏統(tǒng)一的技術(shù)手段進行有效的跨模態(tài)語義對齊與知識融合,導(dǎo)致數(shù)據(jù)間割裂,難以形成統(tǒng)一的知識表征。其次,傳統(tǒng)知識庫構(gòu)建方法通常針對特定類型或領(lǐng)域的單一數(shù)據(jù)進行設(shè)計,難以動態(tài)地適應(yīng)多源異構(gòu)數(shù)據(jù)的復(fù)雜關(guān)系挖掘和演化追蹤,對文檔間的引用網(wǎng)絡(luò)、版本迭代、主題關(guān)聯(lián)等深層次關(guān)系的解析能力不足。第三,現(xiàn)有方法在知識存儲與檢索環(huán)節(jié)往往采用單一類型的數(shù)據(jù)庫,無法同時高效支持知識圖譜的圖結(jié)構(gòu)查詢推理、非結(jié)構(gòu)化文本的語義相似性檢索以及結(jié)構(gòu)化數(shù)據(jù)的復(fù)雜關(guān)聯(lián)分析,導(dǎo)致跨模態(tài)綜合查詢效率低下且準(zhǔn)確性受限。
3、這些技術(shù)瓶頸極大地制約了多源異構(gòu)數(shù)據(jù)蘊含價值的深度挖掘和利用,影響了智能化檢索與分析應(yīng)用的效果。因此,如何構(gòu)建能夠有效融合多源異構(gòu)數(shù)據(jù),實現(xiàn)跨模態(tài)語義統(tǒng)一表征,并能支撐高效協(xié)同查詢的知識庫體系,成為本領(lǐng)域技術(shù)人員急需解決的技術(shù)問題。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例提供了一種多源異構(gòu)數(shù)據(jù)的知識庫體系構(gòu)建方法、設(shè)備及介質(zhì),用以解決如下技術(shù)問題:如何構(gòu)建能夠有效融合多源異構(gòu)數(shù)據(jù),實現(xiàn)跨模態(tài)語義統(tǒng)一表征,并能支撐高效協(xié)同查詢的知識庫體系。
2、第一方面,本技術(shù)實施例提供了一種多源異構(gòu)數(shù)據(jù)的知識庫體系構(gòu)建方法,方法包括:集成動態(tài)圖卷積網(wǎng)絡(luò)和層次化注意力機制,以構(gòu)建多模態(tài)文檔解析引擎;基于多模態(tài)文檔解析引擎,對原始異構(gòu)文檔進行語義結(jié)構(gòu)解析,以提取文檔結(jié)構(gòu)特征和內(nèi)容語義特征,并基于文檔結(jié)構(gòu)特征和內(nèi)容語義特征,構(gòu)建原始文檔關(guān)系模型;基于原始文檔關(guān)系模型,對原始異構(gòu)文檔中的異構(gòu)數(shù)據(jù)進行分類融合,以獲得待存儲異構(gòu)數(shù)據(jù)語料,并利用圖神經(jīng)網(wǎng)絡(luò)對待存儲異構(gòu)數(shù)據(jù)語料進行處理,以建立跨模態(tài)語義關(guān)聯(lián)索引;其中,待存儲異構(gòu)數(shù)據(jù)語料包含知識圖譜數(shù)據(jù)、文本語料數(shù)據(jù)、圖像及表格數(shù)據(jù);基于跨模態(tài)語義關(guān)聯(lián)索引,利用預(yù)設(shè)的異構(gòu)數(shù)據(jù)庫對待存儲異構(gòu)數(shù)據(jù)語料進行分類存儲,以完成多源異構(gòu)數(shù)據(jù)的知識庫體系構(gòu)建。
3、在本技術(shù)的一個實施例中,基于多模態(tài)文檔解析引擎,對原始異構(gòu)文檔進行語義結(jié)構(gòu)解析,具體包括:利用動態(tài)圖卷積網(wǎng)絡(luò),結(jié)合文檔結(jié)構(gòu)注意力機制解析原始異構(gòu)文檔的版面布局信息,以提取文檔結(jié)構(gòu)特征;利用動態(tài)圖卷積網(wǎng)絡(luò),結(jié)合文本語義注意力機制,解析原始異構(gòu)文檔中文本內(nèi)容的實體、主題及語義關(guān)系,以提取內(nèi)容語義特征。
4、在本技術(shù)的一個實施例中,原始文檔關(guān)系模型包括:文檔引用網(wǎng)絡(luò)、文檔演化路徑、主題關(guān)聯(lián)圖譜;基于文檔結(jié)構(gòu)特征和內(nèi)容語義特征,構(gòu)建原始文檔關(guān)系模型,具體包括:利用動態(tài)圖卷積網(wǎng)絡(luò),結(jié)合層次化注意力機制,追蹤文檔間的引用關(guān)系,構(gòu)建文檔引用網(wǎng)絡(luò);分析文檔引用網(wǎng)絡(luò)中的版本關(guān)聯(lián)信息,確定文檔的演化路徑;利用層次化注意力機制,融合文檔結(jié)構(gòu)特征、內(nèi)容語義特征及外部領(lǐng)域知識圖譜信息,識別關(guān)鍵主題節(jié)點,構(gòu)建跨文檔的主題關(guān)聯(lián)圖譜。
5、在本技術(shù)的一個實施例中,基于原始文檔關(guān)系模型,對原始異構(gòu)文檔中的異構(gòu)數(shù)據(jù)進行分類融合,以獲得待存儲異構(gòu)數(shù)據(jù)語料,具體包括:針對知識圖譜數(shù)據(jù),構(gòu)建基于子圖拓?fù)涮卣骱蛢?nèi)容語義特征的圖譜分類模型,動態(tài)聚合實體及其關(guān)系信息,更新知識圖譜子圖特征;針對文本語料數(shù)據(jù),利用預(yù)設(shè)的混合粒度文本切分算法,結(jié)合文檔結(jié)構(gòu)特征中的邏輯結(jié)構(gòu)信息及內(nèi)容語義特征中的語義連貫性信息,將文本內(nèi)容切分為段落級、句子級、短語級文本塊;針對圖像及表格數(shù)據(jù),利用改進的vilt模型架構(gòu),添加處理表格結(jié)構(gòu)信息的嵌入層,并設(shè)計跨模態(tài)對齊損失函數(shù),將圖像和表格內(nèi)容語義映射到與文本描述一致的向量表示空間,生成圖表語義摘要。
6、在本技術(shù)的一個實施例中,利用圖神經(jīng)網(wǎng)絡(luò)對待存儲異構(gòu)數(shù)據(jù)語料進行處理,以建立跨模態(tài)語義關(guān)聯(lián)索引,具體包括:將知識圖譜子圖特征、不同粒度文本塊信息及圖表語義摘要向量輸入圖神經(jīng)網(wǎng)絡(luò);利用圖神經(jīng)網(wǎng)絡(luò)建模知識圖譜子圖特征、文本塊信息及圖表語義摘要向量之間的潛在語義關(guān)聯(lián);基于建模結(jié)果,生成連接知識圖譜數(shù)據(jù)、文本語料數(shù)據(jù)和表格數(shù)據(jù)的跨模態(tài)語義關(guān)聯(lián)索引。
7、在本技術(shù)的一個實施例中,基于跨模態(tài)語義關(guān)聯(lián)索引,利用預(yù)設(shè)的異構(gòu)數(shù)據(jù)庫對待存儲異構(gòu)數(shù)據(jù)語料進行分類存儲,具體包括:將知識圖譜數(shù)據(jù)包含的實體及其關(guān)系網(wǎng)絡(luò)存儲至圖數(shù)據(jù)庫;利用預(yù)訓(xùn)練語言模型將段落級、句子級、短語級粒度文本塊轉(zhuǎn)化為語義向量,并將語義向量存儲至向量數(shù)據(jù)庫;將圖像及表格數(shù)據(jù)進行規(guī)范化處理后存儲至關(guān)系數(shù)據(jù)庫。
8、在本技術(shù)的一個實施例中,集成動態(tài)圖卷積網(wǎng)絡(luò)和層次化注意力機制,以構(gòu)建多模態(tài)文檔解析引擎,具體包括:設(shè)計包含動態(tài)圖更新策略的動態(tài)圖卷積網(wǎng)絡(luò)主體架構(gòu);在動態(tài)圖卷積網(wǎng)絡(luò)架構(gòu)中,分別融入文檔結(jié)構(gòu)注意力模塊和文本語義注意力模塊;引入層次化注意力機制模塊,將其配置為融合版面結(jié)構(gòu)特征與外部領(lǐng)域知識信息,并捕捉文檔間的互引用關(guān)系、版本迭代關(guān)系以及主題關(guān)聯(lián)關(guān)系。
9、在本技術(shù)的一個實施例中,方法還包括:基于構(gòu)建完成的多源異構(gòu)數(shù)據(jù)的知識庫體系,響應(yīng)于用戶查詢請求,通過跨模態(tài)語義關(guān)聯(lián)索引協(xié)同調(diào)用圖數(shù)據(jù)庫、向量數(shù)據(jù)庫及關(guān)系數(shù)據(jù)庫;利用圖神經(jīng)網(wǎng)絡(luò)在跨模態(tài)語義關(guān)聯(lián)索引上進行語義融合推理,結(jié)合各數(shù)據(jù)庫的查詢結(jié)果進行智能檢索,返回融合知識圖譜實體、語義相似文本及關(guān)聯(lián)結(jié)構(gòu)化數(shù)據(jù)的多源結(jié)果反饋。
10、第二方面,本技術(shù)實施例還提供了一種多源異構(gòu)數(shù)據(jù)的知識庫體系構(gòu)建設(shè)備,設(shè)備包括:至少一個處理器;以及,與至少一個處理器通信連接的存儲器;其中,存儲器存儲有可被至少一個處理器執(zhí)行的指令,指令被至少一個處理器執(zhí)行,以使至少一個處理器能夠執(zhí)行如上述任一項的一種多源異構(gòu)數(shù)據(jù)的知識庫體系構(gòu)建方法。
11、第三方面,本技術(shù)實施例還提供了一種非易失性計算機存儲介質(zhì),存儲有計算機可執(zhí)行指令,計算機可執(zhí)行指令被執(zhí)行時,實現(xiàn)如上述任一項的一種多源異構(gòu)數(shù)據(jù)的知識庫體系構(gòu)建方法。
12、本技術(shù)實施例提供的一種多源異構(gòu)數(shù)據(jù)的知識庫體系構(gòu)建方法、設(shè)備及介質(zhì),具有以下有益效果:通過整合動態(tài)圖卷積網(wǎng)絡(luò)與層次化注意力機制實現(xiàn)多模態(tài)文檔的深度解析與關(guān)系溯源,解決了多源異構(gòu)數(shù)據(jù)模態(tài)割裂與語義碎片化問題;在多模態(tài)語義理解層利用混合粒度文本切分、改進型跨模態(tài)對齊模型(vilt)及圖譜動態(tài)聚合技術(shù),建立了統(tǒng)一的跨模態(tài)語義關(guān)聯(lián)索引,顯著提升了不同模態(tài)數(shù)據(jù)(文本、表格、圖像、知識圖譜)間語義對齊的準(zhǔn)確性與知識融合能力;在存儲應(yīng)用層創(chuàng)新性地采用圖數(shù)據(jù)庫、向量數(shù)據(jù)庫與關(guān)系數(shù)據(jù)庫的協(xié)同索引機制,使該體系同時具備高效的知識圖譜推理、語義相似性檢索及結(jié)構(gòu)化數(shù)據(jù)關(guān)聯(lián)分析能力,從而全方位優(yōu)化了多源異構(gòu)數(shù)據(jù)的表征、存儲與智能檢索效率,為基于大語言模型的智能問答、數(shù)據(jù)分析等應(yīng)用提供了堅實的動態(tài)化、結(jié)構(gòu)化知識底座,有力支撐了企業(yè)數(shù)據(jù)價值的深度挖掘與智能決策水平的提升。