本發(fā)明涉及自然語言處理,尤其涉及一種多層動態(tài)聚合的大語言模型驅動的函件文本分析方法。
背景技術:
1、在信息技術快速發(fā)展的背景下,企業(yè)與組織在日常運營中需要接收和處理大量結構化或非結構化的函件文本,如業(yè)務往來郵件、項目報告、審批記錄、投訴建議等。這些函件內容來源廣泛、格式多樣,其語義層次復雜、結構松散,往往包含多段、跨句甚至跨段落的信息關聯,且隨業(yè)務需求快速變化。
2、傳統(tǒng)的文本分析方法多依賴統(tǒng)計學習或基于規(guī)則的自然語言處理技術,通常采用關鍵詞匹配、主題模型或淺層情感分析等方式。這些方法在處理單一句子或標準格式文本時尚可適用,但在面對復雜語篇結構、上下文依賴強、語言風格不規(guī)范、表達方式靈活的實際函件時,往往難以準確捕捉深層語義關系,尤其缺乏對上下文、時序、語境之間隱含關聯的建模能力,導致信息提取碎片化、響應不連貫、擴展能力差。
3、近年來,如bert、gpt等預訓練大語言模型在自然語言處理任務中取得顯著進展,具備強大的上下文理解能力和生成能力。但如何將其高效應用于結構松散、篇幅較長的函件文本中,仍面臨以下關鍵挑戰(zhàn):
4、1)文本結構不清、信息密度不均,直接輸入大模型會造成“冗余+缺失”并存。
5、2)上下文之間存在語義橋接關系,但缺乏結構化表達。
6、3)難以實現基于查詢的一次性檢索與集中響應。
7、因此,提出一種多層動態(tài)聚合的大語言模型驅動的函件文本分析方法。
技術實現思路
1、鑒于上述現有技術狀況,提出了本申請。本申請的實施例提供了一種多層動態(tài)聚合的大語言模型驅動的函件文本分析方法,具有高效捕捉復雜語義關聯、提升上下文理解連貫性、實現動態(tài)信息聚合的優(yōu)點。
2、根據本申請的一個方面,提供了一種多層動態(tài)聚合的大語言模型驅動的函件文本分析方法,包括:獲取多格式函件數據并轉換為帶時間戳的文本序列;對所述文本序列進行語義分析和結構處理,生成包含時序與上下文的文本塊集合;對所述文本塊進行多任務訓練與主題融合,生成綜合語義向量;基于所述綜合語義向量構建動態(tài)橋接圖,所述橋接圖通過語義與時序關聯性激活關聯文本塊;響應用戶查詢,將激活的文本塊內容拼接為上下文prompt并輸入大語言模型,獲取一次性生成的回答;接收新函件數據,根據所述新函件數據更新所述橋接圖。
3、與現有技術相比,采用根據本申請實施例的一種多層動態(tài)聚合的大語言模型驅動的函件文本分析方法,可以通過動態(tài)橋接圖關聯語義與時序信息,并基于上下文prompt實現大語言模型的精準響應,具有高效捕捉復雜語義關聯、提升上下文理解連貫性、實現動態(tài)信息聚合的優(yōu)點。
1.一種多層動態(tài)聚合的大語言模型驅動的函件文本分析方法,其特征在于,包括:
2.根據權利要求1所述的一種多層動態(tài)聚合的大語言模型驅動的函件文本分析方法,其特征在于,所述獲取多格式函件數據并轉換為帶時間戳的文本序列包括:
3.根據權利要求1所述的一種多層動態(tài)聚合的大語言模型驅動的函件文本分析方法,其特征在于,所述對所述文本序列進行語義分析和結構處理,生成包含時序與上下文的文本塊集合包括:
4.根據權利要求3所述的一種多層動態(tài)聚合的大語言模型驅動的函件文本分析方法,其特征在于,所述對所述候選句合并或拆分前還包括:
5.根據權利要求4所述的一種多層動態(tài)聚合的大語言模型驅動的函件文本分析方法,其特征在于,所述語義增強處理包括:
6.根據權利要求5所述的一種多層動態(tài)聚合的大語言模型驅動的函件文本分析方法,其特征在于,所述合并或拆分包括:
7.根據權利要求6所述的一種多層動態(tài)聚合的大語言模型驅動的函件文本分析方法,其特征在于,所述多任務訓練與主題融合包括:
8.根據權利要求1所述的一種多層動態(tài)聚合的大語言模型驅動的函件文本分析方法,其特征在于,所述構建動態(tài)橋接圖包括:
9.根據權利要求1所述的一種多層動態(tài)聚合的大語言模型驅動的函件文本分析方法,其特征在于,所述響應用戶查詢,將激活的文本塊內容拼接為上下文prompt輸入大語言模型,獲取一次性生成的回答包括:
10.根據權利要求1所述的一種多層動態(tài)聚合的大語言模型驅動的函件文本分析方法,其特征在于,所述更新所述橋接圖包括: