本申請涉及計(jì)算機(jī)技術(shù),尤其涉及一種音素預(yù)測的方法、裝置、電子設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及計(jì)算機(jī)程序產(chǎn)品。
背景技術(shù):
1、隨著計(jì)算機(jī)技術(shù)的發(fā)展,需要將文本轉(zhuǎn)換為音素的場景也越來越多,例如,在日常聊天場景,購物場景以及新聞播報(bào)等場景中需要使用到文本轉(zhuǎn)音素的技術(shù)。在相關(guān)技術(shù)中,文本轉(zhuǎn)音素的方式主要是從文本中直接提取出文本特征,將該文本特征輸入預(yù)測模型中,由預(yù)測模型輸出預(yù)測的音素,進(jìn)而實(shí)現(xiàn)文本轉(zhuǎn)音素的功能。
技術(shù)實(shí)現(xiàn)思路
1、本申請實(shí)施例提供一種音素預(yù)測的方法、裝置、電子設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及計(jì)算機(jī)程序產(chǎn)品,能夠提高預(yù)測出的音素的準(zhǔn)確率。
2、本申請實(shí)施例的技術(shù)方案是這樣實(shí)現(xiàn)的:
3、本申請實(shí)施例提供一種音素預(yù)測的方法,包括:
4、獲取待處理文本并對所述待處理文本進(jìn)行文本編碼處理,得到文本特征;
5、基于所述待處理文本構(gòu)建所述待處理文本的句法樹信息,并對所述句法樹信息進(jìn)行圖卷積處理,得到句法樹特征;
6、對所述句法樹特征以及所述文本特征進(jìn)行融合處理,得到融合編碼,并基于所述融合編碼確定所述待處理文本的音素。
7、本申請實(shí)施例提供一種語音合成的方法,包括:
8、獲取待處理文本,并對所述待處理文本執(zhí)行本申請實(shí)施例提供的音素預(yù)測的方法,得到所述待處理文本的音素;
9、基于所述待處理文本的音素輸出與所述待處理文本匹配的語音。
10、本申請實(shí)施例提供一種音素預(yù)測的裝置,包括:
11、文本編碼模塊,獲取待處理文本并對所述待處理文本進(jìn)行文本編碼處理,得到文本特征;
12、圖卷積模塊,用于基于所述待處理文本構(gòu)建所述待處理文本的句法樹信息,并對所述句法樹信息進(jìn)行圖卷積處理,得到句法樹特征;
13、融合處理模塊,用于對所述句法樹特征以及所述文本特征進(jìn)行融合處理,得到融合編碼,并基于所述融合編碼確定所述待處理文本的音素。
14、上述圖卷積模塊,還用于,基于所述句法樹信息構(gòu)建所述待處理文本的圖結(jié)構(gòu)信息;對所述圖結(jié)構(gòu)信息進(jìn)行編碼處理,得到句法樹編碼;調(diào)用圖神經(jīng)網(wǎng)絡(luò)對所述句法樹編碼進(jìn)行圖卷積處理,得到所述句法樹特征。
15、上述圖卷積模塊,還用于,從所述句法樹信息中提取n個(gè)詞語以及所述n個(gè)詞語之間的句法關(guān)系,n為大于等于1的整數(shù);將所述n個(gè)詞語作為詞語節(jié)點(diǎn)、所述句法關(guān)系作為關(guān)聯(lián)邊以構(gòu)建所述待處理文本的圖結(jié)構(gòu)信息。
16、上述圖卷積模塊,還用于,對所述圖結(jié)構(gòu)信息中的詞語節(jié)點(diǎn)進(jìn)行詞語編碼處理,得到詞語節(jié)點(diǎn)編碼;對所述圖結(jié)構(gòu)信息中的關(guān)聯(lián)邊進(jìn)行邊編碼處理,得到關(guān)聯(lián)邊編碼;將所述詞語節(jié)點(diǎn)編碼以及所述關(guān)聯(lián)邊編碼組成二維矩陣,并將所述二維矩陣作為所述句法樹編碼。
17、上述圖卷積模塊,還用于,對所述待處理文本進(jìn)行語句劃分處理,得到多個(gè)語句,并確定所述語句在所述待處理文本中的語句排位;基于所述語句排位確定所述語句對應(yīng)的詞語節(jié)點(diǎn)編碼以及關(guān)聯(lián)邊編碼在所述二維矩陣中的行位置信息;基于所述語句對應(yīng)的詞語節(jié)點(diǎn)編碼以及關(guān)聯(lián)邊編碼在所述語句中的邏輯順序,確定所述詞語節(jié)點(diǎn)編碼以及所述關(guān)聯(lián)邊編碼在所述二維矩陣中的列位置信息。
18、上述圖卷積模塊,還用于,通過所述圖神經(jīng)網(wǎng)絡(luò)的卷積核對所述二維矩陣進(jìn)行滑窗處理,得到多個(gè)具有相同尺寸的滑窗矩陣,其中,所述滑窗矩陣的尺寸與所述卷積核的尺寸相同;通過所述卷積核對每個(gè)所述滑窗矩陣中的編碼進(jìn)行圖卷積處理,得到每個(gè)所述滑窗矩陣的卷積值,其中,所述滑窗矩陣中的編碼包括所述詞語節(jié)點(diǎn)編碼以及所述關(guān)聯(lián)邊編碼中至少之一;基于所述滑窗矩陣在所述二維矩陣中的位置信息,將多個(gè)所述滑窗矩陣的卷積值組成所述句法樹特征。
19、上述文本編碼模塊,還用于,提取所述待處理文本的詞語的字母;基于字母編碼表,將所述詞語的字母映射為字母編碼,并按照所述詞語中的字母在所述詞語中的位置信息,排列所述字母對應(yīng)的字母編碼,得到所述詞語的詞語編碼;對所述詞語編碼進(jìn)行卷積處理,得到所述文本特征。
20、上述融合處理模塊,還用于,對所述融合編碼進(jìn)行解碼,得到所述融合編碼對應(yīng)的數(shù)字序列;基于音素映射表,將所述數(shù)字序列映射為音素序列,并將所述音素序列作為所述待處理文本的音素。
21、上述融合處理模塊,還用于,基于所述音素映射表對所述數(shù)字序列進(jìn)行映射處理,得到原始音素序列;從對照映射表中檢索所述待處理文本中的詞語的字母的無效音素;若所述原始音素序列包含所述無效音素,則在所述原始音素序列中剔除所述無效音素,得到所述音素序列。
22、本申請實(shí)施例提供一種語音合成的裝置,包括:
23、文本獲取模塊,用于獲取待處理文本,并對所述待處理文本執(zhí)行本申請實(shí)施例提供的音素預(yù)測的方法,得到所述待處理文本的音素;
24、語音輸出模塊,用于基于所述待處理文本的音素輸出與所述待處理文本匹配的語音。
25、本申請實(shí)施例提供一種電子設(shè)備,包括:
26、存儲(chǔ)器,用于存儲(chǔ)計(jì)算機(jī)可執(zhí)行指令或者計(jì)算機(jī)程序;
27、處理器,用于執(zhí)行所述存儲(chǔ)器中存儲(chǔ)的計(jì)算機(jī)可執(zhí)行指令或者計(jì)算機(jī)程序時(shí),實(shí)現(xiàn)本申請實(shí)施例提供的音素預(yù)測的方法,或?qū)崿F(xiàn)本申請實(shí)施例提供的語音合成的方法。
28、本申請實(shí)施例提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令或者計(jì)算機(jī)程序被處理器,用于引起處理器執(zhí)行時(shí),實(shí)現(xiàn)本申請實(shí)施例提供的音素預(yù)測的方法,或?qū)崿F(xiàn)本申請實(shí)施例提供的語音合成的方法。
29、本申請實(shí)施例提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)可執(zhí)行指令,所述計(jì)算機(jī)可執(zhí)行指令被處理器執(zhí)行時(shí),實(shí)現(xiàn)本申請實(shí)施例提供的音素預(yù)測的方法,或?qū)崿F(xiàn)本申請實(shí)施例提供的語音合成的方法。
30、本申請實(shí)施例具有以下有益效果:
31、獲取待處理文本,基于待處理文本構(gòu)建待處理文本對應(yīng)的句法樹,對句法樹進(jìn)行圖卷積處理,得到句法樹特征,之后可以對待處理文本進(jìn)行文本編碼處理,得到文本特征,對句法樹特征以及文本特征進(jìn)行融合處理,得到融合編碼,并基于融合編碼確定待處理文本的音素。由此可知,待處理文本的音素是基于待處理文本的文本特征和句法樹特征得到的,因此,在預(yù)測待處理文本的音素的過程中,兼顧文本特征以及句法樹特征,由于句法樹中包括待處理文本中的詞語和詞語之間的句法關(guān)系,相對應(yīng)的句法樹特征中也保留詞語和詞語之間的句法關(guān)系信息,即,句法樹特征中存在表征詞語與詞語之間的句法關(guān)系的信息,以使得通過融合句法樹特征以及文本特征得到的融合編碼能夠包括待處理文本更多的信息,進(jìn)而提高基于融合編碼得到的待處理文本的音素的準(zhǔn)確度。
1.一種音素預(yù)測的方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述句法樹信息進(jìn)行圖卷積處理,得到句法樹特征,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于所述句法樹信息構(gòu)建所述待處理文本的圖結(jié)構(gòu)信息,包括:
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對所述圖結(jié)構(gòu)信息進(jìn)行編碼處理,得到句法樹編碼,包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述將所述詞語節(jié)點(diǎn)編碼以及所述關(guān)聯(lián)邊編碼組成二維矩陣,包括:
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述調(diào)用圖神經(jīng)網(wǎng)絡(luò)對所述句法樹編碼進(jìn)行圖卷積處理,得到所述句法樹特征,包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述待處理文本進(jìn)行文本編碼處理,得到文本特征,包括:
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述融合編碼確定所述待處理文本的音素,包括:
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述基于音素映射表,將所述數(shù)字序列映射為音素序列,包括:
10.一種語音合成的方法,其特征在于,所述方法包括:
11.一種音素預(yù)測的裝置,其特征在于,所述裝置包括:
12.一種語音合成的裝置,其特征在于,所述方法包括:
13.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括:
14.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令或者計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)可執(zhí)行指令或者計(jì)算機(jī)程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)權(quán)利要求1至9任一項(xiàng)所述的音素預(yù)測方法,或?qū)崿F(xiàn)權(quán)利要求10所述的語音合成的方法。
15.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)可執(zhí)行指令,其特征在于,所述計(jì)算機(jī)可執(zhí)行指令被處理器執(zhí)行時(shí),實(shí)現(xiàn)權(quán)利要求1至9任一項(xiàng)所述的音素預(yù)測方法,或?qū)崿F(xiàn)權(quán)利要求10所述的語音合成的方法。