中文字幕s级优女区,欧美人人草,色综合九九,伊香蕉大综综综合久久,久久99精品久久久久久牛牛影视,国产成人综合久久,中文久草

一種基于PSO-GBDT-LR模型的咳嗽聲音識(shí)別方法

文檔序號(hào):42587989發(fā)布日期:2025-07-29 17:40閱讀:10來(lái)源:國(guó)知局

本發(fā)明涉及一種基于pso-gbdt-lr模型的咳嗽聲音識(shí)別方法,屬于信號(hào)識(shí)別。


背景技術(shù):

1、咳嗽是很多呼吸系統(tǒng)疾病的主要癥狀,如上呼吸道感染、支氣管炎和肺癌等。同時(shí),術(shù)后咳嗽也是多種胸外科手術(shù)的術(shù)后并發(fā)癥之一??人灶l率、強(qiáng)度等指標(biāo)與患者疾病的嚴(yán)重程度和患者術(shù)后身體情況相關(guān),因此可以將咳嗽作為衡量疾病情況,手術(shù)效果、患者術(shù)后康復(fù)情況的潛在指標(biāo)。傳統(tǒng)的咳嗽檢測(cè)方法通常依賴于醫(yī)生的聽診和經(jīng)驗(yàn)判斷和咳嗽評(píng)估量表,但這種方法在實(shí)際應(yīng)用中,過(guò)于依賴于患者的主觀感受,不同個(gè)體對(duì)咳嗽的頻率、強(qiáng)度、持續(xù)時(shí)間以及伴隨癥狀感受和描述可能存在差異,這可能導(dǎo)致評(píng)估結(jié)果的主觀性和不一致性。

2、近年來(lái),隨著生物醫(yī)學(xué)技術(shù)的不斷進(jìn)步,自動(dòng)咳嗽識(shí)別技術(shù)得到了快速發(fā)展。尤其在呼吸道傳染病流行期間擁有著高速發(fā)展的機(jī)遇。大量的學(xué)者嘗試基于通過(guò)生物醫(yī)學(xué)信號(hào)(如聲音、振動(dòng)、加速度、心電圖等),從這些信號(hào)中提取出能夠區(qū)分不同信號(hào)的特征,并使用這些特征通過(guò)構(gòu)建人工智能的模型,來(lái)量化甚至分類咳嗽事件的發(fā)生。這對(duì)咳嗽自動(dòng)識(shí)別的發(fā)展起到了很有效的幫助。使得咳嗽的監(jiān)測(cè)方法經(jīng)歷了從傳統(tǒng)聽診到信號(hào)處理及機(jī)器學(xué)習(xí)技術(shù)的演變。

3、音頻信號(hào)在諸多信號(hào)中具有穩(wěn)定性、精準(zhǔn)性,非侵入性等特性,并且易于采集和處理,在咳嗽檢測(cè)中具有諸多優(yōu)勢(shì)。因此對(duì)咳嗽音頻的識(shí)別是一種可以大規(guī)模投入使用的主流方法。在基于音頻信號(hào)識(shí)別技術(shù)的咳嗽監(jiān)測(cè)方法中,技術(shù)核心是提取聲學(xué)特征并構(gòu)建特征向量,然后用人工智能方法對(duì)特征進(jìn)行分類來(lái)識(shí)別咳嗽聲音。但是對(duì)于音頻也面臨音頻信號(hào)的多樣性、噪聲干擾以及不同個(gè)體之間的差異性等挑戰(zhàn)。為了解決對(duì)音頻信號(hào)進(jìn)行識(shí)別的問(wèn)題,有很多現(xiàn)有的成熟方法。例如使用梅爾倒譜系數(shù)(mfcc)特征或時(shí)域頻域特征來(lái)實(shí)現(xiàn)音頻的分類任務(wù)。對(duì)音頻分類的準(zhǔn)確性高度依賴于特征維度來(lái)尋求特征的獨(dú)特性和冗余度之間的平衡。過(guò)少的特征往往會(huì)導(dǎo)致對(duì)模型預(yù)測(cè)貢獻(xiàn)度高的特征缺失,而過(guò)多的特征可能會(huì)導(dǎo)致很多對(duì)模型性能沒有貢獻(xiàn)的特征過(guò)多。而確定最佳特征是一項(xiàng)復(fù)雜而耗時(shí)的工作。

4、同時(shí),在咳嗽音頻信號(hào)采集的過(guò)程中,往往是在復(fù)雜環(huán)境中進(jìn)行的。其中非咳嗽聲音包含各種各樣的聲音,比如儀器聲,說(shuō)話聲,清嗓子聲等。同時(shí),不同的人群會(huì)發(fā)出能量有強(qiáng)有弱,音調(diào)有高有低的咳嗽。以上情況會(huì)在聲音樣本特征數(shù)據(jù)中引入很多異常值和噪聲,降低特征的純凈度。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明針對(duì)于實(shí)現(xiàn)咳嗽的量化,解決咳嗽聲音識(shí)別過(guò)程中聲音數(shù)據(jù)噪聲特征過(guò)多和異常特征的問(wèn)題,提出了一種基于pso-gbdt-lr模型的咳嗽聲音識(shí)別方法,通過(guò)更準(zhǔn)確地區(qū)分咳嗽音和非咳嗽音來(lái)量化咳嗽。

2、本發(fā)明采用的技術(shù)方案是:一種基于pso-gbdt-lr模型的咳嗽聲音識(shí)別方法,包括如下步驟:

3、步驟1:采集音頻信號(hào);

4、步驟2:使用berouti譜減法對(duì)音頻信號(hào)進(jìn)行去噪,獲得去噪后的音頻信號(hào);

5、步驟3:音頻事件檢測(cè)vad,對(duì)去噪后的音頻信號(hào)中出現(xiàn)聲音的部分進(jìn)行分割,得到單獨(dú)的音頻樣本;

6、步驟4:對(duì)步驟3分割出的每個(gè)音頻樣本,提取7維時(shí)域特征;

7、步驟5:對(duì)步驟3分割出每個(gè)音頻樣本進(jìn)行短時(shí)傅里葉變換stft,從頻譜中提取2維頻域特征;

8、步驟6:將步驟4提取到的7維時(shí)域特征和步驟5提取到的2維頻域特征組合,形成9維特征向量組合;

9、步驟7:對(duì)步驟3中得到的所有音頻樣本進(jìn)行標(biāo)記,將咳嗽音頻樣本的特征向量標(biāo)記為1類,非咳嗽音頻樣本的特征向量記為0類;

10、步驟8:建立分類模型;

11、步驟9:gbdt-lr模型評(píng)估;

12、步驟10:將1-accuracy作為優(yōu)化目標(biāo),將決策樹n_estimators、學(xué)習(xí)率learning_rate、最大深度max_depth、最大迭代次數(shù)max_iter作為gbdt-lr模型的待優(yōu)化參數(shù),采用粒子群優(yōu)化算法pso調(diào)整超參數(shù)的值,以實(shí)現(xiàn)1-accuracy的最小化。

13、步驟1具體為:將音頻采集設(shè)備的麥克風(fēng)夾持在衣領(lǐng)上,保證距離口腔30厘米的范圍內(nèi),保存采集后的音頻信號(hào)。

14、步驟2具體為:

15、步驟2.1:將原始音頻信號(hào)分幀,假設(shè)音頻信號(hào)的前幾幀只有背景音,則對(duì)前幾幀進(jìn)行短時(shí)傅里葉變換stft,計(jì)算噪聲譜的平均值得到平均噪聲譜

16、步驟2.2:對(duì)原始音頻信號(hào)的每一幀都進(jìn)行短時(shí)傅里葉變換,得到原始音頻的信號(hào)譜y(ω);

17、步驟2.3:用原始音頻的信號(hào)譜y(ω)減去平均噪聲譜得到去噪后的信號(hào)譜

18、步驟2.4:通過(guò)對(duì)進(jìn)行逆傅里葉變換重構(gòu)時(shí)域信號(hào),重構(gòu)后的時(shí)域信號(hào)即為去噪后的音頻信號(hào)。

19、步驟3具體為:

20、步驟3.1計(jì)算去噪后音頻信號(hào)每幀的短時(shí)能量和短時(shí)過(guò)零率,得到短時(shí)過(guò)零率和短時(shí)能量的離散值,這些離散值被平滑處理,得到包絡(luò)曲線;

21、步驟3.2假設(shè)初始靜音段干凈穩(wěn)定,將靜音段的平均短時(shí)能量和平均短時(shí)過(guò)零率分別與經(jīng)驗(yàn)系數(shù)相乘,得到短時(shí)能量閾值和短時(shí)過(guò)零率閾值;

22、步驟3.3計(jì)算短時(shí)能量閾值與包絡(luò)線的交點(diǎn),確定兩邊低中間高的區(qū)域,得到語(yǔ)音起點(diǎn)和終點(diǎn)的粗略值;

23、步驟3.4從粗略起點(diǎn)向前搜索,粗略終點(diǎn)向后搜索,計(jì)算短時(shí)過(guò)零率包絡(luò)線與短時(shí)過(guò)零率閾值的交點(diǎn),得到精確起始點(diǎn)和精確結(jié)束點(diǎn),通過(guò)精確起始點(diǎn)和精確結(jié)束點(diǎn),對(duì)去噪后音頻信號(hào)中出現(xiàn)明顯聲音的部分進(jìn)行分割。

24、步驟4中提取的時(shí)域特征為:

25、最大值:max(s)

26、其中,s是分割出的音頻樣本信號(hào)的樣本值序列;

27、能量:

28、其中,si是分割出的音頻樣本信號(hào)第i個(gè)樣本值,n是采樣點(diǎn)的數(shù)量,下同;

29、均值:

30、方差

31、其中,μ是均值,下同;

32、偏度:

33、其中,σ是標(biāo)準(zhǔn)差,下同;

34、峭度:

35、峰值因子:

36、其中,mean是均值。

37、步驟5中提取的頻域特征為:

38、頻譜質(zhì)心:

39、其中,f是頻率,s(f)在f處的功率譜密度;

40、頻譜平坦度:

41、其中,xy是是分割出的音頻樣本信號(hào)在第y個(gè)頻域中的幅值,n是頻域的采樣數(shù)。

42、步驟8具體為:

43、步驟8.1:將標(biāo)記好的特征向量組合作為訓(xùn)練集輸入到gbdt模型;

44、gbdt使用損失函數(shù)的負(fù)梯度作為殘差的近似值,使用gbdt進(jìn)行二分類時(shí),損失函數(shù)為對(duì)數(shù)似然函數(shù)

45、

46、其中yi為第i個(gè)樣本的真實(shí)標(biāo)簽(0或1),為gbdt對(duì)第i個(gè)樣本的預(yù)測(cè)概率,殘差為rz,i,是對(duì)損失函數(shù)求負(fù)梯度,公式如下所示:

47、

48、其中,為gbdt在z-1次迭代中對(duì)樣本的預(yù)測(cè)值,訓(xùn)練好的gbdt會(huì)為每個(gè)樣本落在每棵樹上的位置生成葉子節(jié)點(diǎn)索引;

49、步驟8.2:每個(gè)樣本生成的葉子節(jié)點(diǎn)索引都被進(jìn)行one-hot編碼;

50、步驟8.3:每個(gè)樣本進(jìn)行one-hot編碼后的數(shù)據(jù),與原始的9維特征向量組合合并;

51、步驟8.4:將合并后的特征向量輸入到邏輯回歸lr模型中進(jìn)行訓(xùn)練,得到gbdt-lr模型;

52、在lr模型中,(的值介于0和1之間)是一個(gè)sigmoid函數(shù),sigmoid函數(shù)用于表示二元分類的概率,如果超過(guò)0.5,則將樣本歸類為正類,否則就歸為負(fù)類,z=w·xt+b=w1x1+w2x2+…+wnxn+b是線性組合,其中為輸入特征向量,為權(quán)重向量,b為偏置量,該模型的核心思想是利用梯度下降法對(duì)w和b進(jìn)行迭代更新,使損失函數(shù)j(w,b)最小化,對(duì)于二分類問(wèn)題,損失函數(shù)定義為:

53、

54、其中yi為第i個(gè)樣本的真實(shí)標(biāo)簽(0或1),為lr對(duì)第i個(gè)樣本的預(yù)測(cè)概率,m為樣本總數(shù);

55、步驟8.5:將訓(xùn)練好的gbdt-lr模型,對(duì)測(cè)試集樣本的9維特征向量進(jìn)行驗(yàn)證,得到準(zhǔn)確率accuracy。

56、步驟9具體為:

57、在醫(yī)院、宿舍和實(shí)驗(yàn)室為不同的受試者分配設(shè)備進(jìn)行數(shù)據(jù)采集,該數(shù)據(jù)集包含約270個(gè)咳嗽事件和290個(gè)非咳嗽事件,受試者在正常工作和生活時(shí)隨機(jī)咳嗽、呼氣、清喉嚨和說(shuō)話,為了盡可能清晰地收集信號(hào),麥克風(fēng)放置在距離口腔30厘米的范圍內(nèi),夾在衣領(lǐng)上;

58、為了評(píng)價(jià)咳嗽識(shí)別模型的性能,將“預(yù)測(cè)為咳嗽的咳嗽樣本”定義為真陽(yáng)性tp,將“預(yù)測(cè)為非咳嗽的咳嗽樣本”定義為假陰性fn,將“預(yù)測(cè)為非咳嗽的非咳嗽樣本”定義為真陰性tn,將“預(yù)測(cè)為咳嗽的非咳嗽樣本”定義為假陽(yáng)性fp,并將準(zhǔn)確率accuracy、精度precision、召回率recall和f1作為評(píng)價(jià)指標(biāo);

59、

60、準(zhǔn)確率accuracy表示模型識(shí)別總樣本的能力,是模型性能的總體表征;

61、

62、精度precision表示模型對(duì)假陽(yáng)性的控制能力,在咳嗽監(jiān)測(cè)中,準(zhǔn)確度高意味著誤判少;

63、

64、召回率recall表示模型中識(shí)別陽(yáng)性樣本的比例,在咳嗽監(jiān)測(cè)中,高靈敏度意味著更少的漏診:

65、

66、f1評(píng)分是precision和recall的調(diào)和平均值,它反映了模型在類別數(shù)量不平衡的數(shù)據(jù)集中的性能;

67、接收者操作特征曲線roc和曲線下面積auc來(lái)評(píng)估模型的分類性能,roc曲線以真陽(yáng)性率tpr為縱軸,假陽(yáng)性率fpr為橫軸繪制,auc的取值范圍是0~1。

68、步驟10中pso算法的參數(shù)如下:w為0.8,c1和c2為1,到達(dá)40次迭代自動(dòng)退出循環(huán),其中w為慣性權(quán)值,c1和c2是學(xué)習(xí)因子,分別代表個(gè)體學(xué)習(xí)能力和群體學(xué)習(xí)能力。

69、本發(fā)明的有益效果是:

70、(1)本發(fā)明通過(guò)對(duì)音頻信號(hào)實(shí)現(xiàn)去噪,大幅提升了音頻信號(hào)的信噪比,不僅提升了音頻信號(hào)的信噪比,降低了噪聲對(duì)特征提取的干擾。同時(shí),提升了事件檢測(cè)(vad)的精度。

71、(2)本發(fā)明僅使用了共9維特征和270個(gè)咳嗽和290個(gè)非咳嗽樣本,可以較為精確的區(qū)分咳嗽與非咳嗽聲音,同時(shí)避免了使用mfcc復(fù)雜的調(diào)參過(guò)程,并且不需要提取mfcc特征過(guò)程中,預(yù)加重,分幀,加窗,濾波等操作。整個(gè)方法流程中,可以實(shí)現(xiàn)計(jì)算量小,樣本容量小的優(yōu)點(diǎn)。

72、(3)本發(fā)明通過(guò)融合gbdt和lr,結(jié)合了gbdt特征學(xué)習(xí)能力強(qiáng)和lr處理異常值和噪聲數(shù)據(jù)時(shí)更加穩(wěn)健且不易過(guò)擬合的優(yōu)點(diǎn)。不僅可以精確區(qū)分咳嗽與非咳嗽聲音的特征,還有較強(qiáng)的泛化能力。使得模型在新數(shù)據(jù)上表現(xiàn)同樣出色。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1