中文字幕s级优女区,欧美人人草,色综合九九,伊香蕉大综综综合久久,久久99精品久久久久久牛牛影视,国产成人综合久久,中文久草

一種基于雙目數(shù)據(jù)的BEV高程估計方法和系統(tǒng)

文檔序號:42592396發(fā)布日期:2025-07-29 17:45閱讀:14來源:國知局

本發(fā)明屬于計算機視覺與智能感知領域,更具體地,涉及一種基于雙目數(shù)據(jù)的bev(bird's?eye?view,鳥瞰視角)高程估計方法和系統(tǒng),特別適用于礦山推土場等復雜場景的地形高程估計任務。


背景技術:

1、在現(xiàn)有高程估計技術中,基于傳統(tǒng)視角(相機視角)的深度估計方法存在顯著缺陷:由于相機視角受限,難以準確清晰地捕捉道路表面的坑洼和不規(guī)則起伏;同時,基于單一視角的深度估計精度易受角度變化、地面傾斜等因素的影響,導致高程估計的準確性和穩(wěn)定性不足。

2、具體而言,傳統(tǒng)相機視角的深度估計存在以下問題:

3、·特征稀疏、不清晰:坑洼、不規(guī)則表面特征難以有效提取,使用的特征提取網(wǎng)絡mobilenet-v3堆疊的層數(shù)達到15層,導致特征提取速度慢,效率低;

4、·深度方向與高程方向不一致,導致深度估計偏差較大,影響高程估計得精度;

5、·精度易受視角變化影響,用于復雜地形條件時可靠性差。

6、由此可見,現(xiàn)有高程估計技術存在效率低、精度不高、用于復雜地形時可靠性差的技術問題。


技術實現(xiàn)思路

1、針對現(xiàn)有技術的以上缺陷或改進需求,本發(fā)明提供了一種基于雙目數(shù)據(jù)的bev高程估計方法和系統(tǒng),由此解決現(xiàn)有高程估計技術存在效率低、精度不高、用于復雜地形時可靠性差的技術問題。

2、為實現(xiàn)上述目的,按照本發(fā)明的一個方面,提供了一種基于雙目數(shù)據(jù)的bev高程估計方法,包括:

3、采集待估計場景的雙目圖像和imu數(shù)據(jù),輸入訓練好的感知模型,輸出場景的高程分類結果;

4、所述感知模型包括特征提取網(wǎng)絡和高程分類網(wǎng)絡,通過如下方式訓練得到:

5、采集場景的激光雷達點云數(shù)據(jù)、雙目圖像和imu數(shù)據(jù),利用激光雷達點云數(shù)據(jù)獲取場景的高程分類真實值;

6、將雙目圖像輸入特征提取網(wǎng)絡,提取視覺特征,利用imu數(shù)據(jù)將bev視角下的三維體素空間映射至雙目圖像,將三維體素空間中體素網(wǎng)格映射至雙目圖像的視覺特征融合,得到一致性體素特征,將一致性體素特征輸入高程分類網(wǎng)絡,將輸出的高程分類預測值與高程分類真實值之間的誤差作為損失函數(shù),反向傳播更新感知模型參數(shù),訓練至收斂,得到訓練好的感知模型。

7、優(yōu)選地,所述利用激光雷達點云數(shù)據(jù)獲取場景的高程分類真實值之前,

8、采用imu數(shù)據(jù)提供的旋轉矩陣與位移向量對雙目圖像進行姿態(tài)校正,通過激光雷達到相機的外參矩陣,將激光雷達坐標系下的激光雷達點云數(shù)據(jù)轉換到相機坐標系下,使得激光雷達點云數(shù)據(jù)與雙目圖像在像素級空間對齊。

9、優(yōu)選地,所述特征提取網(wǎng)絡包括litembconv模塊和卷積模塊,

10、所述litembconv模塊為mbconv結構,mbconv結構中的se通道注意力機制替換為低秩分組注意力機制,所述litembconv模塊的數(shù)量為多個,多個litembconv模塊對雙目圖像進行多尺度特征提取,除第一個litembconv模塊外的后續(xù)litembconv模塊提取的特征經(jīng)過插值上采樣后與第一個litembconv模塊提取的特征拼接,得到融合后的特征圖,卷積模塊對融合后的特征圖進行卷積,提取視覺特征。

11、優(yōu)選地,所述高程分類網(wǎng)絡包括:hourglass模塊和卷積模塊,

12、所述hourglass模塊用于通過下采樣和上采樣提取全局上下文特征,一致性體素特征經(jīng)過多個交叉布置的hourglass模塊和卷積模塊后線性插值得到高程分類的概率分布,對高程分類的概率分布進行softmax歸一化處理,得到高程分類預測值。

13、優(yōu)選地,所述hourglass模塊中嵌入混合注意力機制,混合注意力機制融合局部多頭自注意力與全局多頭自注意力,可以自適應強化關鍵區(qū)域特征,增強模型在崎嶇地形下的適應性。通過可學習的權重參數(shù)入融合局部特征和全局特征,所述融合過程的計算公式為:

14、attention=λ·lmsa(x)+(1-λ)·gmsa(x)

15、其中,attention表示融合后的注意力特征,λ表示可學習的權重參數(shù),用于自適應調整局部特征與全局特征的融合比例,lmsa(x)表示局部多頭自注意力從x中提取的局部特征,gmsa(x)表示全局多頭自注意力從x中提取的全局特征,x表示輸入的一致性體素特征。

16、優(yōu)選地,所述一致性體素特征通過如下方式得到:

17、在地面坐標系下建立bev視角下的三維體素空間,通過imu數(shù)據(jù)提供的旋轉矩陣和相機位置將三維體素空間從地面坐標系轉換至相機坐標系,利用相機內參將三維體素空間映射至圖像像素坐標系,形成三維體素空間中的體素網(wǎng)格與雙目圖像中的視覺特征的投影索引關系,利用投影索引關系提取一個體素網(wǎng)格在雙目圖像中對應的視覺特征,進行逐元素相乘,得到一致性體素特征。

18、優(yōu)選地,所述損失函數(shù)為:

19、

20、其中,lheight表示訓練過程中的總損失,m(vg)表示一致性體素特征所在的體素網(wǎng)格vg是否有效,一致性體素特征所在的體素網(wǎng)格vg的高程分類真實值在高程區(qū)間中,則體素網(wǎng)格有效,m(vg)=1,否則體素網(wǎng)格無效,m(vg)=0,e(c,vg)表示一致性體素特征所在的體素網(wǎng)格vg的高程分類真實值,c是類別編號,代表高程區(qū)間的編號,∑表示對所有有效體素網(wǎng)格vg和所有類別c進行求和,nc表示高程分類任務中類別的總數(shù),elepred(·,vg)為一致性體素特征所在的體素網(wǎng)格vg的高程分類預測值。

21、優(yōu)選地,所述高程分類真實值通過如下方式計算得到:

22、通過迭代最近點對連續(xù)多幀激光雷達點云數(shù)據(jù)進行配準融合,將融合后的激光雷達點云數(shù)據(jù)通過激光雷達到相機的外參矩陣映射到三維體素網(wǎng)格中,生成高程分類真實值。

23、按照本發(fā)明的另一方面,提供了一種基于雙目數(shù)據(jù)的bev高程估計系統(tǒng),包括:

24、預處理模塊,用于采集場景的激光雷達點云數(shù)據(jù)、雙目圖像和imu數(shù)據(jù),利用激光雷達點云數(shù)據(jù)獲取場景的高程分類真實值;

25、訓練模塊,用于將雙目圖像輸入特征提取網(wǎng)絡,提取視覺特征,利用imu數(shù)據(jù)將bev視角下的三維體素空間映射至雙目圖像,將三維體素空間中體素網(wǎng)格映射至雙目圖像的視覺特征融合,得到一致性體素特征,將一致性體素特征輸入高程分類網(wǎng)絡,將輸出的高程分類預測值與高程分類真實值之間的誤差作為損失函數(shù),反向傳播更新感知模型參數(shù),訓練至收斂,得到訓練好的感知模型;

26、高程估計模塊,用于采集待估計場景的雙目圖像和imu數(shù)據(jù),輸入訓練好的感知模型,輸出場景的高程分類結果。

27、按照本發(fā)明的另一方面,提供了一種計算機設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)一種基于雙目數(shù)據(jù)的bev高程估計方法。

28、總體而言,通過本發(fā)明所構思的以上技術方案與現(xiàn)有技術相比,能夠取得下列有益效果:

29、(1)本技術在訓練時使用激光雷達點云數(shù)據(jù)、雙目圖像和imu數(shù)據(jù),在實時估計時不需要激光雷達點云數(shù)據(jù),可以降低成本。本發(fā)明利用imu數(shù)據(jù)將bev視角下的三維體素空間映射至雙目圖像,以實現(xiàn)bev高程估計,將三維體素空間中體素網(wǎng)格映射至雙目圖像的視覺特征融合,能夠有效地抑制單側圖像誤匹配特征對高程估計的負面影響,進一步提升了模型在復雜場景中的穩(wěn)定性與可靠性。本發(fā)明使用訓練好的感知模型對待估計場景進行高程估計,效率高,同時直接使用高程估計,不進行深度估計,克服了傳統(tǒng)深度估計偏差較大的缺陷,提高了高程估計精度。這說明本發(fā)明提供了一種效率高、精度高、穩(wěn)定可靠的適用于復雜場景的bev高程估計方法。

30、(2)本發(fā)明采用imu數(shù)據(jù)提供的旋轉矩陣與位移向量對雙目圖像進行姿態(tài)校正,以避免由于相機震動或傾斜導致的圖像失真。接著,通過激光雷達到相機的外參矩陣,將激光雷達坐標系下獲取的三維點云數(shù)據(jù)轉換到與相機坐標系一致的位置,使得激光雷達點云數(shù)據(jù)與雙目圖像在像素級空間對齊,有效克服了傳統(tǒng)圖像視角高程估計中角度偏差大、特征稀疏、無法適應復雜地形等問題,顯著提高了高程估計的準確性與穩(wěn)定性,還可以有效降低后續(xù)特征提取過程中的誤差和不穩(wěn)定性。

31、(3)本發(fā)明在litembconv模塊的設計中,考慮到se模塊在輕量化網(wǎng)絡中計算開銷較大的缺點,將傳統(tǒng)mbconv結構中的se通道注意力機制替換為低秩分組注意力機制ulsam。這種結構優(yōu)化顯著降低了網(wǎng)絡參數(shù)量與計算復雜度,提升了網(wǎng)絡運行效率。本發(fā)明特征提取網(wǎng)絡是基于litembconv的輕量化多尺度特征提取網(wǎng)絡,除第一個litembconv模塊外的后續(xù)litembconv模塊提取的特征經(jīng)過插值上采樣后與第一個litembconv模塊提取的特征拼接,該結構在保持高效計算性能的同時,能夠充分融合不同尺度的空間層次信息,優(yōu)化對不同地形細節(jié)的捕捉能力,提升了雙目圖像在視差變化和紋理差異下的特征穩(wěn)定性與表達能力,特別適用于資源受限的邊緣設備和實時計算場景,在保證高程估計精度的同時顯著提高了模型的部署靈活性與實時處理能力。

32、(4)本發(fā)明在高程分類網(wǎng)絡中hourglass通過下采樣-上采樣過程實現(xiàn)不同空間尺度特征的整合。采用hourglass結構和全局-局部自注意力機制,使網(wǎng)絡能夠在輕量化條件下同時捕獲局部地形細節(jié)與全局場景結構特征,自適應強化關鍵區(qū)域特征,增強模型在崎嶇地形下的適應性,有效改善在陡坡、障礙物區(qū)域等復雜地形下的分類表現(xiàn),顯著提高了模型的高程分類性能與泛化能力。為實現(xiàn)最佳的局部與全局信息融合,本發(fā)明采用了可學習的參數(shù)λ,動態(tài)地調整局部與全局注意力的比例。這種設計有效地增強了模型對地形局部變化與全局結構特征的理解能力,大幅提高了模型的泛化性能與高程估計精度。

33、(5)完成二維特征提取后,為將二維的視覺特征準確地對應到三維空間位置,本發(fā)明利用三維體素空間中的體素網(wǎng)格與雙目圖像中的視覺特征的投影索引關系,提取體素網(wǎng)格在雙目圖像中對應的視覺特征,通過逐元素相乘的方式融合左右雙目圖像的二維特征,得到一致性體素特征,這一融合方式可以有效濾除由單側視圖帶來的誤匹配特征,突出左右視圖共同確認的穩(wěn)定特征,提高高程估計的準確性和魯棒性。

34、(6)為了實現(xiàn)高程估計任務的高效分類,本發(fā)明將連續(xù)的高程預測問題轉化為離散類別的分類問題,使用交叉熵損失函數(shù)對網(wǎng)絡進行監(jiān)督訓練。具體而言,通過網(wǎng)絡輸出的高程分類預測值與真實值之間的交叉熵損失進行模型優(yōu)化,從而快速高效地實現(xiàn)模型收斂。這種分類訓練方式在保證足夠高程精度的同時,可以顯著提高網(wǎng)絡模型的訓練速度和穩(wěn)定性,特別適合實時應用場景。

35、(7)由于單幀激光雷達數(shù)據(jù)存在稀疏的問題,本發(fā)明采用連續(xù)多幀點云數(shù)據(jù),利用icp(迭代最近點)算法對多幀點云進行配準融合,生成更高密度、更準確的高程真值數(shù)據(jù),為后續(xù)網(wǎng)絡模型的訓練提供可靠監(jiān)督信息提升了高程估計結果的準確性。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1