中文字幕s级优女区,欧美人人草,色综合九九,伊香蕉大综综综合久久,久久99精品久久久久久牛牛影视,国产成人综合久久,中文久草

一種人形機(jī)器人擬人奔跑動(dòng)作的控制方法與流程

文檔序號(hào):42592022發(fā)布日期:2025-07-29 17:44閱讀:12來源:國知局

本發(fā)明涉及機(jī)器人,具體為一種人形機(jī)器人擬人奔跑動(dòng)作的控制方法。


背景技術(shù):

1、人形機(jī)器人奔跑動(dòng)作的設(shè)計(jì)和控制一直是機(jī)器人控制領(lǐng)域的重要課題。相比于步行,奔跑具有更復(fù)雜的動(dòng)力學(xué)特征,包括非對(duì)稱的接觸模式、短暫的飛行相、快速重心轉(zhuǎn)換等。傳統(tǒng)方法多采用有限狀態(tài)機(jī)與簡單步態(tài)生成器結(jié)合,無法充分再現(xiàn)人類奔跑中的節(jié)能、對(duì)稱和平穩(wěn)等特性,限制了機(jī)器人在復(fù)雜環(huán)境下的機(jī)動(dòng)性與魯棒性。

2、近年來,模仿學(xué)習(xí)(imitation?learning)和強(qiáng)化學(xué)習(xí)(reinforcement?learning,rl)的興起,為機(jī)器人自然運(yùn)動(dòng)控制帶來了新機(jī)遇。然而,如何構(gòu)造精確的參考軌跡、有效地表達(dá)接觸模式、設(shè)計(jì)穩(wěn)定的學(xué)習(xí)結(jié)構(gòu),仍是擬人奔跑控制研究中的關(guān)鍵難點(diǎn)。

3、因此,如何從人類動(dòng)作中提取高質(zhì)量、可泛化的奔跑參考軌跡,并在此基礎(chǔ)上設(shè)計(jì)一套穩(wěn)定有效的控制策略,使人形機(jī)器人能夠?qū)崿F(xiàn)具有自然對(duì)稱性和節(jié)能特性的奔跑動(dòng)作是當(dāng)前亟需解決的技術(shù)問題,具體如下:

4、1、奔跑中的復(fù)雜接觸狀態(tài)如何建模與表達(dá)。

5、2、奔跑軌跡存在非對(duì)稱性,如何進(jìn)行時(shí)空對(duì)稱化處理。

6、3、強(qiáng)化學(xué)習(xí)中如何融合模仿目標(biāo)與機(jī)器狀態(tài)約束,確保訓(xùn)練穩(wěn)定性。

7、4、控制策略如何實(shí)現(xiàn)對(duì)接觸模式的隱式學(xué)習(xí)與泛化。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提出了一種人形機(jī)器人擬人奔跑動(dòng)作的控制方法,旨在控制機(jī)器人在模仿人類奔跑動(dòng)作的同時(shí)進(jìn)行抗擾能力較強(qiáng)、動(dòng)力學(xué)合理性較高且在多個(gè)維度上接近最優(yōu)解的擬人奔跑動(dòng)作。

2、為實(shí)現(xiàn)上述目的,本發(fā)明采取的技術(shù)方案是:

3、一種人形機(jī)器人擬人奔跑動(dòng)作的控制方法,其特征在于:包括如下步驟:

4、s1、人類專家奔跑動(dòng)作分析

5、s2、擬人奔跑參考軌跡生成

6、s21、機(jī)器人擬人奔跑動(dòng)作建模和關(guān)鍵幀設(shè)計(jì),

7、s22、關(guān)鍵幀序列對(duì)稱化處理、關(guān)鍵幀序列位置速度力矩軌跡插值以及關(guān)鍵幀序列姿態(tài)軌跡插值,

8、s23、得到擬人奔跑參考軌跡,

9、s24、對(duì)指令擴(kuò)展生成擬人奔跑軌跡庫;

10、s3、基于參考軌跡庫的強(qiáng)化模仿學(xué)習(xí)

11、s31、強(qiáng)化模仿學(xué)習(xí)框架設(shè)計(jì),包括非對(duì)稱ac網(wǎng)絡(luò)機(jī)構(gòu)設(shè)計(jì)、基于分層遞進(jìn)的強(qiáng)化模仿學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)以及近端策略優(yōu)化的強(qiáng)化學(xué)習(xí)優(yōu)化方法,

12、s32、得到機(jī)器人擬人奔跑策略網(wǎng)絡(luò);

13、s4、擬人奔跑控制策略實(shí)機(jī)部署

14、s41、策略網(wǎng)絡(luò)輸入輸出接入真機(jī)程序,接收傳感信息、生成控制指令,

15、s42、pvt-pd關(guān)節(jié)電機(jī)控制;

16、s5、實(shí)現(xiàn)機(jī)器人擬人奔跑動(dòng)作控制。

17、作為本發(fā)明的優(yōu)選技術(shù)方案:步驟s21具體如下:

18、將人類專家奔跑動(dòng)作視頻逐幀標(biāo)注腳掌與地面的接觸狀態(tài),并定義基本接觸類型,

19、每一幀構(gòu)成左右腳接觸組合:

20、ct=(left,right)

21、共16種狀態(tài),提取周期性模板序列:

22、{lfc-rff,ltc-rff,lff-rff,lff-rhc,lff-rfc,lff-rtc,lff-rff,lhc-rff}

23、為每一幀i賦予時(shí)間戳ti與狀態(tài)ki=(pi,qi,ci)。

24、作為本發(fā)明的優(yōu)選技術(shù)方案:在步驟s22中,關(guān)鍵幀序列對(duì)稱化處理具體如下:

25、設(shè)原始關(guān)鍵幀序列為

26、{k1,k2,...,kn}

27、鏡像變換定義為:

28、

29、對(duì)所有鏡像關(guān)鍵幀與原始關(guān)鍵幀做接觸狀態(tài)匹配,對(duì)原始關(guān)鍵幀和鏡像關(guān)鍵幀中相同接觸狀態(tài)的關(guān)鍵幀數(shù)據(jù)做等權(quán)平均,得到對(duì)稱化處理后的關(guān)鍵幀序列:

30、

31、作為本發(fā)明的優(yōu)選技術(shù)方案:在步驟s22中,關(guān)鍵幀序列位置速度力矩軌跡插值具體如下:

32、對(duì)得到的關(guān)鍵幀序列通過時(shí)間插值的方法構(gòu)建連續(xù)的參考軌跡tref(t),每一個(gè)關(guān)鍵幀包含了浮動(dòng)基的位置pi∈r3、姿態(tài)四元數(shù)qi∈s3以及關(guān)節(jié)角信息,為了生成時(shí)序連續(xù)、光滑的參考軌跡,對(duì)不同類型的變量采用不同的插值方法,

33、關(guān)鍵幀中的位置信息包括浮動(dòng)基的位置和關(guān)節(jié)位置,這些信息之間各個(gè)維度數(shù)據(jù)無相關(guān)性,因此使用三次樣條對(duì)每個(gè)維度進(jìn)行插值。

34、作為本發(fā)明的優(yōu)選技術(shù)方案:在步驟s22中,關(guān)鍵幀序列姿態(tài)軌跡插值具體如下:

35、由于姿態(tài)采用單位四元數(shù)qi∈s3表示,插值時(shí)必須保持在單位球面上,因此使用球面線性插值進(jìn)行處理,具體如下:

36、在兩個(gè)相鄰的四元數(shù)qi和qi+1之間,slerp插值公式如下:

37、

38、其中:

39、θ=cos-1(qi·qi+1)表示兩四元數(shù)之間的夾角;

40、α∈[0,1]是歸一化時(shí)間比例;

41、插值結(jié)果q(t)始終保持在s3單位四元數(shù)空間上,確保旋轉(zhuǎn)平滑連續(xù)。

42、作為本發(fā)明的優(yōu)選技術(shù)方案:在步驟s23中,通過對(duì)所有關(guān)鍵幀的平移、旋轉(zhuǎn)部分分別插值,定義連續(xù)的參考軌跡:

43、

44、對(duì)步驟s23中得到的不同指令下的參考軌跡進(jìn)行擴(kuò)展,得到參考奔跑軌跡庫

45、

46、作為本發(fā)明的優(yōu)選技術(shù)方案:在步驟s31中,非對(duì)稱ac網(wǎng)絡(luò)機(jī)構(gòu)設(shè)計(jì)具體如下:

47、采用非對(duì)稱actor-critic網(wǎng)絡(luò)結(jié)構(gòu),其中:

48、策略網(wǎng)絡(luò)πθ(a∨s)輸出每步動(dòng)作

49、價(jià)值網(wǎng)絡(luò)評(píng)估狀態(tài)的回報(bào)

50、輸入狀態(tài):

51、

52、其中,為接觸模式的one-hot編碼,

53、目標(biāo)為最大化期望回報(bào):

54、

55、作為本發(fā)明的優(yōu)選技術(shù)方案:在步驟s31中,基于分層遞進(jìn)的強(qiáng)化模仿學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)具體如下:

56、分層reward函數(shù)設(shè)計(jì)

57、reward設(shè)計(jì)為四層嵌套結(jié)構(gòu):

58、安全性reward?rsafe:

59、rsafe=w1·exp(-||τt||2)+w2·1not?falling

60、正則化reward?rregular:

61、

62、指令跟隨reward?rcmd:

63、

64、模仿reward?rmimic:

65、

66、最終組合reward:

67、rtotal=rsafe+σ(rsafe)·(rregular+σ(rregular)·(rcmd+σ(rcmd)·rmimic))

68、其中,為sigmoid函數(shù)。

69、作為本發(fā)明的優(yōu)選技術(shù)方案:在步驟s31中,近端策略優(yōu)化的強(qiáng)化學(xué)習(xí)優(yōu)化方法具體如下:

70、采用proximal?policy?optimization算法進(jìn)行策略優(yōu)化:

71、策略目標(biāo)函數(shù):

72、

73、其中:

74、

75、為廣義優(yōu)勢估計(jì)

76、訓(xùn)練后導(dǎo)出模型πθ,部署至真實(shí)機(jī)器人控制器中,即可實(shí)現(xiàn)仿人奔跑。

77、作為本發(fā)明的優(yōu)選技術(shù)方案:在步驟s41中,pvt-pd關(guān)節(jié)電機(jī)控制具體如下:

78、底層電機(jī)控制采用pd控制,輸出為純力矩控制,力矩指令直接發(fā)送給電機(jī)執(zhí)行,

79、

80、其中kp為比例反饋系數(shù),qmea為測量關(guān)節(jié)位置,qdes為期望關(guān)節(jié)位置,kd為微分反饋系數(shù),為測量關(guān)節(jié)速度。

81、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:

82、1、引入接觸模式與鏡像處理實(shí)現(xiàn)高度對(duì)稱的擬人奔跑;

83、2、關(guān)鍵幀生成機(jī)制與插值方法保障軌跡的時(shí)空連續(xù)性;

84、3、reward層次結(jié)構(gòu)提高訓(xùn)練穩(wěn)定性與多目標(biāo)平衡;

85、4、ppo+ac強(qiáng)化模仿學(xué)習(xí)較傳統(tǒng)基于模型的控制大幅提高機(jī)器人抗干擾能力,使機(jī)器人克服模型準(zhǔn)確性不足的問題,適用于真機(jī)部署;

86、5、支持輸入任意速度指令實(shí)現(xiàn)在線奔跑控制。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1