機(jī)器人的技術(shù)創(chuàng)新任務(wù)主要在于人形機(jī)器人關(guān)鍵技術(shù)的突破,其中在人形機(jī)機(jī)器人本體上的重要技術(shù)任務(wù)在于開發(fā)基于人工智能大模型的人形機(jī)器人“大腦”與
開發(fā)控制人形機(jī)器人運(yùn)動(dòng)的“小腦”。大模型作為最爆火的人工智能概念,推動(dòng)了人形機(jī)器人大腦的形成,助力人形機(jī)器人具有人的感知、交互與決策能力;對(duì)
于控制系統(tǒng)仍在切入中。
感知、交互與決策
多模態(tài)大模型增強(qiáng)人機(jī)交互,實(shí)現(xiàn)
對(duì)人類意圖的理解,對(duì)復(fù)雜外部環(huán)
境的理解與認(rèn)知,助力形成決策:
大模型可直接用于對(duì)環(huán)境的理解, 并通過提示詞使之輸出結(jié)構(gòu)化內(nèi)
容如控制代碼、任務(wù)分解等指令
利用多模態(tài)大模型對(duì)環(huán)境進(jìn)行建
模, 實(shí)現(xiàn)具身智能對(duì)空間信息的
多模態(tài)理解
機(jī)器人能夠從數(shù)據(jù)中學(xué)習(xí)決策與
規(guī)劃策略,基礎(chǔ)模型為機(jī)器人決
策與規(guī)劃引入了豐富的先驗(yàn)知識(shí)。
控制
大模型在控制上的助力主要集中于大模型處理環(huán)境觀察與提示,輸出動(dòng)作序
列,動(dòng)作序列可以是一系列關(guān)節(jié)角度或末端執(zhí)行器的位姿與夾爪開合數(shù)據(jù),
這些序列將直接用于控制機(jī)器人的運(yùn)動(dòng)。
原生機(jī)器人大模型ERA-42, 展示了與自研五指靈巧手星動(dòng)XHAND1 結(jié)合后的靈巧操作能力,能夠完成超過100種復(fù)雜靈巧的 操作任務(wù),是真正的具身大模型
普渡機(jī)器人提出了 Robot-to-Everything 架構(gòu),實(shí)現(xiàn)萬(wàn)物互聯(lián),全場(chǎng)景的智能生態(tài);率先完成了專用、類人形、人形三類機(jī) 器人的完整產(chǎn)品布局
機(jī)器人像人一樣使用工具的靈巧手,是提升機(jī)器人柔性操作能力的關(guān)鍵部件,是柔性制造避不開的一環(huán);靈巧手工程量占據(jù)Optimus工程量的50%,靈巧手是機(jī)器人走向“好用”的關(guān)鍵
欠驅(qū)動(dòng)手硬件集成度高,整體系統(tǒng)簡(jiǎn)潔高效、體積小、質(zhì)量輕,便于進(jìn)行動(dòng)力學(xué)分析;存在功能性不足,對(duì)于精度要求比較高的手指精巧控制無(wú)法勝任
具有完全可重復(fù)的運(yùn)動(dòng)軌跡,適合某些功能性和精細(xì)操作較高的場(chǎng)合,在工業(yè)場(chǎng)合, 例如組裝、測(cè)量等情況下有更好的表現(xiàn),沒有合理的運(yùn)動(dòng)學(xué)分析控制時(shí),整體的靈活性差
機(jī)器人的觸感靈巧手Linker Hand具備20個(gè)主動(dòng)自由度,包括柔性電子皮膚,實(shí)現(xiàn)精細(xì)觸覺感知,構(gòu)建全球最大的靈巧操作數(shù)據(jù)集,包含了大量的人手操作數(shù)據(jù),覆蓋了各 種復(fù)雜的抓取和操作任務(wù)
當(dāng)人們認(rèn)為機(jī)器人是有意圖的代理時(shí),他們的大腦以類似的方式處理自己和機(jī)器人的行動(dòng)結(jié)果,意圖歸因在人機(jī)交互中起著至關(guān)重要的作用,可能包括通過言語(yǔ)指令等非交互性手段來(lái)調(diào)整人們對(duì)機(jī)器人意圖的感知
移動(dòng)機(jī)器人系統(tǒng)用于解決探索性化學(xué)中的三個(gè)主要問題以及根據(jù)數(shù)據(jù)決定下一步做什么,移動(dòng)機(jī)器人做出與人類研究人員相同或相似的決定比人類快得多
大模型可加快人形機(jī)器人復(fù)雜任務(wù)訓(xùn)練速度,提升任務(wù)生成速度及縮短理解周期;1 提升人形機(jī)器人語(yǔ)言處理能力 2 提升人形機(jī)器人場(chǎng)景理解能力 3 提升人形機(jī)器人運(yùn)動(dòng)控制能力 4 提升人形機(jī)器人數(shù)據(jù)訓(xùn)練能力
NLP 大模型在語(yǔ)言的歧義、文化差異及多樣化、情感分析困難;CV 大模型算法處理復(fù)雜;多模態(tài)大模型融合不同模態(tài)的信息并提高模型的標(biāo)識(shí)能力
NLP 大模型是人工智能領(lǐng)域的重要研究方向,CV大模型是指基于深度學(xué)習(xí)的計(jì)算機(jī)視覺模型,多模態(tài)大模型是指將文本、圖像、視頻、音頻等多模態(tài)信息聯(lián)合起來(lái)進(jìn)行訓(xùn)練的模型
機(jī)器人大腦提高人形機(jī)器人的人-機(jī)-環(huán)境共融交互能力,支撐全場(chǎng)景落地應(yīng)用;機(jī)器人小腦提升人形機(jī)器人非 結(jié)構(gòu)化環(huán)境下全身協(xié)調(diào)魯棒移動(dòng)、靈巧操作及人機(jī)交互能力