創(chuàng)澤機(jī)器人
CHUANGZE ROBOT
當(dāng)前位置:首頁 > 新聞資訊 > 機(jī)器人開發(fā) > 大模型在機(jī)器人領(lǐng)域研究與應(yīng)用案例匯總

大模型在機(jī)器人領(lǐng)域研究與應(yīng)用案例匯總

來源:高工機(jī)器人     編輯:創(chuàng)澤   時(shí)間:2024/10/17   主題:其他 [加盟]

目前大模型技術(shù)已從單純的大語言模型(LLM)發(fā)展到圖像-語言多模態(tài)模型(VLM)乃 至圖像-語言-動(dòng)作多模態(tài)模型(VLA),其中圖像-語言-動(dòng)作多模態(tài)模型(VLA)的推出,實(shí) 現(xiàn)了數(shù)據(jù)與處理任務(wù)的躍升。從文本到圖像再到現(xiàn)實(shí)世界,大模型的數(shù)據(jù)模態(tài)逐漸豐富,數(shù) 據(jù)規(guī)模的數(shù)量級(jí)迅速增長(zhǎng),大模型的應(yīng)用場(chǎng)景和價(jià)值量也成比例擴(kuò)張。

在人形機(jī)器人領(lǐng)域,AI 大模型將會(huì)從感知(語音、視覺)、決策、控制等多方面與人形 機(jī)器人結(jié)合,形成感知、決策、控制閉環(huán),提升機(jī)器人的智能水平。

未來人形機(jī)器人大模型的方向?qū)?huì)是感知-決策-控制一體化的端到端通用大模型,集合 大規(guī)模數(shù)據(jù)集管理、云邊端一體計(jì)算架構(gòu)、多模態(tài)感知與環(huán)境建模等技術(shù)。

1 微軟 ChatGPT

在機(jī)器人領(lǐng)域的應(yīng)用主要體現(xiàn)在兩個(gè)方面:自然語言交互和自動(dòng)化決 策。在自然語言方面,機(jī)器人可以通過 ChatGPT 來理解人類的自然語 言指令,并根據(jù)指令進(jìn)行相應(yīng)的動(dòng)作;在自動(dòng)化決策方面,機(jī)器人可以 通過 ChatGPT 來生成任務(wù)方案,根據(jù)任務(wù)要求做出相應(yīng)的決策。

柏林工業(yè)大學(xué)和 Google Robotics 團(tuán)隊(duì) PaLM-E

是最大的多模態(tài)視覺語言模型,在 PaLM 模型基礎(chǔ)上,引入了具身化和 多模態(tài)概念,實(shí)現(xiàn)了指導(dǎo)現(xiàn)實(shí)世界機(jī)器人完成相應(yīng)任務(wù)的功能。

2 谷歌 RT-2

全球第一個(gè)控制機(jī)器人的視覺-語言-動(dòng)作(Vision-Language-Action, VLA)模型,通過將 VLM 預(yù)訓(xùn)練與機(jī)器人數(shù)據(jù)相結(jié)合,能夠端到端直接 輸出機(jī)器人的控制。

斯坦福大學(xué)李飛飛團(tuán)隊(duì) VoxPoser

智能系統(tǒng) VoxPose 可以從大模型 LLM 和視覺語言模型 VLM 中提取可行 性和約束,以構(gòu)建 3D 仿真環(huán)境中的值地圖,供運(yùn)動(dòng)規(guī)劃器使用,用于 零樣本地合成機(jī)器人操縱任務(wù)的軌跡,從而實(shí)現(xiàn)在真實(shí)世界中的零樣 本機(jī)器人操縱。

3 Meta 和 CMU 團(tuán)隊(duì) RoboAgent

采用了大規(guī)模機(jī)器人數(shù)據(jù)集進(jìn)行訓(xùn)練,考慮到機(jī)器人在現(xiàn)實(shí)世界中的 訓(xùn)練和部署效率問題,Meta 將數(shù)據(jù)集限制到了 7500 個(gè)操作軌跡中,并 基于此讓 RoboAgent 實(shí)現(xiàn)了 12 種不同的復(fù)雜技能,包括烘焙、拾取物 品、上茶、清潔廚房等任務(wù),并能在 100 種未知場(chǎng)景中泛化應(yīng)用。

4 英偉達(dá) Eureka

該系統(tǒng)以 OpenAI 的 GPT-4 為基礎(chǔ),本質(zhì)是一種由大模型驅(qū)動(dòng)的算法生 成工具,能訓(xùn)練實(shí)體機(jī)器人執(zhí)行例如“轉(zhuǎn)筆”、“開抽屜”、“拿剪 刀”、“雙手互傳球”等多種復(fù)雜動(dòng)作。

5 英偉達(dá) GR00T

目標(biāo)是成為人形機(jī)器人通用大模型,旨在讓人形機(jī)器人理解自然語言文本、語音、視頻,以模仿人類運(yùn)動(dòng),并與現(xiàn)實(shí)世界互動(dòng)。

6 阿里云機(jī)器人大模型

方案集成了通義千問、通義萬相等基礎(chǔ)模型及阿里云物聯(lián)網(wǎng)平臺(tái),可賦予機(jī)器人知識(shí)庫(kù)問答、工藝流程代碼生成、機(jī)械臂軌跡規(guī)劃、3D 目標(biāo) 檢測(cè)和動(dòng)態(tài)環(huán)境理解等全方位能力,不僅可以大幅降低機(jī)器人開發(fā)的 門檻,還讓機(jī)器人輕松完成靈活性更高的非標(biāo)任務(wù),推動(dòng)機(jī)器人在更廣 泛的應(yīng)用場(chǎng)景落地。

7 華為盤古大模型

“盤古”大模型具備強(qiáng)大的語義理解、動(dòng)態(tài)規(guī)劃、多模態(tài)信號(hào)理解等能 力,將為人形機(jī)器人大模型的開發(fā)提供智能化決策基礎(chǔ)。依托盤古大模 型的數(shù)據(jù)處理能力,可建立豐富且高質(zhì)量的人形機(jī)器人數(shù)據(jù)集,并且充分發(fā)揮盤古大模型的多模態(tài)能力,實(shí)現(xiàn)復(fù)雜任務(wù)場(chǎng)景下綜合感知和任 務(wù)分解,提升各類泛化場(chǎng)景下的具身智能操作水平。





智能機(jī)器人純視覺與激光雷達(dá)方案比較

純視覺方案:成本低,技術(shù)成熟度高,產(chǎn)業(yè)鏈成熟度高,符合人眼邏輯;易受天氣影響,易受光照影響,算力需求較高,需要大量圖像訓(xùn)練集;激光雷達(dá)方案:識(shí)別率高,環(huán)境適應(yīng)力強(qiáng),產(chǎn)業(yè)鏈成熟度高

人形機(jī)器人四種環(huán)境感知傳感器各項(xiàng)性能比較

攝像頭可實(shí)現(xiàn)測(cè)距,但精度較低,通過 AI 算法識(shí)別,但難 以識(shí)別非標(biāo)準(zhǔn)障礙物;毫米波雷達(dá)縱向精度高,橫 精度低;激光雷達(dá)是高精度,3D 建模,易識(shí)別;

全球主要人形機(jī)器人的控制解決方案匯總

本田 ASIMO由四個(gè)運(yùn)行著 VxWorks 實(shí)時(shí)操作系統(tǒng)的處理器構(gòu)成;歐洲 ICUB使用名為 ARCHER 的學(xué)習(xí)型算法體系;特斯拉 Optimus用Optimus 的神經(jīng)網(wǎng)絡(luò)

人形機(jī)器人絲杠行業(yè)深度報(bào)告: 核心傳動(dòng)精密部件,國(guó)產(chǎn)化未來可期,市場(chǎng)規(guī)模249.5億元

人形機(jī)器人將實(shí)現(xiàn)從0到1量產(chǎn),根據(jù)我們測(cè)算,2025年和2030年全球人形機(jī)器人市場(chǎng)規(guī)模 分別有望達(dá)到1.4億元和249.5億元,2025-2030年全球人形機(jī)器人CAGR有望達(dá)到182%

人形機(jī)器人執(zhí)行系統(tǒng)之靈巧手-空心杯電機(jī)

人形機(jī)器人靈巧手進(jìn)行抓取動(dòng)作,空心杯電機(jī)為核心部件;信號(hào)解析 匯總執(zhí)行 輸出轉(zhuǎn)速 (高速、低扭矩) 降速增扭 直線傳動(dòng)轉(zhuǎn) 換為旋轉(zhuǎn)傳 動(dòng) 驅(qū)動(dòng)傳導(dǎo) 感知及力 反饋

人形機(jī)器人執(zhí)行系統(tǒng)之旋轉(zhuǎn)執(zhí)行器-減速器

旋轉(zhuǎn)執(zhí)行器分布于肩部、手部等多自由度關(guān)節(jié),作用是將某物旋轉(zhuǎn)到一定角度完成旋轉(zhuǎn)運(yùn)動(dòng);驅(qū)動(dòng)關(guān)節(jié)完成旋轉(zhuǎn)動(dòng)作,減速器為核心部件

人形機(jī)器人執(zhí)行系統(tǒng)之線性執(zhí)行器-行星滾柱絲杠

線性執(zhí)行器位于膝肘等單自由度及腕踝等雙自由度關(guān)節(jié),將電機(jī)旋轉(zhuǎn)運(yùn)動(dòng)轉(zhuǎn)為直線運(yùn)動(dòng);變旋轉(zhuǎn)運(yùn)動(dòng)為直線運(yùn)動(dòng),行星滾柱絲杠為核心部件

人形機(jī)器人整體構(gòu)造及成本拆解:執(zhí)行系統(tǒng)較為關(guān)鍵

人形機(jī)器人感知系統(tǒng)成本占比7.3%,執(zhí)行系統(tǒng)成本占比53.2%;線性執(zhí)行器成本占比31.0%;旋轉(zhuǎn)執(zhí)行器成本占比17.9%;其他成本占比39.5%

人形機(jī)器人BOM拆解分析-三大核心部分

執(zhí)行系統(tǒng)BOM占比最高,約53.2%(其中直線、旋轉(zhuǎn)、手部分別 占31.0%、17.9%、4.3%);感知系統(tǒng)占7.3%,其他芯片、電池等部件合計(jì)占比39.5%

中國(guó)人形機(jī)器人研發(fā)團(tuán)隊(duì)-24支機(jī)器人團(tuán)隊(duì)介紹

國(guó)防科技大學(xué)Blackman;哈爾濱工業(yè)大學(xué)HIT Humanoid; 理工匯童;浙江大學(xué)悟空;優(yōu)必選WalkerX、優(yōu)悠;小鵬汽車PX5;達(dá)闥科技XR-4;北京鋼鐵俠

工控&機(jī)器人系列深度-人形機(jī)器人空心杯電機(jī):迎國(guó)產(chǎn)替代機(jī)遇

全球空心杯市場(chǎng)規(guī)模從2021年的6.75億美元增長(zhǎng)至2025年的9.36億元,CAGR為8.52%。2021年全球空心杯電機(jī)市場(chǎng)規(guī)模僅占微特電機(jī)的1.73%

人形機(jī)器人擎天柱Optimus只申請(qǐng)外觀設(shè)計(jì)專利(共 5 件)

特斯拉的外觀專利全部有效,且主要集中在日本(4 件)和歐洲(1 件),其他已申請(qǐng)的方法類、結(jié)構(gòu)類專利可能尚未公開
資料獲取
機(jī)器人開發(fā)
== 最新資訊 ==
大模型在機(jī)器人領(lǐng)域研究與應(yīng)用案例匯總
智能機(jī)器人純視覺與激光雷達(dá)方案比較
人形機(jī)器人四種環(huán)境感知傳感器各項(xiàng)性能比較
全球主要人形機(jī)器人的控制解決方案匯總
中國(guó)未來五十年人工智能行業(yè)生態(tài)全景—AI
中國(guó)未來五十年人工智能行業(yè)生態(tài)全景—關(guān)鍵
中國(guó)近幾年人工智能相關(guān)政策匯總
中國(guó)人工智能競(jìng)爭(zhēng)與發(fā)展?jié)摿Α夹g(shù)優(yōu)勢(shì)
2024智能算力產(chǎn)業(yè)發(fā)展白皮書-算力規(guī)模
大模型安全實(shí)踐白皮書2024-安全性、可
中國(guó)未來50年產(chǎn)業(yè)發(fā)展趨勢(shì)白皮書-人工智
青島市人工智能產(chǎn)業(yè)-打造具有全球競(jìng)爭(zhēng)力的
脈脈2024大模型人才報(bào)告-人才供需比為
AI醫(yī)學(xué)影像行業(yè)發(fā)展現(xiàn)狀與未來趨勢(shì)藍(lán)皮書
2024中國(guó)具身智能創(chuàng)投報(bào)告:背景現(xiàn)狀、
== 機(jī)器人推薦 ==
迎賓講解服務(wù)機(jī)器人

服務(wù)機(jī)器人(迎賓、講解、導(dǎo)診...)

智能消毒機(jī)器人

智能消毒機(jī)器人

機(jī)器人開發(fā)平臺(tái)

機(jī)器人開發(fā)平臺(tái)


機(jī)器人底盤 Disinfection Robot 消毒機(jī)器人  講解機(jī)器人  迎賓機(jī)器人  移動(dòng)機(jī)器人底盤  商用機(jī)器人  智能垃圾站  智能服務(wù)機(jī)器人  大屏機(jī)器人  霧化消毒機(jī)器人  紫外線消毒機(jī)器人  消毒機(jī)器人價(jià)格  展廳機(jī)器人  服務(wù)機(jī)器人底盤  核酸采樣機(jī)器人  智能配送機(jī)器人  導(dǎo)覽機(jī)器人 
版權(quán)所有 創(chuàng)澤智能機(jī)器人集團(tuán)股份有限公司 中國(guó)運(yùn)營(yíng)中心:北京 清華科技園九號(hào)樓5層 中國(guó)生產(chǎn)中心:山東日照太原路71號(hào)
銷售1:4006-935-088 銷售2:4006-937-088 客服電話: 4008-128-728