創(chuàng)澤機(jī)器人 |
CHUANGZE ROBOT |
目前大模型技術(shù)已從單純的大語言模型(LLM)發(fā)展到圖像-語言多模態(tài)模型(VLM)乃 至圖像-語言-動(dòng)作多模態(tài)模型(VLA),其中圖像-語言-動(dòng)作多模態(tài)模型(VLA)的推出,實(shí) 現(xiàn)了數(shù)據(jù)與處理任務(wù)的躍升。從文本到圖像再到現(xiàn)實(shí)世界,大模型的數(shù)據(jù)模態(tài)逐漸豐富,數(shù) 據(jù)規(guī)模的數(shù)量級(jí)迅速增長(zhǎng),大模型的應(yīng)用場(chǎng)景和價(jià)值量也成比例擴(kuò)張。
在人形機(jī)器人領(lǐng)域,AI 大模型將會(huì)從感知(語音、視覺)、決策、控制等多方面與人形 機(jī)器人結(jié)合,形成感知、決策、控制閉環(huán),提升機(jī)器人的智能水平。
未來人形機(jī)器人大模型的方向?qū)?huì)是感知-決策-控制一體化的端到端通用大模型,集合 大規(guī)模數(shù)據(jù)集管理、云邊端一體計(jì)算架構(gòu)、多模態(tài)感知與環(huán)境建模等技術(shù)。
1 微軟 ChatGPT
在機(jī)器人領(lǐng)域的應(yīng)用主要體現(xiàn)在兩個(gè)方面:自然語言交互和自動(dòng)化決 策。在自然語言方面,機(jī)器人可以通過 ChatGPT 來理解人類的自然語 言指令,并根據(jù)指令進(jìn)行相應(yīng)的動(dòng)作;在自動(dòng)化決策方面,機(jī)器人可以 通過 ChatGPT 來生成任務(wù)方案,根據(jù)任務(wù)要求做出相應(yīng)的決策。
柏林工業(yè)大學(xué)和 Google Robotics 團(tuán)隊(duì) PaLM-E
是最大的多模態(tài)視覺語言模型,在 PaLM 模型基礎(chǔ)上,引入了具身化和 多模態(tài)概念,實(shí)現(xiàn)了指導(dǎo)現(xiàn)實(shí)世界機(jī)器人完成相應(yīng)任務(wù)的功能。
2 谷歌 RT-2
全球第一個(gè)控制機(jī)器人的視覺-語言-動(dòng)作(Vision-Language-Action, VLA)模型,通過將 VLM 預(yù)訓(xùn)練與機(jī)器人數(shù)據(jù)相結(jié)合,能夠端到端直接 輸出機(jī)器人的控制。
斯坦福大學(xué)李飛飛團(tuán)隊(duì) VoxPoser
智能系統(tǒng) VoxPose 可以從大模型 LLM 和視覺語言模型 VLM 中提取可行 性和約束,以構(gòu)建 3D 仿真環(huán)境中的值地圖,供運(yùn)動(dòng)規(guī)劃器使用,用于 零樣本地合成機(jī)器人操縱任務(wù)的軌跡,從而實(shí)現(xiàn)在真實(shí)世界中的零樣 本機(jī)器人操縱。
3 Meta 和 CMU 團(tuán)隊(duì) RoboAgent
采用了大規(guī)模機(jī)器人數(shù)據(jù)集進(jìn)行訓(xùn)練,考慮到機(jī)器人在現(xiàn)實(shí)世界中的 訓(xùn)練和部署效率問題,Meta 將數(shù)據(jù)集限制到了 7500 個(gè)操作軌跡中,并 基于此讓 RoboAgent 實(shí)現(xiàn)了 12 種不同的復(fù)雜技能,包括烘焙、拾取物 品、上茶、清潔廚房等任務(wù),并能在 100 種未知場(chǎng)景中泛化應(yīng)用。
4 英偉達(dá) Eureka
該系統(tǒng)以 OpenAI 的 GPT-4 為基礎(chǔ),本質(zhì)是一種由大模型驅(qū)動(dòng)的算法生 成工具,能訓(xùn)練實(shí)體機(jī)器人執(zhí)行例如“轉(zhuǎn)筆”、“開抽屜”、“拿剪 刀”、“雙手互傳球”等多種復(fù)雜動(dòng)作。
5 英偉達(dá) GR00T
目標(biāo)是成為人形機(jī)器人通用大模型,旨在讓人形機(jī)器人理解自然語言文本、語音、視頻,以模仿人類運(yùn)動(dòng),并與現(xiàn)實(shí)世界互動(dòng)。
6 阿里云機(jī)器人大模型
方案集成了通義千問、通義萬相等基礎(chǔ)模型及阿里云物聯(lián)網(wǎng)平臺(tái),可賦予機(jī)器人知識(shí)庫(kù)問答、工藝流程代碼生成、機(jī)械臂軌跡規(guī)劃、3D 目標(biāo) 檢測(cè)和動(dòng)態(tài)環(huán)境理解等全方位能力,不僅可以大幅降低機(jī)器人開發(fā)的 門檻,還讓機(jī)器人輕松完成靈活性更高的非標(biāo)任務(wù),推動(dòng)機(jī)器人在更廣 泛的應(yīng)用場(chǎng)景落地。
7 華為盤古大模型
“盤古”大模型具備強(qiáng)大的語義理解、動(dòng)態(tài)規(guī)劃、多模態(tài)信號(hào)理解等能 力,將為人形機(jī)器人大模型的開發(fā)提供智能化決策基礎(chǔ)。依托盤古大模 型的數(shù)據(jù)處理能力,可建立豐富且高質(zhì)量的人形機(jī)器人數(shù)據(jù)集,并且充分發(fā)揮盤古大模型的多模態(tài)能力,實(shí)現(xiàn)復(fù)雜任務(wù)場(chǎng)景下綜合感知和任 務(wù)分解,提升各類泛化場(chǎng)景下的具身智能操作水平。
機(jī)器人底盤 Disinfection Robot 消毒機(jī)器人 講解機(jī)器人 迎賓機(jī)器人 移動(dòng)機(jī)器人底盤 商用機(jī)器人 智能垃圾站 智能服務(wù)機(jī)器人 大屏機(jī)器人 霧化消毒機(jī)器人 紫外線消毒機(jī)器人 消毒機(jī)器人價(jià)格 展廳機(jī)器人 服務(wù)機(jī)器人底盤 核酸采樣機(jī)器人 智能配送機(jī)器人 導(dǎo)覽機(jī)器人 |