當前位置：首頁 > > 迎賓機器人 > 智能迎賓服務機器人大模型多技術路線：四條(LLM,VLM,VLA,多模態(tài)大模型)

智能迎賓服務機器人大模型多技術路線：四條(LLM,VLM,VLA,多模態(tài)大模型)

來源：創(chuàng)澤機器人編輯：創(chuàng)澤時間：2025/1/3 主題：其他 [加盟]

從技術路線上看，目前基于大模型的“大腦”技術路線正處在并行探索階段，并逐漸向端到端的大模型演進。

現(xiàn)階段主要是 4 條技術路線：

一、 LLM（大語言模型）+VFM（視覺基礎模型）

實現(xiàn)人機語言交互、任務理解、推理和規(guī)劃，目前最為成熟。主要代表是谷歌的 SayCan 模型，通過預訓練技能的價值函數(shù)對齊（Grounds）大語言模型或者通過價值函數(shù)的訓練使大語言模型對用戶指令進行推理分解獲得任務步驟。

二、 VLM（視覺-語言模型）

彌合語言與視覺理解間的差距，讓機器人實現(xiàn)更準確的任務規(guī)劃和決策。主要代表是清華大學的 CoPa 模型，利用嵌入在基礎模型（比如視覺語言模型的代表 GPT-4V）中的常識知識為開放世界機器人操控生成一系列的自由度末端執(zhí)行器姿勢，生成的操控任務分為任務導向抓取和感知運動規(guī)劃。

三、 VLA （視覺-語言-動作模型）

在 VLM 基礎上增加運動控制，解決機器人運動軌跡決策問題。主要代表是谷歌的 RT-H 模型，學習語言和運動，并使用視覺上下文，通過利用語言-視覺-動作結合的多任務數(shù)據(jù)集學習更強大和靈活的動作策略。

四、多模態(tài)大模型

實現(xiàn)對物理世界環(huán) 境的全面感知，是未來的主要研究方向。主要代表是麻省理工、IBM 等共同研究的 MultiPLY 模型，將視覺、觸覺、語音等 3D 環(huán)境的各類特征作為輸入，以形成場景外觀的初步印象，并通過多視圖關聯(lián)將印象中的輸出融合到 3D，最終得到以對象為中心的場景特征。

此外，類腦智能和腦機接口等創(chuàng)新技術也為人形機器人“大腦”的解決方案帶來無限可能。類腦智能是人工智能技術的進一步延伸，是通過對人腦生物結構和思維方式進行直接模擬，使智能體能夠像人腦一樣精確高效處理多場景下的復雜任務，是未來有望代替大模型的新技術路線。腦機接口是在人腦與外部設備間建立連接通路的技術，實現(xiàn)人腦與外界設備的信息交換。未來有望基于腦機接口實現(xiàn)“大腦”的 “人+機”混合智能。

智能迎賓服務機器人大模型多技術路線：四條(LLM,VLM,VLA,多模態(tài)大模型)

一、 LLM（大語言模型）+VFM（視覺基礎模型）

二、 VLM（視覺-語言模型）

三、 VLA （視覺-語言-動作模型）

四、多模態(tài)大模型

迎賓服務機器人的大腦發(fā)展方向：智能化和自主化發(fā)展

展廳迎賓講解機器人的小腦技術路線：兩種(基于模型、基于學習)

展廳迎賓機器人小腦技術的演進：視覺-語言模型進行模仿學習

新一代展廳指引服務機器人的機械手的特點：多個關節(jié)和多個自由度，具有很高的靈活性

AI陪伴機器人-自然交互的陪伴機器人

AI智能交互陪伴機器人核心技術：外觀設計、情感計算、表情控制

迎賓機器人的大腦需要具備的能力：實時交互多模態(tài)感知

服務機器人的GPS-SLAM系統(tǒng)

餐飲酒店標準化高,服務機器人將體現(xiàn)獨特的優(yōu)勢實現(xiàn)成本優(yōu)化

服務器人提供助力點，解決餐飲快消業(yè)的企業(yè)端和顧客端痛點

僅部分企業(yè)部署了服務機器人，存在巨大的增量空間

服務器人提供助力點，解決醫(yī)療服務業(yè)的企業(yè)端和顧客端痛點

服務器人提供助力點，解決酒店旅游業(yè)的企業(yè)端和顧客端痛點

酒店引導機器人-創(chuàng)澤酒店引導機器人24H不間斷服務

人形迎賓機器人的參數(shù)和價格

創(chuàng)澤知名的機器人系列推薦-智能服務機器人

智慧圖書館服務機器人平臺-推動圖書館實現(xiàn)智慧的跨越

創(chuàng)澤機場指路機器人-打造科技化智慧機場

服務機器人(迎賓、講解、導診...)

智能消毒機器人

機器人開發(fā)平臺

智能迎賓服務機器人大模型多技術路線：四條(LLM,VLM,VLA,多模態(tài)大模型)

一、 LLM（大語言模型）+VFM（視覺基礎模型）

二、 VLM（視覺-語言模型）

三、 VLA （視覺-語言-動作模型）

四、多模態(tài)大模型

服務機器人(迎賓、講解、導診...)

智能消毒機器人

機器人開發(fā)平臺

一、 LLM（大語言模型）+VFM（視覺基礎模型）

服務機器人(迎賓、講解、導診...)