創(chuàng)澤機(jī)器人
CHUANGZE ROBOT
當(dāng)前位置:首頁(yè) > 新聞資訊 > 機(jī)器人知識(shí) > 京東姚霆:推理能力,正是多模態(tài)技術(shù)未來(lái)亟需突破的瓶頸

京東姚霆:推理能力,正是多模態(tài)技術(shù)未來(lái)亟需突破的瓶頸

來(lái)源:AI科技大本營(yíng)     編輯:創(chuàng)澤   時(shí)間:2020/6/14   主題:其他 [加盟]
打開熟悉的購(gòu)物 App,在搜索欄輸入想要買的東西,有時(shí)候你會(huì)發(fā)現(xiàn)文字不能很好地匹配你想要找的東西,用一張圖片來(lái)搜索更簡(jiǎn)單直接。這種“以圖搜圖”的操作基本上所有電商平臺(tái)現(xiàn)在都支持了,效果也還不錯(cuò)。以京東 App 為例,筆者在搜索框輸入下圖,得到結(jié)果如右圖所示,是筆者想要的多肉植物沒錯(cuò)。


用起來(lái)很方便,但你可能不知道的是,這簡(jiǎn)單的搜索動(dòng)作背后,卻是復(fù)雜的計(jì)算機(jī)視覺技術(shù)在提供支持,甚至用到了圖像內(nèi)容、文本和高層語(yǔ)義屬性等多個(gè)模態(tài)下的信息融合,來(lái)實(shí)現(xiàn)精準(zhǔn)的以圖搜圖。

當(dāng)然,拍照購(gòu)只是京東電商的眾多應(yīng)用之一,跨模態(tài)技術(shù)應(yīng)用還有很多,比如推薦和信息流廣告,內(nèi)容審核也可以結(jié)合海量的商品圖像與對(duì)應(yīng)的商品語(yǔ)義屬性,學(xué)習(xí)圖像語(yǔ)義特征表達(dá)。另外,我們?cè)谑褂镁〇| App 時(shí)可能都有過被智能客服接待的經(jīng)歷,這背后的技術(shù),就是在任務(wù)驅(qū)動(dòng)型的多輪對(duì)話中融入視覺到語(yǔ)言的跨模態(tài)轉(zhuǎn)換技術(shù),讓智能客服可以自動(dòng)地對(duì)用戶上傳的圖片或視頻進(jìn)行自動(dòng)應(yīng)答。

在物流場(chǎng)景,京東也成功地將視頻分析技術(shù)應(yīng)用于物流園區(qū)作業(yè)人員行為規(guī)范管理中,特別是針對(duì)監(jiān)控視頻的站點(diǎn)環(huán)境、攝像頭角度和成像條件差異性較大等難點(diǎn),京東采用了自研的基于局部——全局傳播網(wǎng)絡(luò)的通用視頻特征以及高效視頻事件時(shí)序檢測(cè)框架,并融入了跨域?qū)W習(xí)技術(shù),實(shí)現(xiàn)了同時(shí)在幾百個(gè)不同的站點(diǎn)中全天候的作業(yè)人員操作行為實(shí)時(shí)檢測(cè),有效地管理了物流作業(yè)人員在各個(gè)站點(diǎn)的工作規(guī)范。


可能會(huì)有人好奇,這背后的多模態(tài)技術(shù)在京東電商和物流場(chǎng)景中具體是如何實(shí)現(xiàn)的,多模態(tài)技術(shù)在電商和物流中還有哪些熱門的落地應(yīng)用,多模態(tài)技術(shù)本身當(dāng)前發(fā)展到哪一步了,目前發(fā)展遇到了哪些瓶頸,未來(lái)又將向哪些方向發(fā)展,等等。

帶著這些問題,CSDN 邀請(qǐng)到了京東 AI 研究院算法科學(xué)家姚霆博士,來(lái)為我們答疑解惑。


師從多媒體領(lǐng)域領(lǐng)軍人物Chong-Wah Ngo

姚霆本科和碩士畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué),博士就讀于香港城市大學(xué),師從 ACM 杰出科學(xué)家,也是多媒體領(lǐng)域的領(lǐng)軍人物之一 Chong-Wah Ngo 教授。博士畢業(yè)后,他加入微軟亞洲研究院任職研究員,主研計(jì)算機(jī)視覺。2018 年 6 月,姚霆加入京東 AI 研究院,擔(dān)任算法科學(xué)家,負(fù)責(zé)領(lǐng)導(dǎo)京東視覺與多媒體實(shí)驗(yàn)室的視覺內(nèi)容分析團(tuán)隊(duì),研究方向主要關(guān)注視頻內(nèi)容理解、視覺與語(yǔ)言,以及大規(guī)模多媒體內(nèi)容搜索。

姚霆在 CVPR/ICCV/ECCV/AAAI/SIGIR/ACM MM/TIP/TMM 等頂級(jí)會(huì)議/期刊上已發(fā)表論文 50 余篇(引用率 3600 余次),現(xiàn)任多媒體領(lǐng)域頂級(jí)學(xué)術(shù)期刊 IEEE Transactions on Multimedia 期刊編委。值得一提的是,姚霆還是 P3D ResNet(視頻特征學(xué)習(xí))、LSTM-A(圖像語(yǔ)義屬性)、GCN-LSTM(圖像物體關(guān)系)、HIP(圖像分層解析)、X-LAN(高階注意力機(jī)制) 的作者和計(jì)算機(jī)視覺領(lǐng)域重要數(shù)據(jù)集MSR-VTT(視頻描述生成) 的創(chuàng)建人,曾帶領(lǐng)團(tuán)隊(duì)獲得多項(xiàng)視頻內(nèi)容理解和跨域?qū)W習(xí)競(jìng)賽冠軍,是當(dāng)之無(wú)愧的學(xué)術(shù)帶頭人。

實(shí)際上,姚霆不僅在學(xué)術(shù)上成果頗豐,在京東也有更多機(jī)會(huì)將實(shí)驗(yàn)室的研究成果落地。

在這里,AI 研究院計(jì)算機(jī)視覺和多媒體實(shí)驗(yàn)室主要有 4 個(gè)研究方向:人臉計(jì)算、人體分析、圖像理解和視頻分析,而姚霆所帶領(lǐng)的視覺內(nèi)容分析團(tuán)隊(duì)主要關(guān)注兩個(gè)方向,即視頻內(nèi)容理解和視覺與語(yǔ)言。前者包括從底層的針對(duì)視頻理解的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì),視頻特征表達(dá)學(xué)習(xí),到視頻動(dòng)作/事件識(shí)別,動(dòng)作定位和檢測(cè),視頻語(yǔ)義分割,視頻描述生成等全棧式的分析維度,后者則集中在圖像/視頻的語(yǔ)義特征學(xué)習(xí),視覺與語(yǔ)言的特征交互,以及跨模態(tài)的預(yù)訓(xùn)練課題。

以學(xué)術(shù)研究帶動(dòng)產(chǎn)業(yè)落地,正是姚霆所帶領(lǐng)的團(tuán)隊(duì)要做的事,在多模態(tài)技術(shù)研究上,這支團(tuán)隊(duì)一直嘗試多模態(tài)領(lǐng)域有所突破,比如近期該實(shí)驗(yàn)室在視覺與語(yǔ)言方向提出了一個(gè)全新的高階注意力機(jī)制(X-linear Attention Block),首次將其融入至圖像描述生成任務(wù)中,主要的技術(shù)創(chuàng)新是打破了傳統(tǒng)注意力機(jī)制中一階的特征交互限制,通過所設(shè)計(jì)的高階注意力機(jī)制可以靈活地捕捉不同模態(tài)間高階乃至無(wú)窮階的特征交互,大大提升了視覺到語(yǔ)言的跨模態(tài)轉(zhuǎn)換性能。這個(gè)注意力機(jī)制在 COCO 在線測(cè)試集上達(dá)到世界領(lǐng)先的水平,并被 CVPR 2020 接收。

在視頻內(nèi)容理解課題上,實(shí)驗(yàn)室在 2019 年提出了局部——全局傳播(LGD)網(wǎng)絡(luò)。這種全新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)另辟蹊徑地在傳統(tǒng)三維卷積網(wǎng)絡(luò)基礎(chǔ)上引入了對(duì)全局信息的獨(dú)立建模,提升了視頻基礎(chǔ)特征的描述能力。此外,不同于現(xiàn)有的由人工設(shè)定的視頻網(wǎng)絡(luò)結(jié)構(gòu),實(shí)驗(yàn)室還創(chuàng)新性地提出了基于可微分結(jié)構(gòu)搜索的視頻網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)搜索方法(SDAS),從而在視頻數(shù)據(jù)上讓機(jī)器自動(dòng)地學(xué)習(xí)和設(shè)計(jì)針對(duì)視頻內(nèi)容理解的網(wǎng)絡(luò)結(jié)構(gòu),同時(shí)也可以在搜索過程中加入對(duì)于運(yùn)行效率的約束,以定制化地搜索最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)。


多模態(tài)表示學(xué)習(xí)、模態(tài)轉(zhuǎn)化等“老大難”問題怎么解決?

保持技術(shù)創(chuàng)新的過程中,姚霆團(tuán)隊(duì)很清楚地意識(shí)到,多模態(tài)在技術(shù)層面一定繞不過一些難以解決的“老大難”問題,比如多模態(tài)表示學(xué)習(xí)、模態(tài)轉(zhuǎn)化、多模態(tài)融合、跨模態(tài)分析、跨域?qū)W習(xí),就是幾個(gè)典型的挑戰(zhàn)。針對(duì)這些問題,京東其實(shí)提出了一些有效的方法,也許對(duì)相關(guān)領(lǐng)域的研究人員和學(xué)習(xí)者有一定借鑒意義。

在多模態(tài)表示和跨模態(tài)轉(zhuǎn)化方向,姚霆以視覺和語(yǔ)言方面舉例,2017 年在圖像特征表達(dá)方面融入了高層語(yǔ)義特征,以增強(qiáng)所生成語(yǔ)言描述和圖像的語(yǔ)義一致性;2018 年則更進(jìn)一步挖掘了圖像中物體和物體間的語(yǔ)義空間關(guān)系,構(gòu)建出物體間語(yǔ)義和空間的關(guān)系圖,從而促進(jìn)對(duì)圖像內(nèi)容的深層次理解。然而,盡管物體間關(guān)系圖有效地引入了物體間關(guān)系的語(yǔ)義信息,但依然無(wú)法充分表達(dá)整個(gè)圖像所包含的豐富語(yǔ)義,所以在 2019 年,京東又提出了一種多層次的樹形語(yǔ)義結(jié)構(gòu),它囊括了從語(yǔ)義分割后的物體實(shí)例到檢測(cè)后的物體區(qū)域再到整個(gè)圖像的不同層級(jí)之間的語(yǔ)義信息。通過這樣一種樹形結(jié)構(gòu),可以有效地對(duì)物體不同層次間語(yǔ)義關(guān)聯(lián)性進(jìn)行編碼,從而最終生成更為精準(zhǔn)的描述文本。

這一系列工作的研究脈絡(luò)基本都是圍繞著在跨模態(tài)轉(zhuǎn)化過程中不斷強(qiáng)調(diào)對(duì)視覺內(nèi)容的理解,而語(yǔ)言建模部分都是采用通用的 RNN 或 Transformer 類似的結(jié)構(gòu)來(lái)實(shí)現(xiàn)。不同于這一研究脈絡(luò),在今年京東最新的工作中,他們?cè)谏衔闹刑岬降母唠A注意力機(jī)制則逐漸聚焦于視覺內(nèi)容和語(yǔ)言建模這兩者之間的特征交互,希望可以通過不同模態(tài)間基于高階的信息交互,讓兩者成為相互促進(jìn)的整體。

跨域?qū)W習(xí)也是京東另一個(gè)持續(xù)關(guān)注的研究方向。姚霆解釋到,因?yàn)榭缬驅(qū)W習(xí)可以很好地提升模型在不同場(chǎng)景下的泛化能力,并且無(wú)需更多目標(biāo)場(chǎng)景下的人工標(biāo)注就能實(shí)現(xiàn)模型在不同域下的遷移,這與京東在各種實(shí)際場(chǎng)景中快速進(jìn)行模型落地的需求吻合。所以,針對(duì)跨域?qū)W習(xí),京東在廣度和深度上都有一些研究。

首先在廣度上,京東研究了如何在圖像整體特征級(jí)別、局部區(qū)域級(jí)別和像素級(jí)別進(jìn)行跨域?qū)W習(xí),使得這些跨域?qū)W習(xí)技術(shù)可以無(wú)縫地適用于圖像識(shí)別、物體檢測(cè)和語(yǔ)義分割這幾大任務(wù),同時(shí)脫離開特征級(jí)別的跨域遷移,還結(jié)合生成式對(duì)抗網(wǎng)絡(luò),直接在原始圖像、視頻上進(jìn)行無(wú)監(jiān)督跨域轉(zhuǎn)換。

在深度上,實(shí)驗(yàn)室也對(duì)跨域?qū)W習(xí)框架進(jìn)行了一些變革與創(chuàng)新,比如 2019 年提出了一個(gè)基于原型網(wǎng)絡(luò)的跨域?qū)W習(xí)框架(TPN,Transferrable Prototypical Networks),它可以將特征學(xué)習(xí)和目標(biāo)任務(wù)的學(xué)習(xí)融為一體,有效地提升跨域?qū)W習(xí)的性能,此外,實(shí)驗(yàn)室還從理論上證明了自主學(xué)習(xí)(self-learning)對(duì)于模型跨域轉(zhuǎn)換的促進(jìn)作用。在今年的 CVPR 上,實(shí)驗(yàn)室利用無(wú)監(jiān)督聚類技術(shù)深挖目標(biāo)域的內(nèi)在數(shù)據(jù)結(jié)構(gòu),并利用這一信息更好地指導(dǎo)跨域?qū)W習(xí),在主流的數(shù)據(jù)集 Office 和 VisDA的封閉集和開放集上均取得了 SOTA 效果,其中在 VisDA 2017 數(shù)據(jù)集上達(dá)到 87.2% 的準(zhǔn)確率。。


多模態(tài)熱門應(yīng)用之視頻分析

再進(jìn)一步聊到多模態(tài)技術(shù)在應(yīng)用上的進(jìn)展,姚霆提到了視頻分析技術(shù)實(shí)用性非常強(qiáng)的熱門研究方向。京東當(dāng)然也洞察到這個(gè)有潛力的方向,在視頻分析技術(shù)的各大方向均有自研的獨(dú)創(chuàng)性工作。

其中最基本是視頻特征表達(dá)的學(xué)習(xí),目標(biāo)在于從原始視頻數(shù)據(jù)中學(xué)習(xí)包含高層語(yǔ)義信息的特征向量。為此,姚霆團(tuán)隊(duì)設(shè)計(jì)了幾種獨(dú)特的三維卷積網(wǎng)絡(luò)模型,比如偽三維卷積神經(jīng)網(wǎng)絡(luò)和局部——全局傳播網(wǎng)絡(luò)。在這些特征的基礎(chǔ)上,實(shí)驗(yàn)室還搭建了包括視頻事件檢測(cè)、視頻語(yǔ)義分割和視頻動(dòng)作檢測(cè)的視頻理解系統(tǒng),實(shí)現(xiàn)對(duì)視頻內(nèi)容的全方位分析。與此同時(shí),在每一個(gè)視頻分析的具體應(yīng)用中,實(shí)驗(yàn)室也都沉淀了相應(yīng)的技術(shù)創(chuàng)新,比如針對(duì)視頻事件檢測(cè)提出了使用時(shí)域高斯函數(shù)對(duì)事件發(fā)生時(shí)間段進(jìn)行預(yù)測(cè)的方法,同時(shí)也設(shè)計(jì)了基于網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)搜索的語(yǔ)義分割方法,用以達(dá)成實(shí)時(shí)的視頻語(yǔ)義分割;針對(duì)視頻動(dòng)作檢測(cè),提出了同時(shí)對(duì)長(zhǎng)短時(shí)關(guān)聯(lián)性進(jìn)行建模的方法,也獲得了在該領(lǐng)域領(lǐng)先的性能。


多模態(tài)熱門應(yīng)用之視頻分析之視頻內(nèi)容理解

視頻內(nèi)容理解同樣是一個(gè)熱門的多模態(tài)研究方向。姚霆預(yù)測(cè),在未來(lái),視頻內(nèi)容理解有兩個(gè)較為重要的發(fā)展趨勢(shì),即無(wú)標(biāo)注或弱標(biāo)注視頻數(shù)據(jù)的使用,以及針對(duì)視頻特質(zhì)的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)。

首先,數(shù)據(jù)是深度學(xué)習(xí)訓(xùn)練的基礎(chǔ),同時(shí)也是發(fā)展視頻內(nèi)容理解技術(shù)的必備條件。目前視頻內(nèi)容理解系統(tǒng)的訓(xùn)練通常依靠大量的人工標(biāo)注視頻數(shù)據(jù),這就不可避免地需要耗費(fèi)時(shí)間和人力。如果可以充分利用互聯(lián)網(wǎng)上海量的無(wú)標(biāo)注或弱標(biāo)注視頻數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練,將會(huì)突破視頻數(shù)據(jù)來(lái)源的限制,全面提升視頻內(nèi)容理解的性能。因此,無(wú)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)與弱監(jiān)督學(xué)習(xí)都將成為視頻內(nèi)容理解的新趨勢(shì)。

另一個(gè)方向則是針對(duì)視頻特質(zhì)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),目前視頻內(nèi)容理解中所使用的網(wǎng)絡(luò)結(jié)構(gòu)通常與圖像領(lǐng)域的網(wǎng)絡(luò)結(jié)構(gòu)高度耦合,它們并不是真正為視頻而生的網(wǎng)絡(luò)結(jié)構(gòu),缺乏對(duì)視頻數(shù)據(jù)獨(dú)到且深刻的見解。所以,如何針對(duì)視頻數(shù)據(jù)來(lái)設(shè)計(jì)全新一代的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),也是視頻內(nèi)容理解領(lǐng)域一個(gè)重要的發(fā)展趨勢(shì)。

針對(duì)跨模態(tài)分析領(lǐng)域,盡管視覺內(nèi)容的理解可以隨著各種高性能網(wǎng)絡(luò)的設(shè)計(jì)和深層語(yǔ)義的挖掘不斷升級(jí),視覺和語(yǔ)言間交互的方式也已經(jīng)從傳統(tǒng)的一階注意力機(jī)制演化到可捕捉高階乃至無(wú)窮階信息交互的注意力機(jī)制,但視覺與語(yǔ)言的技術(shù)發(fā)展依然逃脫不了深度學(xué)習(xí)對(duì)于訓(xùn)練數(shù)據(jù)的貪婪。

因此,如何能在海量的弱監(jiān)督數(shù)據(jù)上學(xué)習(xí)更具泛化能力的視覺和語(yǔ)言之間本質(zhì)聯(lián)系,將是下一個(gè)研究的熱潮。而一旦在這些海量的弱監(jiān)督甚至于無(wú)監(jiān)督數(shù)據(jù)上通過預(yù)訓(xùn)練學(xué)習(xí)到了蘊(yùn)含有多模態(tài)間本質(zhì)聯(lián)系的模型,便可賦予它在各種視覺與語(yǔ)言任務(wù)上的生命力。基于此,我們最近也在數(shù)以億計(jì)的網(wǎng)頁(yè)上持續(xù)不斷地自動(dòng)抓取視頻——語(yǔ)言的多模態(tài)數(shù)據(jù),構(gòu)建了視頻——語(yǔ)言領(lǐng)域首個(gè)弱監(jiān)督的大規(guī)模數(shù)據(jù)集(Auto-captions on GIF dataset),并正在 ACM Multimedia 2020 上舉辦跨模態(tài)預(yù)訓(xùn)練的競(jìng)賽,其目的還是希望能為跨模態(tài)預(yù)訓(xùn)練技術(shù)的未來(lái)發(fā)展準(zhǔn)備好一個(gè)充分與完備的平臺(tái)。

電商、物流+多模態(tài)發(fā)展空間大,突破口在哪?

盡管電商和物流業(yè)中,計(jì)算機(jī)視覺和多媒體技術(shù)已經(jīng)有很多落地應(yīng)用了,比如拍照購(gòu)、內(nèi)容審核和物流園區(qū)作業(yè)人員行為規(guī)范管理等,但在姚霆看來(lái),縱觀整個(gè)電商和物流體系,依然有一部分業(yè)務(wù)需要人工檢驗(yàn)確認(rèn)步驟,還遠(yuǎn)遠(yuǎn)沒有達(dá)到計(jì)算機(jī)視覺和多媒體技術(shù)完全自主的階段。簡(jiǎn)言之,當(dāng)前電商、物流場(chǎng)景與這些技術(shù)的結(jié)合還處于局部智能化的階段,整個(gè)產(chǎn)業(yè)鏈并沒有得到顛覆性的革新。

“我們希望,隨著整個(gè)電商平臺(tái)和供應(yīng)鏈的不斷數(shù)字化,加上智能配送系統(tǒng)的持續(xù)發(fā)展,未來(lái)的電商、物流業(yè)務(wù)可以從計(jì)算機(jī)視覺和多媒體技術(shù)輔助的方式,逐漸轉(zhuǎn)變成為由這些技術(shù)完全主導(dǎo)的機(jī)器自助,乃至多機(jī)協(xié)同,在電商與物流的每一個(gè)環(huán)節(jié)上都盡可能地使用智能的方式進(jìn)行全局調(diào)度,尋求更加高效智能的供應(yīng)鏈。這也正是我們目前正在建設(shè)的智能供應(yīng)鏈開放平臺(tái)的愿景,即依托人工智能技術(shù)與供應(yīng)鏈系統(tǒng),打造智能供應(yīng)鏈產(chǎn)業(yè)生態(tài),賦能現(xiàn)代供應(yīng)鏈的生產(chǎn)、流通、消費(fèi)三大場(chǎng)景!彪m然電商和物流業(yè)中多模態(tài)技術(shù)的應(yīng)用還不夠成熟,但姚霆十分看好這一領(lǐng)域的發(fā)展空間。

多模態(tài)技術(shù)被很多人視為未來(lái)獲得真正的機(jī)器智能的途徑之一,對(duì)于這一觀點(diǎn),姚霆表示不能完全認(rèn)同。他認(rèn)為,首先需要肯定的是,相比于只側(cè)重單一模態(tài)的技術(shù)(比如圖像識(shí)別、動(dòng)作檢測(cè)、機(jī)器翻譯等),多模態(tài)技術(shù)一定距離真正的機(jī)器智能更近一些,因?yàn)闄C(jī)器智能的終極目的是模擬人的智能,而人之本身對(duì)于這個(gè)世界的認(rèn)識(shí)一定是視聽說(shuō)的結(jié)合,這就對(duì)應(yīng)著多模態(tài)技術(shù)的融合。因此,對(duì)于機(jī)器而言,只有綜合來(lái)源于不同模態(tài)的知識(shí)才能對(duì)這個(gè)真實(shí)的世界實(shí)現(xiàn)全面綜合的理解,這也正是達(dá)到真正人類級(jí)別的智能的基石之一。但是,當(dāng)前的多模態(tài)技術(shù)還遠(yuǎn)遠(yuǎn)未達(dá)到能通向真正機(jī)器智能的水平,因?yàn)樗狈α巳说闹悄苤凶顬殛P(guān)鍵的推理能力,這也正是多模態(tài)技術(shù)在未來(lái)亟需突破的一個(gè)瓶頸。

多模態(tài)研究歷史不長(zhǎng),至今沒有顛覆性的成果出現(xiàn),要想獲得進(jìn)一步發(fā)展,多模態(tài)技術(shù)研究將來(lái)要對(duì)準(zhǔn)哪些突破口?

對(duì)此,姚霆也有自己的看法,“目前大部分多模態(tài)技術(shù)走的還是深度學(xué)習(xí)中拿大量的已標(biāo)注多模態(tài)數(shù)據(jù)來(lái)喂深度模型的老路子,即數(shù)據(jù)驅(qū)動(dòng)模型的感知計(jì)算,這就導(dǎo)致訓(xùn)練得到的多模態(tài)模型不具備人腦一樣的推理能力,其在真實(shí)場(chǎng)景下的泛化能力也大大受限。如果能在現(xiàn)有的多模態(tài)技術(shù)中融入專家、常識(shí)知識(shí)(例如結(jié)合知識(shí)圖譜),則能利用數(shù)據(jù)與知識(shí)的聯(lián)合驅(qū)動(dòng)讓多模態(tài)技術(shù)更為“智能”。同時(shí),也可以在多模態(tài)模型訓(xùn)練的過程中引入多種自監(jiān)督的推理型任務(wù),“強(qiáng)迫”多模態(tài)模型進(jìn)行推理和思考,這也能在一定程度上讓機(jī)器去慢慢學(xué)會(huì)推理!

此外,姚霆還指出,當(dāng)前的多模態(tài)技術(shù)還是屬于狹隘的單任務(wù)學(xué)習(xí),整個(gè)訓(xùn)練和測(cè)試的過程都是在封閉和靜態(tài)的環(huán)境下進(jìn)行,這就和真實(shí)世界中開放動(dòng)態(tài)的應(yīng)用場(chǎng)景存在一定的差異性。為了彌補(bǔ)這一差異,我們可以在訓(xùn)練過程不斷結(jié)合真實(shí)世界數(shù)據(jù)的回流來(lái)持續(xù)升級(jí)多媒體模型,甚至于可以利用元學(xué)習(xí)的方式來(lái)讓模型自己學(xué)會(huì)如何認(rèn)知新的多模態(tài)知識(shí),實(shí)現(xiàn)適用于開放動(dòng)態(tài)場(chǎng)景并具備終生學(xué)習(xí)能力的多模態(tài)模型。





看高清視頻,如何做到不卡頓

優(yōu)酷智能檔突破“傳統(tǒng)自適應(yīng)碼率算法”的局限,解決視頻觀看體驗(yàn)中高清和流暢的矛盾

基于真實(shí)環(huán)境數(shù)據(jù)集的機(jī)器人操作仿真基準(zhǔn)測(cè)試

通過使用仿真和量化指標(biāo),使基準(zhǔn)測(cè)試能夠通用于許多操作領(lǐng)域,但又足夠具體,能夠提供系統(tǒng)的有關(guān)信息

億級(jí)視頻內(nèi)容如何實(shí)時(shí)更新

基于內(nèi)容圖譜結(jié)構(gòu)化特征與索引更新平臺(tái),在結(jié)構(gòu)化方面打破傳統(tǒng)的數(shù)倉(cāng)建模方式,以知識(shí)化、業(yè)務(wù)化、服務(wù)化為視角進(jìn)行數(shù)據(jù)平臺(tái)化建設(shè),來(lái)沉淀內(nèi)容、行為、關(guān)系圖譜,目前在優(yōu)酷搜索、票票、大麥等場(chǎng)景開始進(jìn)行應(yīng)用

深度解析大規(guī)模參數(shù)語(yǔ)言模型Megatron-BERT

NVIDIA解決方案架構(gòu)師王閃閃講解了BERT模型原理及其成就,NVIDIA開發(fā)的Megatron-BERT

自然語(yǔ)言處理技術(shù)五大技術(shù)進(jìn)展和四大應(yīng)用與產(chǎn)品

自然語(yǔ)言處理技術(shù)的應(yīng)用和研究領(lǐng)域發(fā)生了許多有意義的標(biāo)志性事件,技術(shù)進(jìn)展方面主要體現(xiàn)在預(yù)訓(xùn)練語(yǔ)言模型、跨語(yǔ)言 NLP/無(wú)監(jiān)督機(jī)器翻譯、知識(shí)圖譜發(fā)展 + 對(duì)話技術(shù)融合、智能人機(jī)交互、平臺(tái)廠商整合AI產(chǎn)品線

自然語(yǔ)言處理技術(shù)發(fā)展趨勢(shì)進(jìn)一步推動(dòng)人工智能從感知智能向認(rèn)知智能的演進(jìn)

下一個(gè)十年,智能人機(jī)交互、多模態(tài)融合、結(jié)合領(lǐng)域需求的 NLP 解決方案建設(shè)、知識(shí)圖譜結(jié)合落地場(chǎng)景等將會(huì)有突破性變化

中國(guó)移動(dòng)室內(nèi)定位白皮書

中國(guó)移動(dòng)聯(lián)合產(chǎn)業(yè)合作伙伴發(fā)布《室內(nèi)定位白皮書》,對(duì)室內(nèi)定位產(chǎn)業(yè)發(fā)展現(xiàn)狀及面臨的挑戰(zhàn),深入分析了垂直行業(yè)的室內(nèi)定位需求,并詳細(xì)闡述了實(shí)現(xiàn)室內(nèi)定位的技術(shù)原理, 及室內(nèi)定位評(píng)測(cè)體系

傳感器面臨時(shí)代新機(jī)遇,未來(lái)發(fā)展將呈現(xiàn)哪些趨勢(shì)

機(jī)器人、無(wú)人機(jī)、自動(dòng)駕駛汽車等加快落地,智慧城市深入建設(shè),更是為傳感器產(chǎn)業(yè)帶來(lái)了難以估量的龐大機(jī)遇

仿人操作機(jī)器人Cosero配備7自由度機(jī)械臂裝有Kinect相機(jī)實(shí)現(xiàn)對(duì)目標(biāo)環(huán)境的3D感知

Cosero是德國(guó)波恩大學(xué)的Sven Behnke團(tuán)隊(duì)根據(jù)家庭環(huán)境中的日常操作任務(wù)而研制的一款仿人操作機(jī)器人基于深度學(xué)習(xí)方法的目標(biāo)姿態(tài)估計(jì)和RGB-D SLAM等感知測(cè)量

移動(dòng)式操作機(jī)器人平臺(tái)Personal Robot 2可模擬開門、打臺(tái)球和畫畫

機(jī)器人的學(xué)習(xí)分為三個(gè)部分的軌跡預(yù)測(cè)包括示教者的手部運(yùn)動(dòng)軌跡、示教者的身體移動(dòng)軌跡以及被操作物體的運(yùn)動(dòng)軌跡

Jupiter由四輪獨(dú)立轉(zhuǎn)向的底盤和UR5機(jī)械臂組成通過SSD網(wǎng)絡(luò)檢測(cè)目標(biāo)物體

通過2D激光雷達(dá)信息采用Hector SLAM實(shí)現(xiàn)機(jī)器人對(duì)地圖的感知和自主導(dǎo)航規(guī)劃,通過頂部的RGB-D相機(jī)采集目標(biāo)物體深度和RGB圖像信息

野外自主農(nóng)作物探測(cè)機(jī)器人Robotanist使用擴(kuò)展卡爾曼濾波器(EKF)方法融合MTI等傳感器信息

驅(qū)動(dòng)系統(tǒng)由4個(gè)200W無(wú)刷直流電機(jī)構(gòu)成,通過50:1的空心軸減速機(jī)可以最高達(dá)2m/s的速度在玉米、高粱等農(nóng)作物的地里前進(jìn)
資料獲取
機(jī)器人知識(shí)
== 最新資訊 ==
ChatGPT:又一個(gè)“人形機(jī)器人”主題
ChatGPT快速流行,重構(gòu) AI 商業(yè)
中國(guó)機(jī)器視覺產(chǎn)業(yè)方面的政策
中國(guó)機(jī)器視覺產(chǎn)業(yè)聚焦于中國(guó)東部沿海地區(qū)(
從CHAT-GPT到生成式AI:人工智能
工信部等十七部門印發(fā)《機(jī)器人+應(yīng)用行動(dòng)實(shí)
全球人工智能企業(yè)市值/估值 TOP20
創(chuàng)澤智能機(jī)器人集團(tuán)股份有限公司第十一期上
諧波減速器和RV減速器比較
機(jī)器人減速器:諧波減速器和RV減速器
人形機(jī)器人技術(shù)難點(diǎn) 高精尖技術(shù)的綜合
機(jī)器人大規(guī)模商用面臨的痛點(diǎn)有四個(gè)方面
青島市機(jī)器人產(chǎn)業(yè)概況:機(jī)器人企業(yè)多布局在
六大機(jī)器人產(chǎn)業(yè)集群的特點(diǎn)
機(jī)械臂-高度非線性強(qiáng)耦合的復(fù)雜系統(tǒng)
== 機(jī)器人推薦 ==
迎賓講解服務(wù)機(jī)器人

服務(wù)機(jī)器人(迎賓、講解、導(dǎo)診...)

智能消毒機(jī)器人

智能消毒機(jī)器人

機(jī)器人開發(fā)平臺(tái)

機(jī)器人開發(fā)平臺(tái)


機(jī)器人招商 Disinfection Robot 機(jī)器人公司 機(jī)器人應(yīng)用 智能醫(yī)療 物聯(lián)網(wǎng) 機(jī)器人排名 機(jī)器人企業(yè) 機(jī)器人政策 教育機(jī)器人 迎賓機(jī)器人 機(jī)器人開發(fā) 獨(dú)角獸 消毒機(jī)器人品牌 消毒機(jī)器人 合理用藥 地圖
版權(quán)所有 創(chuàng)澤智能機(jī)器人集團(tuán)股份有限公司 中國(guó)運(yùn)營(yíng)中心:北京 清華科技園九號(hào)樓5層 中國(guó)生產(chǎn)中心:山東日照太原路71號(hào)
銷售1:4006-935-088 銷售2:4006-937-088 客服電話: 4008-128-728