首頁
產(chǎn)品系列
行業(yè)應用
渠道合作
新聞中心
研究院
投資者關系
技術支持
關于創(chuàng)澤
| En
 
  當前位置:首頁 > 新聞資訊 > 機器人知識 > 京東姚霆:推理能力,正是多模態(tài)技術未來亟需突破的瓶頸  
 

京東姚霆:推理能力,正是多模態(tài)技術未來亟需突破的瓶頸

來源:AI科技大本營      編輯:創(chuàng)澤      時間:2020/6/14      主題:其他   [加盟]
打開熟悉的購物 App,在搜索欄輸入想要買的東西,有時候你會發(fā)現(xiàn)文字不能很好地匹配你想要找的東西,用一張圖片來搜索更簡單直接。這種“以圖搜圖”的操作基本上所有電商平臺現(xiàn)在都支持了,效果也還不錯。以京東 App 為例,筆者在搜索框輸入下圖,得到結果如右圖所示,是筆者想要的多肉植物沒錯。


用起來很方便,但你可能不知道的是,這簡單的搜索動作背后,卻是復雜的計算機視覺技術在提供支持,甚至用到了圖像內(nèi)容、文本和高層語義屬性等多個模態(tài)下的信息融合,來實現(xiàn)精準的以圖搜圖。

當然,拍照購只是京東電商的眾多應用之一,跨模態(tài)技術應用還有很多,比如推薦和信息流廣告,內(nèi)容審核也可以結合海量的商品圖像與對應的商品語義屬性,學習圖像語義特征表達。另外,我們在使用京東 App 時可能都有過被智能客服接待的經(jīng)歷,這背后的技術,就是在任務驅動型的多輪對話中融入視覺到語言的跨模態(tài)轉換技術,讓智能客服可以自動地對用戶上傳的圖片或視頻進行自動應答。

在物流場景,京東也成功地將視頻分析技術應用于物流園區(qū)作業(yè)人員行為規(guī)范管理中,特別是針對監(jiān)控視頻的站點環(huán)境、攝像頭角度和成像條件差異性較大等難點,京東采用了自研的基于局部——全局傳播網(wǎng)絡的通用視頻特征以及高效視頻事件時序檢測框架,并融入了跨域學習技術,實現(xiàn)了同時在幾百個不同的站點中全天候的作業(yè)人員操作行為實時檢測,有效地管理了物流作業(yè)人員在各個站點的工作規(guī)范。


可能會有人好奇,這背后的多模態(tài)技術在京東電商和物流場景中具體是如何實現(xiàn)的,多模態(tài)技術在電商和物流中還有哪些熱門的落地應用,多模態(tài)技術本身當前發(fā)展到哪一步了,目前發(fā)展遇到了哪些瓶頸,未來又將向哪些方向發(fā)展,等等。

帶著這些問題,CSDN 邀請到了京東 AI 研究院算法科學家姚霆博士,來為我們答疑解惑。


師從多媒體領域領軍人物Chong-Wah Ngo

姚霆本科和碩士畢業(yè)于中國科學技術大學,博士就讀于香港城市大學,師從 ACM 杰出科學家,也是多媒體領域的領軍人物之一 Chong-Wah Ngo 教授。博士畢業(yè)后,他加入微軟亞洲研究院任職研究員,主研計算機視覺。2018 年 6 月,姚霆加入京東 AI 研究院,擔任算法科學家,負責領導京東視覺與多媒體實驗室的視覺內(nèi)容分析團隊,研究方向主要關注視頻內(nèi)容理解、視覺與語言,以及大規(guī)模多媒體內(nèi)容搜索。

姚霆在 CVPR/ICCV/ECCV/AAAI/SIGIR/ACM MM/TIP/TMM 等頂級會議/期刊上已發(fā)表論文 50 余篇(引用率 3600 余次),現(xiàn)任多媒體領域頂級學術期刊 IEEE Transactions on Multimedia 期刊編委。值得一提的是,姚霆還是 P3D ResNet(視頻特征學習)、LSTM-A(圖像語義屬性)、GCN-LSTM(圖像物體關系)、HIP(圖像分層解析)、X-LAN(高階注意力機制) 的作者和計算機視覺領域重要數(shù)據(jù)集MSR-VTT(視頻描述生成) 的創(chuàng)建人,曾帶領團隊獲得多項視頻內(nèi)容理解和跨域學習競賽冠軍,是當之無愧的學術帶頭人。

實際上,姚霆不僅在學術上成果頗豐,在京東也有更多機會將實驗室的研究成果落地。

在這里,AI 研究院計算機視覺和多媒體實驗室主要有 4 個研究方向:人臉計算、人體分析、圖像理解和視頻分析,而姚霆所帶領的視覺內(nèi)容分析團隊主要關注兩個方向,即視頻內(nèi)容理解和視覺與語言。前者包括從底層的針對視頻理解的神經(jīng)網(wǎng)絡設計,視頻特征表達學習,到視頻動作/事件識別,動作定位和檢測,視頻語義分割,視頻描述生成等全棧式的分析維度,后者則集中在圖像/視頻的語義特征學習,視覺與語言的特征交互,以及跨模態(tài)的預訓練課題。

以學術研究帶動產(chǎn)業(yè)落地,正是姚霆所帶領的團隊要做的事,在多模態(tài)技術研究上,這支團隊一直嘗試多模態(tài)領域有所突破,比如近期該實驗室在視覺與語言方向提出了一個全新的高階注意力機制(X-linear Attention Block),首次將其融入至圖像描述生成任務中,主要的技術創(chuàng)新是打破了傳統(tǒng)注意力機制中一階的特征交互限制,通過所設計的高階注意力機制可以靈活地捕捉不同模態(tài)間高階乃至無窮階的特征交互,大大提升了視覺到語言的跨模態(tài)轉換性能。這個注意力機制在 COCO 在線測試集上達到世界領先的水平,并被 CVPR 2020 接收。

在視頻內(nèi)容理解課題上,實驗室在 2019 年提出了局部——全局傳播(LGD)網(wǎng)絡。這種全新的神經(jīng)網(wǎng)絡結構設計另辟蹊徑地在傳統(tǒng)三維卷積網(wǎng)絡基礎上引入了對全局信息的獨立建模,提升了視頻基礎特征的描述能力。此外,不同于現(xiàn)有的由人工設定的視頻網(wǎng)絡結構,實驗室還創(chuàng)新性地提出了基于可微分結構搜索的視頻網(wǎng)絡結構自動搜索方法(SDAS),從而在視頻數(shù)據(jù)上讓機器自動地學習和設計針對視頻內(nèi)容理解的網(wǎng)絡結構,同時也可以在搜索過程中加入對于運行效率的約束,以定制化地搜索最優(yōu)的網(wǎng)絡結構。


多模態(tài)表示學習、模態(tài)轉化等“老大難”問題怎么解決?

保持技術創(chuàng)新的過程中,姚霆團隊很清楚地意識到,多模態(tài)在技術層面一定繞不過一些難以解決的“老大難”問題,比如多模態(tài)表示學習、模態(tài)轉化、多模態(tài)融合、跨模態(tài)分析、跨域學習,就是幾個典型的挑戰(zhàn)。針對這些問題,京東其實提出了一些有效的方法,也許對相關領域的研究人員和學習者有一定借鑒意義。

在多模態(tài)表示和跨模態(tài)轉化方向,姚霆以視覺和語言方面舉例,2017 年在圖像特征表達方面融入了高層語義特征,以增強所生成語言描述和圖像的語義一致性;2018 年則更進一步挖掘了圖像中物體和物體間的語義空間關系,構建出物體間語義和空間的關系圖,從而促進對圖像內(nèi)容的深層次理解。然而,盡管物體間關系圖有效地引入了物體間關系的語義信息,但依然無法充分表達整個圖像所包含的豐富語義,所以在 2019 年,京東又提出了一種多層次的樹形語義結構,它囊括了從語義分割后的物體實例到檢測后的物體區(qū)域再到整個圖像的不同層級之間的語義信息。通過這樣一種樹形結構,可以有效地對物體不同層次間語義關聯(lián)性進行編碼,從而最終生成更為精準的描述文本。

這一系列工作的研究脈絡基本都是圍繞著在跨模態(tài)轉化過程中不斷強調對視覺內(nèi)容的理解,而語言建模部分都是采用通用的 RNN 或 Transformer 類似的結構來實現(xiàn)。不同于這一研究脈絡,在今年京東最新的工作中,他們在上文中提到的高階注意力機制則逐漸聚焦于視覺內(nèi)容和語言建模這兩者之間的特征交互,希望可以通過不同模態(tài)間基于高階的信息交互,讓兩者成為相互促進的整體。

跨域學習也是京東另一個持續(xù)關注的研究方向。姚霆解釋到,因為跨域學習可以很好地提升模型在不同場景下的泛化能力,并且無需更多目標場景下的人工標注就能實現(xiàn)模型在不同域下的遷移,這與京東在各種實際場景中快速進行模型落地的需求吻合。所以,針對跨域學習,京東在廣度和深度上都有一些研究。

首先在廣度上,京東研究了如何在圖像整體特征級別、局部區(qū)域級別和像素級別進行跨域學習,使得這些跨域學習技術可以無縫地適用于圖像識別、物體檢測和語義分割這幾大任務,同時脫離開特征級別的跨域遷移,還結合生成式對抗網(wǎng)絡,直接在原始圖像、視頻上進行無監(jiān)督跨域轉換。

在深度上,實驗室也對跨域學習框架進行了一些變革與創(chuàng)新,比如 2019 年提出了一個基于原型網(wǎng)絡的跨域學習框架(TPN,Transferrable Prototypical Networks),它可以將特征學習和目標任務的學習融為一體,有效地提升跨域學習的性能,此外,實驗室還從理論上證明了自主學習(self-learning)對于模型跨域轉換的促進作用。在今年的 CVPR 上,實驗室利用無監(jiān)督聚類技術深挖目標域的內(nèi)在數(shù)據(jù)結構,并利用這一信息更好地指導跨域學習,在主流的數(shù)據(jù)集 Office 和 VisDA的封閉集和開放集上均取得了 SOTA 效果,其中在 VisDA 2017 數(shù)據(jù)集上達到 87.2% 的準確率。。


多模態(tài)熱門應用之視頻分析

再進一步聊到多模態(tài)技術在應用上的進展,姚霆提到了視頻分析技術實用性非常強的熱門研究方向。京東當然也洞察到這個有潛力的方向,在視頻分析技術的各大方向均有自研的獨創(chuàng)性工作。

其中最基本是視頻特征表達的學習,目標在于從原始視頻數(shù)據(jù)中學習包含高層語義信息的特征向量。為此,姚霆團隊設計了幾種獨特的三維卷積網(wǎng)絡模型,比如偽三維卷積神經(jīng)網(wǎng)絡和局部——全局傳播網(wǎng)絡。在這些特征的基礎上,實驗室還搭建了包括視頻事件檢測、視頻語義分割和視頻動作檢測的視頻理解系統(tǒng),實現(xiàn)對視頻內(nèi)容的全方位分析。與此同時,在每一個視頻分析的具體應用中,實驗室也都沉淀了相應的技術創(chuàng)新,比如針對視頻事件檢測提出了使用時域高斯函數(shù)對事件發(fā)生時間段進行預測的方法,同時也設計了基于網(wǎng)絡結構自動搜索的語義分割方法,用以達成實時的視頻語義分割;針對視頻動作檢測,提出了同時對長短時關聯(lián)性進行建模的方法,也獲得了在該領域領先的性能。


多模態(tài)熱門應用之視頻分析之視頻內(nèi)容理解

視頻內(nèi)容理解同樣是一個熱門的多模態(tài)研究方向。姚霆預測,在未來,視頻內(nèi)容理解有兩個較為重要的發(fā)展趨勢,即無標注或弱標注視頻數(shù)據(jù)的使用,以及針對視頻特質的神經(jīng)網(wǎng)絡設計。

首先,數(shù)據(jù)是深度學習訓練的基礎,同時也是發(fā)展視頻內(nèi)容理解技術的必備條件。目前視頻內(nèi)容理解系統(tǒng)的訓練通常依靠大量的人工標注視頻數(shù)據(jù),這就不可避免地需要耗費時間和人力。如果可以充分利用互聯(lián)網(wǎng)上海量的無標注或弱標注視頻數(shù)據(jù)來進行訓練,將會突破視頻數(shù)據(jù)來源的限制,全面提升視頻內(nèi)容理解的性能。因此,無監(jiān)督學習、半監(jiān)督學習與弱監(jiān)督學習都將成為視頻內(nèi)容理解的新趨勢。

另一個方向則是針對視頻特質的神經(jīng)網(wǎng)絡結構設計,目前視頻內(nèi)容理解中所使用的網(wǎng)絡結構通常與圖像領域的網(wǎng)絡結構高度耦合,它們并不是真正為視頻而生的網(wǎng)絡結構,缺乏對視頻數(shù)據(jù)獨到且深刻的見解。所以,如何針對視頻數(shù)據(jù)來設計全新一代的神經(jīng)網(wǎng)絡結構,也是視頻內(nèi)容理解領域一個重要的發(fā)展趨勢。

針對跨模態(tài)分析領域,盡管視覺內(nèi)容的理解可以隨著各種高性能網(wǎng)絡的設計和深層語義的挖掘不斷升級,視覺和語言間交互的方式也已經(jīng)從傳統(tǒng)的一階注意力機制演化到可捕捉高階乃至無窮階信息交互的注意力機制,但視覺與語言的技術發(fā)展依然逃脫不了深度學習對于訓練數(shù)據(jù)的貪婪。

因此,如何能在海量的弱監(jiān)督數(shù)據(jù)上學習更具泛化能力的視覺和語言之間本質聯(lián)系,將是下一個研究的熱潮。而一旦在這些海量的弱監(jiān)督甚至于無監(jiān)督數(shù)據(jù)上通過預訓練學習到了蘊含有多模態(tài)間本質聯(lián)系的模型,便可賦予它在各種視覺與語言任務上的生命力;诖,我們最近也在數(shù)以億計的網(wǎng)頁上持續(xù)不斷地自動抓取視頻——語言的多模態(tài)數(shù)據(jù),構建了視頻——語言領域首個弱監(jiān)督的大規(guī)模數(shù)據(jù)集(Auto-captions on GIF dataset),并正在 ACM Multimedia 2020 上舉辦跨模態(tài)預訓練的競賽,其目的還是希望能為跨模態(tài)預訓練技術的未來發(fā)展準備好一個充分與完備的平臺。

電商、物流+多模態(tài)發(fā)展空間大,突破口在哪?

盡管電商和物流業(yè)中,計算機視覺和多媒體技術已經(jīng)有很多落地應用了,比如拍照購、內(nèi)容審核和物流園區(qū)作業(yè)人員行為規(guī)范管理等,但在姚霆看來,縱觀整個電商和物流體系,依然有一部分業(yè)務需要人工檢驗確認步驟,還遠遠沒有達到計算機視覺和多媒體技術完全自主的階段。簡言之,當前電商、物流場景與這些技術的結合還處于局部智能化的階段,整個產(chǎn)業(yè)鏈并沒有得到顛覆性的革新。

“我們希望,隨著整個電商平臺和供應鏈的不斷數(shù)字化,加上智能配送系統(tǒng)的持續(xù)發(fā)展,未來的電商、物流業(yè)務可以從計算機視覺和多媒體技術輔助的方式,逐漸轉變成為由這些技術完全主導的機器自助,乃至多機協(xié)同,在電商與物流的每一個環(huán)節(jié)上都盡可能地使用智能的方式進行全局調度,尋求更加高效智能的供應鏈。這也正是我們目前正在建設的智能供應鏈開放平臺的愿景,即依托人工智能技術與供應鏈系統(tǒng),打造智能供應鏈產(chǎn)業(yè)生態(tài),賦能現(xiàn)代供應鏈的生產(chǎn)、流通、消費三大場景!彪m然電商和物流業(yè)中多模態(tài)技術的應用還不夠成熟,但姚霆十分看好這一領域的發(fā)展空間。

多模態(tài)技術被很多人視為未來獲得真正的機器智能的途徑之一,對于這一觀點,姚霆表示不能完全認同。他認為,首先需要肯定的是,相比于只側重單一模態(tài)的技術(比如圖像識別、動作檢測、機器翻譯等),多模態(tài)技術一定距離真正的機器智能更近一些,因為機器智能的終極目的是模擬人的智能,而人之本身對于這個世界的認識一定是視聽說的結合,這就對應著多模態(tài)技術的融合。因此,對于機器而言,只有綜合來源于不同模態(tài)的知識才能對這個真實的世界實現(xiàn)全面綜合的理解,這也正是達到真正人類級別的智能的基石之一。但是,當前的多模態(tài)技術還遠遠未達到能通向真正機器智能的水平,因為它缺乏了人的智能中最為關鍵的推理能力,這也正是多模態(tài)技術在未來亟需突破的一個瓶頸。

多模態(tài)研究歷史不長,至今沒有顛覆性的成果出現(xiàn),要想獲得進一步發(fā)展,多模態(tài)技術研究將來要對準哪些突破口?

對此,姚霆也有自己的看法,“目前大部分多模態(tài)技術走的還是深度學習中拿大量的已標注多模態(tài)數(shù)據(jù)來喂深度模型的老路子,即數(shù)據(jù)驅動模型的感知計算,這就導致訓練得到的多模態(tài)模型不具備人腦一樣的推理能力,其在真實場景下的泛化能力也大大受限。如果能在現(xiàn)有的多模態(tài)技術中融入專家、常識知識(例如結合知識圖譜),則能利用數(shù)據(jù)與知識的聯(lián)合驅動讓多模態(tài)技術更為“智能”。同時,也可以在多模態(tài)模型訓練的過程中引入多種自監(jiān)督的推理型任務,“強迫”多模態(tài)模型進行推理和思考,這也能在一定程度上讓機器去慢慢學會推理。”

此外,姚霆還指出,當前的多模態(tài)技術還是屬于狹隘的單任務學習,整個訓練和測試的過程都是在封閉和靜態(tài)的環(huán)境下進行,這就和真實世界中開放動態(tài)的應用場景存在一定的差異性。為了彌補這一差異,我們可以在訓練過程不斷結合真實世界數(shù)據(jù)的回流來持續(xù)升級多媒體模型,甚至于可以利用元學習的方式來讓模型自己學會如何認知新的多模態(tài)知識,實現(xiàn)適用于開放動態(tài)場景并具備終生學習能力的多模態(tài)模型。





利用時序信息提升遮擋行人檢測準確度

Tube Feature Aggregation Network(TFAN)新方法,即利用時序信息來輔助當前幀的遮擋行人檢測,目前該方法已在 Caltech 和 NightOwls 兩個數(shù)據(jù)集取得了業(yè)界領先的準確率

基于網(wǎng)格圖特征的琵琶指法自動識別

根據(jù)各種指法的具體特點,對時頻網(wǎng)格圖、時域網(wǎng)格圖、頻域網(wǎng)格圖劃分出若干個不同的計算區(qū)域,并以每個計算區(qū)域的均值與標準差作為指法自動識別的特征使用,用于基于機器學習方法的指法自動識別

知識圖譜在個性化推薦領域的研究進展及應用

新加坡國立大學NExT中心的王翔博士分析了知識圖譜在個性化推薦領域的應用背景,并詳細介紹了課題組在個性化推薦中的相關研究技術和進展,包括基于路徑、基于表征學習、基于圖神經(jīng)網(wǎng)絡等知識圖譜在推薦系統(tǒng)中的融合技術

重構ncnn,騰訊優(yōu)圖開源新一代移動端推理框架TNN

新一代移動端深度學習推理框架TNN,通過底層技術優(yōu)化實現(xiàn)在多個不同平臺的輕量部署落地,性能優(yōu)異、簡單易用。騰訊方面稱,基于TNN,開發(fā)者能夠輕松將深度學習算法移植到手機端高效的執(zhí)行,開發(fā)出人工智能 App,真正將 AI 帶到指尖

達摩院金榕教授113頁PPT詳解達摩院在NLP、語音和CV上的進展與應用實踐

達摩院金榕教授介紹了語音、自然語言處理、計算機視覺三大核心AI技術的關鍵進展,并就AI技術在在實際應用中的關鍵挑戰(zhàn),以及達摩院應對挑戰(zhàn)的創(chuàng)新實踐進行了解讀

OpenAI發(fā)布了有史以來最強的NLP預訓練模型GPT-3

2020年5月底OpenAI發(fā)布了有史以來最強的NLP預訓練模型GPT-3,最大的GPT-3模型參數(shù)達到了1750億個參數(shù)

多尺度圖卷積神經(jīng)網(wǎng)絡:有效統(tǒng)一三維形狀離散化特征表示

解決了傳統(tǒng)圖卷積神經(jīng)網(wǎng)絡中圖節(jié)點學習到的特征對圖分辨率和連接關系敏感的問題,可以實現(xiàn)在低分辨率的三維形狀上學習特征,在高低分辨率形狀之上進行測試,并且保持不同分辨率特征的一致性

履約時間預估:如何讓外賣更快送達

外賣履約時間預估模型,預估的是從用戶下單開始到騎手將餐品送達用戶手中所花的時間

性能超越最新序列推薦模型,華為諾亞方舟提出記憶增強的圖神經(jīng)網(wǎng)絡

記憶增強的圖神經(jīng)網(wǎng)絡對短期的商品語境信息建模,并使用共享的記憶網(wǎng)絡來捕捉商品之間的長期依賴,對多個模型進行了對比,在Top-K序列推薦中效果極佳

如何創(chuàng)造可信的AI,這里有馬庫斯的11條建議

馬庫斯系統(tǒng)性地闡述了對當前AI研究界的批判,從認識科學領域中針對性地給出了11條可執(zhí)行的建議

用于微創(chuàng)手術的觸覺傳感器(二)

MIS 和RMIS觸覺傳感器最常用的傳感原理是基于電氣的傳感器。這些觸覺傳感器進一步分為壓阻型、壓電型和電容型傳感器

用于微創(chuàng)手術的觸覺傳感器

應用于MIS的觸覺傳感器主要是基于電學或光學原理開發(fā)的,應該是小尺寸和圓柱形的,可在導管的管身或尖端集成
 
資料獲取
新聞資訊
== 資訊 ==
» 人形機器人未來3-5年能夠實現(xiàn)產(chǎn)業(yè)化的方
» 導診服務機器人上崗門診大廳 助力醫(yī)院智慧
» 山東省青島市政府辦公廳發(fā)布《數(shù)字青島20
» 關于印發(fā)《青海省支持大數(shù)據(jù)產(chǎn)業(yè)發(fā)展政策措
» 全屋無主燈智能化規(guī)范
» 微波雷達傳感技術室內(nèi)照明應用規(guī)范
» 人工智能研發(fā)運營體系(ML0ps)實踐指
» 四驅四轉移動機器人運動模型及應用分析
» 國內(nèi)細分賽道企業(yè)在 AIGC 各應用場景
» 國內(nèi)科技大廠布局生成式 AI,未來有望借
» AIGC領域相關初創(chuàng)公司及業(yè)務場景梳理
» ChatGPT 以 GPT+RLHF 模
» AIGC提升文字 圖片滲透率,視頻 直播
» AI商業(yè)化空間前景廣闊應用場景豐富
» AI 內(nèi)容創(chuàng)作成本大幅降低且耗時更短 優(yōu)
 
== 機器人推薦 ==
 
迎賓講解服務機器人

服務機器人(迎賓、講解、導診...)

智能消毒機器人

智能消毒機器人

機器人底盤

機器人底盤

 

商用機器人  Disinfection Robot   展廳機器人  智能垃圾站  輪式機器人底盤  迎賓機器人  移動機器人底盤  講解機器人  紫外線消毒機器人  大屏機器人  霧化消毒機器人  服務機器人底盤  智能送餐機器人  霧化消毒機  機器人OEM代工廠  消毒機器人排名  智能配送機器人  圖書館機器人  導引機器人  移動消毒機器人  導診機器人  迎賓接待機器人  前臺機器人  導覽機器人  酒店送物機器人  云跡科技潤機器人  云跡酒店機器人  智能導診機器人 
版權所有 © 創(chuàng)澤智能機器人集團股份有限公司     中國運營中心:北京·清華科技園九號樓5層     中國生產(chǎn)中心:山東日照太原路71號
銷售1:4006-935-088    銷售2:4006-937-088   客服電話: 4008-128-728