<input id="i8kw3"></input>

產(chǎn)品系列

行業(yè)應(yīng)用

投資者關(guān)系

技術(shù)支持

關(guān)于創(chuàng)澤

當(dāng)前位置：首頁 > 新聞資訊 > 機(jī)器人知識(shí) > 京東姚霆：推理能力，正是多模態(tài)技術(shù)未來亟需突破的瓶頸

京東姚霆：推理能力，正是多模態(tài)技術(shù)未來亟需突破的瓶頸

來源：AI科技大本營編輯：創(chuàng)澤時(shí)間：2020/6/14 主題：其他 [加盟]

打開熟悉的購物 App，在搜索欄輸入想要買的東西，有時(shí)候你會(huì)發(fā)現(xiàn)文字不能很好地匹配你想要找的東西，用一張圖片來搜索更簡單直接。這種“以圖搜圖”的操作基本上所有電商平臺(tái)現(xiàn)在都支持了，效果也還不錯(cuò)。以京東 App 為例，筆者在搜索框輸入下圖，得到結(jié)果如右圖所示，是筆者想要的多肉植物沒錯(cuò)。

用起來很方便，但你可能不知道的是，這簡單的搜索動(dòng)作背后，卻是復(fù)雜的計(jì)算機(jī)視覺技術(shù)在提供支持，甚至用到了圖像內(nèi)容、文本和高層語義屬性等多個(gè)模態(tài)下的信息融合，來實(shí)現(xiàn)精準(zhǔn)的以圖搜圖。

當(dāng)然，拍照購只是京東電商的眾多應(yīng)用之一，跨模態(tài)技術(shù)應(yīng)用還有很多，比如推薦和信息流廣告，內(nèi)容審核也可以結(jié)合海量的商品圖像與對應(yīng)的商品語義屬性，學(xué)習(xí)圖像語義特征表達(dá)。另外，我們在使用京東 App 時(shí)可能都有過被智能客服接待的經(jīng)歷，這背后的技術(shù)，就是在任務(wù)驅(qū)動(dòng)型的多輪對話中融入視覺到語言的跨模態(tài)轉(zhuǎn)換技術(shù)，讓智能客服可以自動(dòng)地對用戶上傳的圖片或視頻進(jìn)行自動(dòng)應(yīng)答。

在物流場景，京東也成功地將視頻分析技術(shù)應(yīng)用于物流園區(qū)作業(yè)人員行為規(guī)范管理中，特別是針對監(jiān)控視頻的站點(diǎn)環(huán)境、攝像頭角度和成像條件差異性較大等難點(diǎn)，京東采用了自研的基于局部——全局傳播網(wǎng)絡(luò)的通用視頻特征以及高效視頻事件時(shí)序檢測框架，并融入了跨域?qū)W習(xí)技術(shù)，實(shí)現(xiàn)了同時(shí)在幾百個(gè)不同的站點(diǎn)中全天候的作業(yè)人員操作行為實(shí)時(shí)檢測，有效地管理了物流作業(yè)人員在各個(gè)站點(diǎn)的工作規(guī)范。

可能會(huì)有人好奇，這背后的多模態(tài)技術(shù)在京東電商和物流場景中具體是如何實(shí)現(xiàn)的，多模態(tài)技術(shù)在電商和物流中還有哪些熱門的落地應(yīng)用，多模態(tài)技術(shù)本身當(dāng)前發(fā)展到哪一步了，目前發(fā)展遇到了哪些瓶頸，未來又將向哪些方向發(fā)展，等等。

帶著這些問題，CSDN 邀請到了京東 AI 研究院算法科學(xué)家姚霆博士，來為我們答疑解惑。

師從多媒體領(lǐng)域領(lǐng)軍人物Chong-Wah Ngo

姚霆本科和碩士畢業(yè)于中國科學(xué)技術(shù)大學(xué)，博士就讀于香港城市大學(xué)，師從 ACM 杰出科學(xué)家，也是多媒體領(lǐng)域的領(lǐng)軍人物之一 Chong-Wah Ngo 教授。博士畢業(yè)后，他加入微軟亞洲研究院任職研究員，主研計(jì)算機(jī)視覺。2018 年 6 月，姚霆加入京東 AI 研究院，擔(dān)任算法科學(xué)家，負(fù)責(zé)領(lǐng)導(dǎo)京東視覺與多媒體實(shí)驗(yàn)室的視覺內(nèi)容分析團(tuán)隊(duì)，研究方向主要關(guān)注視頻內(nèi)容理解、視覺與語言，以及大規(guī)模多媒體內(nèi)容搜索。

姚霆在 CVPR/ICCV/ECCV/AAAI/SIGIR/ACM MM/TIP/TMM 等會(huì)議/期刊上已發(fā)表論文 50 余篇（引用率 3600 余次），現(xiàn)任多媒體領(lǐng)域?qū)W術(shù)期刊 IEEE Transactions on Multimedia 期刊編委。值得一提的是，姚霆還是 P3D ResNet（視頻特征學(xué)習(xí)）、LSTM-A（圖像語義屬性）、GCN-LSTM（圖像物體關(guān)系）、HIP（圖像分層解析）、X-LAN（高階注意力機(jī)制）的作者和計(jì)算機(jī)視覺領(lǐng)域重要數(shù)據(jù)集MSR-VTT（視頻描述生成）的創(chuàng)建人，曾帶領(lǐng)團(tuán)隊(duì)獲得多項(xiàng)視頻內(nèi)容理解和跨域?qū)W習(xí)競賽冠軍，是當(dāng)之無愧的學(xué)術(shù)帶頭人。

實(shí)際上，姚霆不僅在學(xué)術(shù)上成果頗豐，在京東也有更多機(jī)會(huì)將實(shí)驗(yàn)室的研究成果落地。

在這里，AI 研究院計(jì)算機(jī)視覺和多媒體實(shí)驗(yàn)室主要有 4 個(gè)研究方向：人臉計(jì)算、人體分析、圖像理解和視頻分析，而姚霆所帶領(lǐng)的視覺內(nèi)容分析團(tuán)隊(duì)主要關(guān)注兩個(gè)方向，即視頻內(nèi)容理解和視覺與語言。前者包括從底層的針對視頻理解的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)，視頻特征表達(dá)學(xué)習(xí)，到視頻動(dòng)作/事件識(shí)別，動(dòng)作定位和檢測，視頻語義分割，視頻描述生成等全棧式的分析維度，后者則集中在圖像/視頻的語義特征學(xué)習(xí)，視覺與語言的特征交互，以及跨模態(tài)的預(yù)訓(xùn)練課題。

以學(xué)術(shù)研究帶動(dòng)產(chǎn)業(yè)落地，正是姚霆所帶領(lǐng)的團(tuán)隊(duì)要做的事，在多模態(tài)技術(shù)研究上，這支團(tuán)隊(duì)一直嘗試多模態(tài)領(lǐng)域有所突破，比如近期該實(shí)驗(yàn)室在視覺與語言方向提出了一個(gè)全新的高階注意力機(jī)制（X-linear Attention Block），次將其融入至圖像描述生成任務(wù)中，主要的技術(shù)創(chuàng)新是打破了傳統(tǒng)注意力機(jī)制中一階的特征交互限制，通過所設(shè)計(jì)的高階注意力機(jī)制可以靈活地捕捉不同模態(tài)間高階乃至無窮階的特征交互，大大提升了視覺到語言的跨模態(tài)轉(zhuǎn)換性能。這個(gè)注意力機(jī)制在 COCO 在線測試集上達(dá)到世界領(lǐng)先的水平，并被 CVPR 2020 接收。

在視頻內(nèi)容理解課題上，實(shí)驗(yàn)室在 2019 年提出了局部——全局傳播（LGD）網(wǎng)絡(luò)。這種全新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)另辟蹊徑地在傳統(tǒng)三維卷積網(wǎng)絡(luò)基礎(chǔ)上引入了對全局信息的d立建模，提升了視頻基礎(chǔ)特征的描述能力。此外，不同于現(xiàn)有的由人工設(shè)定的視頻網(wǎng)絡(luò)結(jié)構(gòu)，實(shí)驗(yàn)室還創(chuàng)新性地提出了基于可微分結(jié)構(gòu)搜索的視頻網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)搜索方法（SDAS），從而在視頻數(shù)據(jù)上讓機(jī)器自動(dòng)地學(xué)習(xí)和設(shè)計(jì)針對視頻內(nèi)容理解的網(wǎng)絡(luò)結(jié)構(gòu)，同時(shí)也可以在搜索過程中加入對于運(yùn)行效率的約束，以定制化地搜索優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)。

多模態(tài)表示學(xué)習(xí)、模態(tài)轉(zhuǎn)化等“老大難”問題怎么解決？

保持技術(shù)創(chuàng)新的過程中，姚霆團(tuán)隊(duì)很清楚地意識(shí)到，多模態(tài)在技術(shù)層面一定繞不過一些難以解決的“老大難”問題，比如多模態(tài)表示學(xué)習(xí)、模態(tài)轉(zhuǎn)化、多模態(tài)融合、跨模態(tài)分析、跨域?qū)W習(xí)，就是幾個(gè)典型的挑戰(zhàn)。針對這些問題，京東其實(shí)提出了一些有效的方法，也許對相關(guān)領(lǐng)域的研究人員和學(xué)習(xí)者有一定借鑒意義。

在多模態(tài)表示和跨模態(tài)轉(zhuǎn)化方向，姚霆以視覺和語言方面舉例，2017 年在圖像特征表達(dá)方面融入了高層語義特征，以增強(qiáng)所生成語言描述和圖像的語義一致性；2018 年則更進(jìn)一步挖掘了圖像中物體和物體間的語義空間關(guān)系，構(gòu)建出物體間語義和空間的關(guān)系圖，從而促進(jìn)對圖像內(nèi)容的深層次理解。然而，盡管物體間關(guān)系圖有效地引入了物體間關(guān)系的語義信息，但依然無法充分表達(dá)整個(gè)圖像所包含的豐富語義，所以在 2019 年，京東又提出了一種多層次的樹形語義結(jié)構(gòu)，它囊括了從語義分割后的物體實(shí)例到檢測后的物體區(qū)域再到整個(gè)圖像的不同層級之間的語義信息。通過這樣一種樹形結(jié)構(gòu)，可以有效地對物體不同層次間語義關(guān)聯(lián)性進(jìn)行編碼，從而終生成更為精準(zhǔn)的描述文本。

這一系列工作的研究脈絡(luò)基本都是圍繞著在跨模態(tài)轉(zhuǎn)化過程中不斷強(qiáng)調(diào)對視覺內(nèi)容的理解，而語言建模部分都是采用通用的 RNN 或 Transformer 類似的結(jié)構(gòu)來實(shí)現(xiàn)。不同于這一研究脈絡(luò)，在今年京東新的工作中，他們在上文中提到的高階注意力機(jī)制則逐漸聚焦于視覺內(nèi)容和語言建模這兩者之間的特征交互，希望可以通過不同模態(tài)間基于高階的信息交互，讓兩者成為相互促進(jìn)的整體。

跨域?qū)W習(xí)也是京東另一個(gè)持續(xù)關(guān)注的研究方向。姚霆解釋到，因?yàn)榭缬驅(qū)W習(xí)可以很好地提升模型在不同場景下的泛化能力，并且無需更多目標(biāo)場景下的人工標(biāo)注就能實(shí)現(xiàn)模型在不同域下的遷移，這與京東在各種實(shí)際場景中快速進(jìn)行模型落地的需求吻合。所以，針對跨域?qū)W習(xí)，京東在廣度和深度上都有一些研究。

先在廣度上，京東研究了如何在圖像整體特征級別、局部區(qū)域級別和像素級別進(jìn)行跨域?qū)W習(xí)，使得這些跨域?qū)W習(xí)技術(shù)可以無縫地適用于圖像識(shí)別、物體檢測和語義分割這幾大任務(wù)，同時(shí)脫離開特征級別的跨域遷移，還結(jié)合生成式對抗網(wǎng)絡(luò)，直接在原始圖像、視頻上進(jìn)行無監(jiān)督跨域轉(zhuǎn)換。

在深度上，實(shí)驗(yàn)室也對跨域?qū)W習(xí)框架進(jìn)行了一些變革與創(chuàng)新，比如 2019 年提出了一個(gè)基于原型網(wǎng)絡(luò)的跨域?qū)W習(xí)框架（TPN，Transferrable Prototypical Networks），它可以將特征學(xué)習(xí)和目標(biāo)任務(wù)的學(xué)習(xí)融為一體，有效地提升跨域?qū)W習(xí)的性能，此外，實(shí)驗(yàn)室還從理論上證明了自主學(xué)習(xí)（self-learning）對于模型跨域轉(zhuǎn)換的促進(jìn)作用。在今年的 CVPR 上，實(shí)驗(yàn)室利用無監(jiān)督聚類技術(shù)深挖目標(biāo)域的內(nèi)在數(shù)據(jù)結(jié)構(gòu)，并利用這一信息更好地指導(dǎo)跨域?qū)W習(xí)，在主流的數(shù)據(jù)集 Office 和 VisDA的封閉集和開放集上均取得了 SOTA 效果，其中在 VisDA 2017 數(shù)據(jù)集上達(dá)到 87.2% 的準(zhǔn)確率。。

多模態(tài)熱門應(yīng)用之視頻分析

再進(jìn)一步聊到多模態(tài)技術(shù)在應(yīng)用上的進(jìn)展，姚霆提到了視頻分析技術(shù)實(shí)用性非常強(qiáng)的熱門研究方向。京東當(dāng)然也洞察到這個(gè)有潛力的方向，在視頻分析技術(shù)的各大方向均有自研的d創(chuàng)性工作。

其中基本是視頻特征表達(dá)的學(xué)習(xí)，目標(biāo)在于從原始視頻數(shù)據(jù)中學(xué)習(xí)包含高層語義信息的特征向量。為此，姚霆團(tuán)隊(duì)設(shè)計(jì)了幾種d特的三維卷積網(wǎng)絡(luò)模型，比如偽三維卷積神經(jīng)網(wǎng)絡(luò)和局部——全局傳播網(wǎng)絡(luò)。在這些特征的基礎(chǔ)上，實(shí)驗(yàn)室還搭建了包括視頻事件檢測、視頻語義分割和視頻動(dòng)作檢測的視頻理解系統(tǒng)，實(shí)現(xiàn)對視頻內(nèi)容的全方位分析。與此同時(shí)，在每一個(gè)視頻分析的具體應(yīng)用中，實(shí)驗(yàn)室也都沉淀了相應(yīng)的技術(shù)創(chuàng)新，比如針對視頻事件檢測提出了使用時(shí)域高斯函數(shù)對事件發(fā)生時(shí)間段進(jìn)行預(yù)測的方法，同時(shí)也設(shè)計(jì)了基于網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)搜索的語義分割方法，用以達(dá)成實(shí)時(shí)的視頻語義分割；針對視頻動(dòng)作檢測，提出了同時(shí)對長短時(shí)關(guān)聯(lián)性進(jìn)行建模的方法，也獲得了在該領(lǐng)域領(lǐng)先的性能。

多模態(tài)熱門應(yīng)用之視頻分析之視頻內(nèi)容理解

視頻內(nèi)容理解同樣是一個(gè)熱門的多模態(tài)研究方向。姚霆預(yù)測，在未來，視頻內(nèi)容理解有兩個(gè)較為重要的發(fā)展趨勢，即無標(biāo)注或弱標(biāo)注視頻數(shù)據(jù)的使用，以及針對視頻特質(zhì)的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)。

先，數(shù)據(jù)是深度學(xué)習(xí)訓(xùn)練的基礎(chǔ)，同時(shí)也是發(fā)展視頻內(nèi)容理解技術(shù)的必備條件。目前視頻內(nèi)容理解系統(tǒng)的訓(xùn)練通常依靠大量的人工標(biāo)注視頻數(shù)據(jù)，這就不可避免地需要耗費(fèi)時(shí)間和人力。如果可以充分利用互聯(lián)網(wǎng)上海量的無標(biāo)注或弱標(biāo)注視頻數(shù)據(jù)來進(jìn)行訓(xùn)練，將會(huì)突破視頻數(shù)據(jù)來源的限制，全面提升視頻內(nèi)容理解的性能。因此，無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)與弱監(jiān)督學(xué)習(xí)都將成為視頻內(nèi)容理解的新趨勢。

另一個(gè)方向則是針對視頻特質(zhì)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)，目前視頻內(nèi)容理解中所使用的網(wǎng)絡(luò)結(jié)構(gòu)通常與圖像領(lǐng)域的網(wǎng)絡(luò)結(jié)構(gòu)高度耦合，它們并不是真正為視頻而生的網(wǎng)絡(luò)結(jié)構(gòu)，缺乏對視頻數(shù)據(jù)d到且深刻的見解。所以，如何針對視頻數(shù)據(jù)來設(shè)計(jì)全新一代的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，也是視頻內(nèi)容理解領(lǐng)域一個(gè)重要的發(fā)展趨勢。

針對跨模態(tài)分析領(lǐng)域，盡管視覺內(nèi)容的理解可以隨著各種高性能網(wǎng)絡(luò)的設(shè)計(jì)和深層語義的挖掘不斷升級，視覺和語言間交互的方式也已經(jīng)從傳統(tǒng)的一階注意力機(jī)制演化到可捕捉高階乃至無窮階信息交互的注意力機(jī)制，但視覺與語言的技術(shù)發(fā)展依然逃脫不了深度學(xué)習(xí)對于訓(xùn)練數(shù)據(jù)的貪婪。

因此，如何能在海量的弱監(jiān)督數(shù)據(jù)上學(xué)習(xí)更具泛化能力的視覺和語言之間本質(zhì)聯(lián)系，將是下一個(gè)研究的熱潮。而一旦在這些海量的弱監(jiān)督甚至于無監(jiān)督數(shù)據(jù)上通過預(yù)訓(xùn)練學(xué)習(xí)到了蘊(yùn)含有多模態(tài)間本質(zhì)聯(lián)系的模型，便可賦予它在各種視覺與語言任務(wù)上的生命力�；诖�，我們近也在數(shù)以億計(jì)的網(wǎng)頁上持續(xù)不斷地自動(dòng)抓取視頻——語言的多模態(tài)數(shù)據(jù)，構(gòu)建了視頻——語言領(lǐng)域弱監(jiān)督的大規(guī)模數(shù)據(jù)集（Auto-captions on GIF dataset），并正在 ACM Multimedia 2020 上舉辦跨模態(tài)預(yù)訓(xùn)練的競賽，其目的還是希望能為跨模態(tài)預(yù)訓(xùn)練技術(shù)的未來發(fā)展準(zhǔn)備好一個(gè)充分與完備的平臺(tái)。

電商、物流+多模態(tài)發(fā)展空間大，突破口在哪？

盡管電商和物流業(yè)中，計(jì)算機(jī)視覺和多媒體技術(shù)已經(jīng)有很多落地應(yīng)用了，比如拍照購、內(nèi)容審核和物流園區(qū)作業(yè)人員行為規(guī)范管理等，但在姚霆看來，縱觀整個(gè)電商和物流體系，依然有一部分業(yè)務(wù)需要人工檢驗(yàn)確認(rèn)步驟，還遠(yuǎn)遠(yuǎn)沒有達(dá)到計(jì)算機(jī)視覺和多媒體技術(shù)完全自主的階段。簡言之，當(dāng)前電商、物流場景與這些技術(shù)的結(jié)合還處于局部智能化的階段，整個(gè)產(chǎn)業(yè)鏈并沒有得到顛覆性的革新。

“我們希望，隨著整個(gè)電商平臺(tái)和供應(yīng)鏈的不斷數(shù)字化，加上智能配送系統(tǒng)的持續(xù)發(fā)展，未來的電商、物流業(yè)務(wù)可以從計(jì)算機(jī)視覺和多媒體技術(shù)輔助的方式，逐漸轉(zhuǎn)變成為由這些技術(shù)完全主導(dǎo)的機(jī)器自助，乃至多機(jī)協(xié)同，在電商與物流的每一個(gè)環(huán)節(jié)上都盡可能地使用智能的方式進(jìn)行全局調(diào)度，尋求更加高效智能的供應(yīng)鏈。這也正是我們目前正在建設(shè)的智能供應(yīng)鏈開放平臺(tái)的愿景，即依托人工智能技術(shù)與供應(yīng)鏈系統(tǒng)，打造智能供應(yīng)鏈產(chǎn)業(yè)生態(tài)，賦能現(xiàn)代供應(yīng)鏈的生產(chǎn)、流通、消費(fèi)三大場景。”雖然電商和物流業(yè)中多模態(tài)技術(shù)的應(yīng)用還不夠成熟，但姚霆十分看好這一領(lǐng)域的發(fā)展空間。

多模態(tài)技術(shù)被很多人視為未來獲得真正的機(jī)器智能的途徑之一，對于這一觀點(diǎn)，姚霆表示不能完全認(rèn)同。他認(rèn)為，先需要肯定的是，相比于只側(cè)重單一模態(tài)的技術(shù)（比如圖像識(shí)別、動(dòng)作檢測、機(jī)器翻譯等），多模態(tài)技術(shù)一定距離真正的機(jī)器智能更近一些，因?yàn)闄C(jī)器智能的終極目的是模擬人的智能，而人之本身對于這個(gè)世界的認(rèn)識(shí)一定是視聽說的結(jié)合，這就對應(yīng)著多模態(tài)技術(shù)的融合。因此，對于機(jī)器而言，只有綜合來源于不同模態(tài)的知識(shí)才能對這個(gè)真實(shí)的世界實(shí)現(xiàn)全面綜合的理解，這也正是達(dá)到真正人類級別的智能的基石之一。但是，當(dāng)前的多模態(tài)技術(shù)還遠(yuǎn)遠(yuǎn)未達(dá)到能通向真正機(jī)器智能的水平，因?yàn)樗狈α巳说闹悄苤袨殛P(guān)鍵的推理能力，這也正是多模態(tài)技術(shù)在未來亟需突破的一個(gè)瓶頸。

多模態(tài)研究歷史不長，至今沒有顛覆性的成果出現(xiàn)，要想獲得進(jìn)一步發(fā)展，多模態(tài)技術(shù)研究將來要對準(zhǔn)哪些突破口？

對此，姚霆也有自己的看法，“目前大部分多模態(tài)技術(shù)走的還是深度學(xué)習(xí)中拿大量的已標(biāo)注多模態(tài)數(shù)據(jù)來喂深度模型的老路子，即數(shù)據(jù)驅(qū)動(dòng)模型的感知計(jì)算，這就導(dǎo)致訓(xùn)練得到的多模態(tài)模型不具備人腦一樣的推理能力，其在真實(shí)場景下的泛化能力也大大受限。如果能在現(xiàn)有的多模態(tài)技術(shù)中融入專家、常識(shí)知識(shí)（例如結(jié)合知識(shí)圖譜），則能利用數(shù)據(jù)與知識(shí)的聯(lián)合驅(qū)動(dòng)讓多模態(tài)技術(shù)更為“智能”。同時(shí)，也可以在多模態(tài)模型訓(xùn)練的過程中引入多種自監(jiān)督的推理型任務(wù)，“強(qiáng)迫”多模態(tài)模型進(jìn)行推理和思考，這也能在一定程度上讓機(jī)器去慢慢學(xué)會(huì)推理�！�

此外，姚霆還指出，當(dāng)前的多模態(tài)技術(shù)還是屬于狹隘的單任務(wù)學(xué)習(xí)，整個(gè)訓(xùn)練和測試的過程都是在封閉和靜態(tài)的環(huán)境下進(jìn)行，這就和真實(shí)世界中開放動(dòng)態(tài)的應(yīng)用場景存在一定的差異性。為了彌補(bǔ)這一差異，我們可以在訓(xùn)練過程不斷結(jié)合真實(shí)世界數(shù)據(jù)的回流來持續(xù)升級多媒體模型，甚至于可以利用元學(xué)習(xí)的方式來讓模型自己學(xué)會(huì)如何認(rèn)知新的多模態(tài)知識(shí)，實(shí)現(xiàn)適用于開放動(dòng)態(tài)場景并具備終生學(xué)習(xí)能力的多模態(tài)模型。

利用時(shí)序信息提升遮擋行人檢測準(zhǔn)確度

Tube Feature Aggregation Network（TFAN）新方法，即利用時(shí)序信息來輔助當(dāng)前幀的遮擋行人檢測，目前該方法已在 Caltech 和 NightOwls 兩個(gè)數(shù)據(jù)集取得了業(yè)界領(lǐng)先的準(zhǔn)確率

基于網(wǎng)格圖特征的琵琶指法自動(dòng)識(shí)別

根據(jù)各種指法的具體特點(diǎn),對時(shí)頻網(wǎng)格圖、時(shí)域網(wǎng)格圖、頻域網(wǎng)格圖劃分出若干個(gè)不同的計(jì)算區(qū)域,并以每個(gè)計(jì)算區(qū)域的均值與標(biāo)準(zhǔn)差作為指法自動(dòng)識(shí)別的特征使用，用于基于機(jī)器學(xué)習(xí)方法的指法自動(dòng)識(shí)別

知識(shí)圖譜在個(gè)性化推薦領(lǐng)域的研究進(jìn)展及應(yīng)用

新加坡國立大學(xué)NExT中心的王翔博士分析了知識(shí)圖譜在個(gè)性化推薦領(lǐng)域的應(yīng)用背景，并詳細(xì)介紹了課題組在個(gè)性化推薦中的相關(guān)研究技術(shù)和進(jìn)展，包括基于路徑、基于表征學(xué)習(xí)、基于圖神經(jīng)網(wǎng)絡(luò)等知識(shí)圖譜在推薦系統(tǒng)中的融合技術(shù)

重構(gòu)ncnn，騰訊優(yōu)圖開源新一代移動(dòng)端推理框架TNN

新一代移動(dòng)端深度學(xué)習(xí)推理框架TNN，通過底層技術(shù)優(yōu)化實(shí)現(xiàn)在多個(gè)不同平臺(tái)的輕量部署落地，性能優(yōu)異、簡單易用。騰訊方面稱，基于TNN，開發(fā)者能夠輕松將深度學(xué)習(xí)算法移植到手機(jī)端高效的執(zhí)行，開發(fā)出人工智能 App，真正將 AI 帶到指尖

達(dá)摩院金榕教授113頁P(yáng)PT詳解達(dá)摩院在NLP、語音和CV上的進(jìn)展與應(yīng)用實(shí)踐

達(dá)摩院金榕教授介紹了語音、自然語言處理、計(jì)算機(jī)視覺三大核心AI技術(shù)的關(guān)鍵進(jìn)展，并就AI技術(shù)在在實(shí)際應(yīng)用中的關(guān)鍵挑戰(zhàn)，以及達(dá)摩院應(yīng)對挑戰(zhàn)的創(chuàng)新實(shí)踐進(jìn)行了解讀

OpenAI發(fā)布了有史以來最強(qiáng)的NLP預(yù)訓(xùn)練模型GPT-3

2020年5月底OpenAI發(fā)布了有史以來最強(qiáng)的NLP預(yù)訓(xùn)練模型GPT-3，最大的GPT-3模型參數(shù)達(dá)到了1750億個(gè)參數(shù)

多尺度圖卷積神經(jīng)網(wǎng)絡(luò)：有效統(tǒng)一三維形狀離散化特征表示

解決了傳統(tǒng)圖卷積神經(jīng)網(wǎng)絡(luò)中圖節(jié)點(diǎn)學(xué)習(xí)到的特征對圖分辨率和連接關(guān)系敏感的問題，可以實(shí)現(xiàn)在低分辨率的三維形狀上學(xué)習(xí)特征，在高低分辨率形狀之上進(jìn)行測試，并且保持不同分辨率特征的一致性

履約時(shí)間預(yù)估：如何讓外賣更快送達(dá)

外賣履約時(shí)間預(yù)估模型，預(yù)估的是從用戶下單開始到騎手將餐品送達(dá)用戶手中所花的時(shí)間

性能超越最新序列推薦模型，華為諾亞方舟提出記憶增強(qiáng)的圖神經(jīng)網(wǎng)絡(luò)

記憶增強(qiáng)的圖神經(jīng)網(wǎng)絡(luò)對短期的商品語境信息建模，并使用共享的記憶網(wǎng)絡(luò)來捕捉商品之間的長期依賴，對多個(gè)模型進(jìn)行了對比,在Top-K序列推薦中效果極佳

如何創(chuàng)造可信的AI，這里有馬庫斯的11條建議

馬庫斯系統(tǒng)性地闡述了對當(dāng)前AI研究界的批判，從認(rèn)識(shí)科學(xué)領(lǐng)域中針對性地給出了11條可執(zhí)行的建議

用于微創(chuàng)手術(shù)的觸覺傳感器（二）

MIS 和RMIS觸覺傳感器最常用的傳感原理是基于電氣的傳感器。這些觸覺傳感器進(jìn)一步分為壓阻型、壓電型和電容型傳感器

用于微創(chuàng)手術(shù)的觸覺傳感器

應(yīng)用于MIS的觸覺傳感器主要是基于電學(xué)或光學(xué)原理開發(fā)的，應(yīng)該是小尺寸和圓柱形的，可在導(dǎo)管的管身或尖端集成

資料獲取

新聞資訊

== 資訊 ==

» 關(guān)于印發(fā)廣東省推動(dòng)人工智能與機(jī)器人產(chǎn)業(yè)創(chuàng)

» 人工智能機(jī)器人的崛起,2035年將有13

» DeepSeek使用教程藍(lán)皮書-從入門到

» 教大家如何使用Deepseek AI進(jìn)行

» DeepSeek隱藏玩法，不要用結(jié)構(gòu)化提

» DeepSeek神級提示詞,讓你輕松駕馭

» DeepSeek 30個(gè)喂飯指令-知識(shí)付

» DeepSeek 提問攻略、使用實(shí)例和心

» DeepSeek實(shí)用萬能提問模板,(背景

» DeepSeek V3搭建個(gè)人知識(shí)庫教程

» Deepseek 不好用，是你真的不會(huì)用

» 2025年Manus智能體開啟AI新范式

» 如何用 deepseek 做數(shù)據(jù)分析,有

» 如何用 deepseek 整理會(huì)議紀(jì)要,

» 如何用 deepseek 制定減肥計(jì)劃,

== 機(jī)器人推薦 ==

迎賓講解服務(wù)機(jī)器人

服務(wù)機(jī)器人(迎賓、講解、導(dǎo)診...)

智能消毒機(jī)器人

智能消毒機(jī)器人

機(jī)器人底盤

機(jī)器人底盤

商用機(jī)器人 Disinfection Robot 展廳機(jī)器人智能垃圾站輪式機(jī)器人底盤迎賓機(jī)器人移動(dòng)機(jī)器人底盤講解機(jī)器人紫外線消毒機(jī)器人大屏機(jī)器人霧化消毒機(jī)器人服務(wù)機(jī)器人底盤智能送餐機(jī)器人霧化消毒機(jī) 機(jī)器人OEM代工廠消毒機(jī)器人排名智能配送機(jī)器人圖書館機(jī)器人導(dǎo)引機(jī)器人移動(dòng)消毒機(jī)器人導(dǎo)診機(jī)器人迎賓接待機(jī)器人前臺(tái)機(jī)器人導(dǎo)覽機(jī)器人酒店送物機(jī)器人云跡科技潤機(jī)器人云跡酒店機(jī)器人智能導(dǎo)診機(jī)器人

版權(quán)所有 © 創(chuàng)澤智能機(jī)器人集團(tuán)股份有限公司 中國運(yùn)營中心：北京·清華科技園九號(hào)樓5層中國生產(chǎn)中心：山東日照太原路71號(hào)
銷售1：4006-935-088 銷售2：4006-937-088 客服電話： 4008-128-728

<li id="hnt6f"></li>

<span id="hnt6f"><small id="hnt6f"><wbr id="hnt6f"></wbr></small></span>