首頁
產(chǎn)品系列
行業(yè)應用
渠道合作
新聞中心
研究院
投資者關系
技術支持
關于創(chuàng)澤
| En
 
  當前位置:首頁 > 新聞資訊 > 機器人開發(fā) > 如何搭建一個GPU加速的分布式機器學習系統(tǒng),遇到的問題和解決方法  
 

如何搭建一個GPU加速的分布式機器學習系統(tǒng),遇到的問題和解決方法

來源:阿里機器智能      編輯:創(chuàng)澤      時間:2020/6/18      主題:其他   [加盟]

小嘰導讀:在解決實際問題的時候,很多人認為只要有機器學習算法就可以了,實際上要把一個算法落地還需要解決很多工程上的難題。本文將和大家分享如何從零開始搭建一個GPU加速的分布式機器學習系統(tǒng),介紹在搭建過程中遇到的問題和解決方法。

一  背景

在云計算環(huán)境下,虛擬機的負載均衡、自動伸縮、綠色節(jié)能以及宿主機升級等需求使得我們需要利用虛擬機(VM)遷移技術,尤其是虛擬機熱遷移技術,對于down time(停機時間)要求比較高,停機時間越短,客戶業(yè)務中斷時間就越短,影響就越小。如果能夠根據(jù)VM的歷史工作負載預測其未來的工作負載趨勢,就能夠尋找到最合適的時間窗口完成虛擬機熱遷移的操作。

于是我們開始探索如何用機器學習算法預測ECS虛擬機的負載以及熱遷移的停機時間,但是機器學習算法要在生產(chǎn)環(huán)境發(fā)揮作用,還需要很多配套系統(tǒng)去支持。為了能快速將現(xiàn)有算法在實際生產(chǎn)環(huán)境落地,并能利用GPU加速實現(xiàn)大規(guī)模計算,我們自己搭建了一個GPU加速的大規(guī)模分布式機器學習系統(tǒng),取名小諸葛,作為ECS數(shù)據(jù)中臺的異構機器學習算法加速引擎。搭載以上算法的小諸葛已經(jīng)在生產(chǎn)環(huán)境上線,支撐阿里云全網(wǎng)規(guī)模的虛擬機的大規(guī)模熱遷移預測。

二  方案

那么一套完整大規(guī)模分布式系統(tǒng)機器學習系統(tǒng)需要哪些組成部分呢?

1  總體架構

阿里云全網(wǎng)如此大規(guī)模的虛擬機數(shù)量,要實現(xiàn)24小時之內完成預測,需要在端到端整個流程的每一個環(huán)節(jié)做優(yōu)化。所以這必然是一個復雜的工程實現(xiàn),為了高效的搭建這個平臺,大量使用了現(xiàn)有阿里云上的產(chǎn)品服務來搭建。

整個平臺包含:Web服務、MQ消息隊列、Redis數(shù)據(jù)庫、SLS/MaxComputer/HybridDB數(shù)據(jù)獲取、OSS模型倉庫的上傳下載、GPU云服務器、DASK分布式框架、RAPIDS加速庫。

1)架構

下圖是小諸葛的總體架構圖。






拯救渣畫質,馬賽克圖秒變高清,杜克大學提出AI新算法

杜克大學的一種 AI 算法PULSE可以將模糊、無法識別的人臉圖像轉換成計算機生成的圖像,其細節(jié)比之前任何時候都更加精細、逼真

餓了么推薦算法的演進及在線學習實踐

餓了么算法專家劉金介紹推薦業(yè)務背景,包括推薦產(chǎn)品形態(tài)及算法優(yōu)化目標;然后是算法的演進路線;最后重點介紹在線學習是如何在餓了么推薦領域實踐的

百變應用場景下,優(yōu)酷基于圖執(zhí)行引擎的算法服務框架筑造之路

優(yōu)酷推薦業(yè)務,算法應用場景眾多,需求靈活多變,需要一套通用業(yè)務框架,支持運行時的算法流程的裝配,提升算法服務場景搭建的效率

內容流量管理的關鍵技術:多任務保量優(yōu)化算法實踐

通過分析其中的關鍵問題,建立了新熱內容曝光敏感模型,并最終給出一種曝光資源約束下的多目標優(yōu)化保量框架與算法

CVPOS自助收銀的挑戰(zhàn)以及商品識別算法工程落地方法和經(jīng)驗

針對結算收銀場景中商品識別的難點,從商品識別落地中的模型選擇、數(shù)據(jù)挑選與標注、前端和云端部署、模型改進等方面,進行了深入講解

面向動態(tài)記憶和學習功能的神經(jīng)電晶體可塑性研究

神經(jīng)形態(tài)結構融合學習和記憶功能領域的研究主要集中在人工突觸的可塑性方面,同時神經(jīng)元膜的固有可塑性在神經(jīng)形態(tài)信息處理的實現(xiàn)中也很重要

人工智能和機器學習之間的差異及其重要性

機器學習就是通過經(jīng)驗來尋找它學習的模式,而人工智能是利用經(jīng)驗來獲取知識和技能,并將這些知識應用于新的環(huán)境

滴滴機器學習平臺調度系統(tǒng)的演進與K8s二次開發(fā)

滴滴機器學習場景下的 k8s 落地實踐與二次開發(fā)的技術實踐與經(jīng)驗,包括平臺穩(wěn)定性、易用性、利用率、平臺 k8s 版本升級與二次開發(fā)等內容

如何更高效地壓縮時序數(shù)據(jù)?基于深度強化學習的探索

大型商用時序數(shù)據(jù)壓縮的特性,提出了一種新的算法,分享用深度強化學習進行數(shù)據(jù)壓縮的研究探索

基于深度學習目標檢測模型優(yōu)缺點對比

深度學習模型:OverFeat、R-CNN、SPP-Net、Fast、R-CNN、Faster、R-CNN、R-FCN、Mask、R-CNN、YOLO、SSD、YOLOv2、416、DSOD300、R-SSD

傳統(tǒng)目標檢測算法對比

SIFT、PCA-SIFT、SURF 、ORB、 VJ 等目標檢測算法優(yōu)缺點對比及使用場合比較

基于深度學習和傳統(tǒng)算法的人體姿態(tài)估計,技術細節(jié)都講清楚了

人體姿態(tài)估計便是計算機視覺領域現(xiàn)有的熱點問題,其主要任務是讓機器自動地檢測場景中的人“在哪里”和理解人在“干什么”
 
資料獲取
新聞資訊
== 資訊 ==
» 人形機器人未來3-5年能夠實現(xiàn)產(chǎn)業(yè)化的方
» 導診服務機器人上崗門診大廳 助力醫(yī)院智慧
» 山東省青島市政府辦公廳發(fā)布《數(shù)字青島20
» 關于印發(fā)《青海省支持大數(shù)據(jù)產(chǎn)業(yè)發(fā)展政策措
» 全屋無主燈智能化規(guī)范
» 微波雷達傳感技術室內照明應用規(guī)范
» 人工智能研發(fā)運營體系(ML0ps)實踐指
» 四驅四轉移動機器人運動模型及應用分析
» 國內細分賽道企業(yè)在 AIGC 各應用場景
» 國內科技大廠布局生成式 AI,未來有望借
» AIGC領域相關初創(chuàng)公司及業(yè)務場景梳理
» ChatGPT 以 GPT+RLHF 模
» AIGC提升文字 圖片滲透率,視頻 直播
» AI商業(yè)化空間前景廣闊應用場景豐富
» AI 內容創(chuàng)作成本大幅降低且耗時更短 優(yōu)
 
== 機器人推薦 ==
 
迎賓講解服務機器人

服務機器人(迎賓、講解、導診...)

智能消毒機器人

智能消毒機器人

機器人底盤

機器人底盤

 

商用機器人  Disinfection Robot   展廳機器人  智能垃圾站  輪式機器人底盤  迎賓機器人  移動機器人底盤  講解機器人  紫外線消毒機器人  大屏機器人  霧化消毒機器人  服務機器人底盤  智能送餐機器人  霧化消毒機  機器人OEM代工廠  消毒機器人排名  智能配送機器人  圖書館機器人  導引機器人  移動消毒機器人  導診機器人  迎賓接待機器人  前臺機器人  導覽機器人  酒店送物機器人  云跡科技潤機器人  云跡酒店機器人  智能導診機器人 
版權所有 © 創(chuàng)澤智能機器人集團股份有限公司     中國運營中心:北京·清華科技園九號樓5層     中國生產(chǎn)中心:山東日照太原路71號
銷售1:4006-935-088    銷售2:4006-937-088   客服電話: 4008-128-728