首頁(yè)
產(chǎn)品系列
行業(yè)應(yīng)用
渠道合作
新聞中心
研究院
投資者關(guān)系
技術(shù)支持
關(guān)于創(chuàng)澤
| En
 
  當(dāng)前位置:首頁(yè) > 新聞資訊 > 機(jī)器人開發(fā) > 音樂人工智能、計(jì)算機(jī)聽覺及音樂科技  
 

音樂人工智能、計(jì)算機(jī)聽覺及音樂科技

來源:CAAI認(rèn)知系統(tǒng)與信息處理專委會(huì)      編輯:創(chuàng)澤      時(shí)間:2020/5/28      主題:其他   [加盟]
本文面向音樂科技、音樂人工智能與計(jì)算機(jī)聽覺這一文理交融的新興交叉學(xué)科,介紹其學(xué)科范疇、發(fā)展歷史、研究領(lǐng)域、產(chǎn)業(yè)應(yīng)用等。闡明音樂科技、聲音與音樂計(jì)算、音樂人工智能、音樂信息檢索MIR、計(jì)算機(jī)聽覺、音樂聲學(xué)等各個(gè)學(xué)科名詞之間的相互關(guān)系。最后,總結(jié)學(xué)科發(fā)展面臨的困難,展望其未來發(fā)展趨勢(shì)。


1. 語音信息處理和聲音與音樂計(jì)算

聲音是人類獲取信息的重要來源,可劃分為語音(Speech)、音樂(Music)和一般音頻/環(huán)境聲(General Audio/Environmental Sound)三大類。人類的語言具有特定的詞匯及語法結(jié)構(gòu),用于在人類中傳遞信息。語音是語言的聲音載體,語音信號(hào)屬于復(fù)合音,其基本要素是音高、強(qiáng)度、音長(zhǎng)、音色等。音樂是人類創(chuàng)造的復(fù)雜的藝術(shù)形式,組成成分是各種樂音,包括歌聲、各種管弦和彈撥類樂器發(fā)出的復(fù)合音、少量來自環(huán)境聲的復(fù)合音以及一些來自打擊樂器的噪樂音。其基本要素包括節(jié)奏(Rhythm)、旋律(Melody)、和聲(Harmonic)、力度(Dynamic)、速度(Tempo)、調(diào)性(Tonality)、曲式(Form)、織體(Texture)、音色(Timbre)等。除了人類創(chuàng)造的語音和音樂,在自然界和日常生活中,還存在著其他數(shù)量巨大、種類繁多的聲音,統(tǒng)稱為一般音頻或環(huán)境聲。例如,自然界的風(fēng)聲、雷聲、海浪聲,機(jī)械設(shè)備的噪聲,動(dòng)物的叫聲,人體的心跳、咳嗽、脈搏聲,軍事的槍聲、炮聲、爆炸聲等等,不可盡數(shù)。


根據(jù)以上聲音的三大種類,可以粗略地將聽覺信息處理分成兩塊,如圖1所示。專門處理語音的學(xué)科是語音信息處理,以語言聲學(xué)為基礎(chǔ),歷史悠久,發(fā)展相對(duì)成熟,已獨(dú)立成為一門學(xué)科。包括計(jì)算語言學(xué)、語音識(shí)別、說話人/聲紋識(shí)別、語種識(shí)別、語音增強(qiáng)/去噪/分離、語音合成、語音編碼、語音情感計(jì)算、自然語言處理與口語對(duì)話等經(jīng)典研究領(lǐng)域。面向音樂和一般音頻信息處理的學(xué)科叫做聲音與音樂計(jì)算SMC(Sound and Music Computing)[1]。該領(lǐng)域橫跨文理,在國(guó)外已有50多年的歷史,但是在國(guó)內(nèi)僅有20幾年歷史。包含的研究領(lǐng)域隨著時(shí)代變化也在不斷擴(kuò)展,而且由于涉及藝術(shù)創(chuàng)作,還具有一定的未知性。


2. 音樂科技概覽

2.1 音樂科技

音樂與科技的融合具有悠久的歷史。早在20世紀(jì)50年代,一些不同國(guó)家的作曲家、工程師和科學(xué)家已經(jīng)開始探索利用新的數(shù)字技術(shù)來處理音樂,并逐漸形成了音樂科技/計(jì)算機(jī)音樂(Music Technology/Computer Music)這一交叉學(xué)科。20世紀(jì)70年代之后,歐美各國(guó)相繼建立了多個(gè)大型計(jì)算機(jī)音樂研究機(jī)構(gòu),如1975年建立的美國(guó)斯坦福大學(xué)CCRMA(Center for Computer Research in Music and Acoustics)、1977年建立的法國(guó)巴黎IRCAM(Institute for Research and Coordination Acoustic/Music)、1994年成立的西班牙巴塞羅那UPF(Universitat Pompeu Fabra)大學(xué)MTG(Music Technology Group)、以及2001年成立的英國(guó)倫敦女王大學(xué)C4DM(Center for Digital Music)等。幾十年的歷史中,音樂科技在世界各地都逐漸發(fā)展起來,如美國(guó)的Carnegie Mellon University、Columbia University、New YorkUniversity、George Tech等大學(xué),加拿大麥吉爾大學(xué)的CIRMMT(Centre for Interdisciplinary Research in Music Media and Technology),德國(guó)、日本、新加坡、臺(tái)灣等等。歐洲由于其濃厚的人文和藝術(shù)氣息,歐盟及各國(guó)政府的大力支持成為該領(lǐng)域的世界中心。


音樂科技在中國(guó)大陸發(fā)展較晚,大約20世紀(jì)80年代有人開始零星的研究,90年代一些音樂學(xué)院開始建立音樂科技或音樂工程專業(yè),2000年左右在一些綜合性和理工科大學(xué)開始出現(xiàn)一批來自計(jì)算機(jī)等信息學(xué)科的科研工作者。在中國(guó)文理分割的教育體制下,這兩類人群之間橫亙著巨大的學(xué)科鴻溝。藝術(shù)領(lǐng)域的相關(guān)人員只能運(yùn)用國(guó)外的各種音樂科技軟硬件產(chǎn)品進(jìn)行音樂創(chuàng)作、表演、教育、理論研究,對(duì)其內(nèi)在的科學(xué)技術(shù)原理知之甚少,更無法進(jìn)行科技創(chuàng)新和產(chǎn)品研發(fā)。理工科領(lǐng)域的相關(guān)人員一般具有初級(jí)的音樂知識(shí),但專業(yè)程度差距較大,研究集中于面向消費(fèi)者的音樂科技,研發(fā)面向?qū)I(yè)應(yīng)用的音樂科技產(chǎn)品力不從心。


2013年12月,第一屆中國(guó)聲音與音樂計(jì)算研討會(huì)CSMCW(China Sound and Music Computing Workshop)創(chuàng)建于復(fù)旦大學(xué),為國(guó)內(nèi)同行搭建了一個(gè)產(chǎn)學(xué)研交流的平臺(tái),該會(huì)議2016年更名為中國(guó)聲音與音樂技術(shù)會(huì)議CSMT(Conference on Sound and Music Technology)。該會(huì)議至今已召開七屆(復(fù)旦大學(xué)、清華大學(xué)、上海音樂學(xué)院、南京郵電大學(xué)、蘇州大學(xué)與UCLA蘇州研究院、廈門理工學(xué)院、哈爾濱工業(yè)大學(xué)),逐漸成為國(guó)內(nèi)音樂科技全產(chǎn)業(yè)鏈的交流平臺(tái),為加強(qiáng)科技與藝術(shù)的融合,消除學(xué)科鴻溝做出了重要貢獻(xiàn)。隨著中國(guó)社會(huì)的整體發(fā)展,以及人工智能(AI)技術(shù)的持續(xù)火熱,到2017年左右,音樂科技在國(guó)內(nèi)開始呈現(xiàn)加速發(fā)展的趨勢(shì)。2017年,音樂科技領(lǐng)域國(guó)內(nèi)外的三大重要會(huì)議ISMIR(International Society for Music Information Retrieval Conference)、CSMT、ICMC(International Computer Music Conference)在上海和蘇州連續(xù)舉行。2018年,于中國(guó)音樂學(xué)院舉辦CSMT第一屆音樂人工智能(Music AI)研討會(huì);深圳平安科技有限公司與中央民族大學(xué)建立AI作曲聯(lián)合實(shí)驗(yàn)室;騰訊音樂娛樂集團(tuán)(TME)在美國(guó)上市;大型中文綜述“理解數(shù)字音樂-音樂信息檢索技術(shù)綜述”(CSMT 2017會(huì)議論文集,43頁(yè), 335篇文獻(xiàn))[3]正式發(fā)表。2019年,中央音樂學(xué)院建立音樂人工智能與音樂信息科技系,開始招收博士、碩士研究生,實(shí)行音樂與科技雙導(dǎo)師培養(yǎng)制;AI科學(xué)前沿大會(huì)、北京國(guó)際電子音樂節(jié)等多個(gè)重要會(huì)議開設(shè)音樂人工智能特約報(bào)告專場(chǎng);上海音樂學(xué)院開設(shè)音樂人工智能課程;本文作者在百度百科定義音樂科技、音樂人工智能、音樂信息檢索MIR、計(jì)算機(jī)聽覺、中國(guó)聲音與音樂技術(shù)會(huì)議等五個(gè)學(xué)科詞條;大型中文綜述“理解數(shù)字聲音-基于普通音頻的計(jì)算機(jī)聽覺綜述”(CSMT 2018會(huì)議論文集,45頁(yè),399篇文獻(xiàn))[4]正式發(fā)表;第七屆CSMT會(huì)議參會(huì)人數(shù)超過200人,來自70余個(gè)單位,投稿等各項(xiàng)指標(biāo)均創(chuàng)歷史紀(jì)錄。2020年,四川音樂學(xué)院以音樂科技為突破口建立實(shí)驗(yàn)藝術(shù)學(xué)院;由本文作者主編55位作者聯(lián)合編著的中文教材“音頻音樂與計(jì)算機(jī)的交融-音頻音樂技術(shù)” [5]由復(fù)旦大學(xué)出版社正式出版,全書468頁(yè),895千字。大陸的音樂科技?xì)v經(jīng)坎坷,雖然進(jìn)步巨大,但是在教育體制、科技評(píng)價(jià)、社會(huì)觀念等各方面的制約下,至今仍然處于起步階段。


音樂科技是音樂與科學(xué)技術(shù)的交叉學(xué)科,包含眾多的研究和應(yīng)用領(lǐng)域。在音樂方面,包括計(jì)算音樂學(xué)(Computational Musicology)、電子音樂創(chuàng)作與制作(Electronic Music Creation and Production)、計(jì)算機(jī)輔助的音樂教育(Computer-aided Music Education)、計(jì)算機(jī)輔助的音樂表演(Computer-aidedMusic Performance)、錄音混音(Recording and Remixing)、音效及聲音設(shè)計(jì)(Sound Effect and Sound Design)等。該方面的研究課題比較零散,不成理論體系,依賴于在音樂方面的具體應(yīng)用,有些還涉及藝術(shù)創(chuàng)造。在科技方面,音樂科技指上述的聲音與音樂計(jì)算,下邊詳細(xì)闡述,如圖2右半部分所示。


2.2 聲音與音樂計(jì)算

聲音與音樂計(jì)算是一個(gè)龐大的研究領(lǐng)域,可細(xì)化為多個(gè)學(xué)科分支。其主要內(nèi)容及分類在1995年的文獻(xiàn)[1]中已有描述,本文所述內(nèi)容是作者根據(jù)近年來的最新進(jìn)展以及自己的理解對(duì)[1]進(jìn)行補(bǔ)充完善而成。


(1)音樂生成(Music Generation):包含歌聲合成(Singing Synthesis)、自動(dòng)作曲(AutomaticComposition)、自動(dòng)編曲(Automatic Arrangement)等主要方向,需要較多的音樂知識(shí),技術(shù)實(shí)現(xiàn)比較復(fù)雜。因近年來大量使用機(jī)器學(xué)習(xí)/深度學(xué)習(xí)技術(shù),也可以通俗的稱為人工智能音樂(AI Music)。歌聲合成以語音合成為基礎(chǔ),但需考慮音樂旋律、節(jié)奏、強(qiáng)弱、音色、結(jié)構(gòu)、情感、藝術(shù)技巧等多種音樂要素。自動(dòng)作曲早期稱為算法作曲,近年來進(jìn)化為基于深度學(xué)習(xí)的AI作曲。自動(dòng)編曲在已知主旋律的基礎(chǔ)上編配和弦及各個(gè)聲部,使其成為一首完整的作品。上述研究課題目前只能模仿音樂專業(yè)人員,尚無人類源自靈感的創(chuàng)作能力,且主觀性較強(qiáng),評(píng)價(jià)標(biāo)準(zhǔn)難以統(tǒng)一。


(2)聲音與音樂的內(nèi)容理解與分析:使用計(jì)算方法對(duì)數(shù)字化聲音與音樂的內(nèi)容進(jìn)行理解和分析,例如音樂識(shí)譜(Music Transcription)、旋律提。∕elody Extraction)、節(jié)奏分析(Rhythm Analysis)、和弦識(shí)別(Chord Estimation)、音頻檢索(Audio Retrieval)、流派識(shí)別(Genre Identification)、音樂情感計(jì)算(Music Emotion Calculation)、歌手識(shí)別(Singer Identification)、歌唱評(píng)價(jià)(SingingEvaluation)、歌聲分離(Vocal Separation)等。該分支在20世紀(jì)90年代末隨著互聯(lián)網(wǎng)上數(shù)字音頻和音樂的急劇增加而發(fā)展起來,研究難度大,多項(xiàng)研究?jī)?nèi)容至今仍在持續(xù)進(jìn)行中。與計(jì)算機(jī)視覺CV(Computer Vision)對(duì)應(yīng),該分支也可稱為計(jì)算機(jī)聽覺CA(Computer Audition)或機(jī)器聽覺(Machine Listening)[2]。注意計(jì)算機(jī)聽覺是用來理解分析而不是處理音頻和音樂,狹義上講不包括語音,廣義上亦包括。CA若剔除一般聲音而局限于音樂,則可稱為音樂信息檢索MIR(Music Information Retrieval)。


(3)聲音與音樂信號(hào)處理:用于聲音和音樂的信號(hào)分析、變換及合成,包括頻譜分析(Spectral Analysis)、調(diào)幅(Magnitude Modulation)、調(diào)頻(FrequencyModulation)、低通/高通/帶通/帶阻濾波(Low-pass/High-pass/Band-pass/Band-stop Filtering)、轉(zhuǎn)碼(Transcoding)、無損/有損壓縮(Lossless/Lossy Compression)、重采樣(Resampling)、回聲(Echo)、混音(Remixing)、去噪(Denoising)、變調(diào)PS(Pitch Shifting)、保持音高不變的時(shí)間伸縮TSM(Time-scale Modification/Time Stretching)、時(shí)間縮放(TimeScaling)等。該分支相對(duì)比較成熟,已有多款商業(yè)軟件如Gold Wave、Adobe Audition/Cool Edit、Cubase、Sonar/Cakewalk、EarMaster等。


(4)其它與音頻音樂相關(guān)的科技領(lǐng)域:如聲音與音樂的感知認(rèn)知(Sound and Music Perception and Cognition):研究音樂的大腦機(jī)制,對(duì)心理、情緒的影響等。一般音頻/環(huán)境聲的合成(Sound Synthesis)。聲音與音樂的計(jì)算機(jī)接口:包括樂譜打印(MusicPrinting)、光學(xué)樂譜識(shí)別(Optical Music Recognition)、音響及多聲道聲音系統(tǒng)(Sound and Multi-channelSound System)、聲音裝置及多媒體技術(shù)(Sound Device and Multimedia Technology)等。音頻信息安全:包括音頻信息隱藏(Audio Information Hiding)、魯棒音頻水印(Robust Audio Watermarking)、音頻認(rèn)證(Audio Authentication)、音頻取證(Audio Forensics)、聲紋識(shí)別(VoiceprintRecognition)、聲音偽造(Sound Forge)、音樂抄襲(Music Plagiarism)、AI音樂判別(AI Music Discrimination)等。音樂治療(Music Therapy):將音樂與醫(yī)學(xué)、心理學(xué)、計(jì)算機(jī)相結(jié)合的典型范例。音樂機(jī)器人(Music Robot):包括東西方各種風(fēng)格的表演機(jī)器人、指揮機(jī)器人等。聽覺與視覺/文本相結(jié)合的跨媒體應(yīng)用(Cross-media Applications Combing Audition andVision/Text)等。

 

音樂科技具有眾多應(yīng)用,例如電聲樂器、數(shù)字音源、音頻工作站、計(jì)算機(jī)輔助的音樂教育、計(jì)算音樂學(xué)、音樂表演的量化分析、電子音樂創(chuàng)作與制作、音樂信息檢索MIR、數(shù)字音樂圖書館、交互式多媒體、音頻接口、輔助醫(yī)學(xué)治療、音樂機(jī)器人、音頻數(shù)字水印等。


與音樂有關(guān)但是與SMC不同的另一個(gè)歷史更悠久的學(xué)科是音樂聲學(xué)(Music Acoustics)。音樂聲學(xué)是研究在音樂這種聲音振動(dòng)中存在的物理問題的科學(xué),是音樂學(xué)與物理學(xué)的交叉學(xué)科。音樂聲學(xué)主要研究樂音與噪聲的區(qū)別、音高音強(qiáng)和音色的物理本質(zhì)、基于電磁振蕩的電聲學(xué)、聽覺器官的聲波感受機(jī)制、樂器聲學(xué)、人類發(fā)聲機(jī)制、音律學(xué)、與音樂有關(guān)的室內(nèi)聲學(xué)等。從學(xué)科的角度看,一部分音樂聲學(xué)知識(shí)也是SMC的基礎(chǔ),但SMC研究更依賴于音頻信號(hào)處理和人工智能-機(jī)器學(xué)習(xí)/深度學(xué)習(xí)這兩門學(xué)科。同時(shí),研究?jī)?nèi)容面向音頻與音樂的信號(hào)處理、內(nèi)容分析和理解,與更偏重于解決振動(dòng)相關(guān)物理問題的音樂聲學(xué)也有較大區(qū)別。


2.3 音樂人工智能

近年來,隨著人工智能概念的火熱并上升為國(guó)家戰(zhàn)略,在音樂領(lǐng)域出現(xiàn)了音樂人工智能(Music AI)這一名詞。音樂人工智能是一個(gè)通俗的略顯模糊的概念,主要指以數(shù)字音樂為研究對(duì)象以AI為主要技術(shù)手段的計(jì)算機(jī)軟硬件系統(tǒng)研發(fā),可以看成是人工智能在音樂領(lǐng)域的垂直應(yīng)用。音樂人工智能屬于音樂科技的一部分,包括音樂生成、音樂信息檢索MIR(含數(shù)十項(xiàng)應(yīng)用)、以及所有其它涉及AI的音樂相關(guān)的技術(shù),如圖2中虛線框所示。


2.4 音樂信息檢索MIR

音樂信息檢索MIR是一個(gè)使用計(jì)算方法對(duì)數(shù)字音樂的內(nèi)容進(jìn)行理解和分析的交叉學(xué)科。它是音樂人工智能中體量最大的一個(gè)研究領(lǐng)域。


早期的MIR技術(shù)以符號(hào)音樂(Symbolic Music)如MIDI(Musical Instrument Digital Interface)為研究對(duì)象。由于其具有準(zhǔn)確的音高、時(shí)間等信息,很快就發(fā)展的比較成熟。后續(xù)研究很快轉(zhuǎn)為以音頻信號(hào)為研究對(duì)象,研究難度急劇上升。隨著該領(lǐng)域研究的不斷深入,如今MIR技術(shù)已經(jīng)不僅僅指早期狹義的音樂搜索,而從更廣泛的角度上包含了音樂信息處理的所有子領(lǐng)域。我們根據(jù)自己的理解,將MIR領(lǐng)域的幾十個(gè)研究課題歸納為核心層和應(yīng)用層共9個(gè)部分(圖3)。核心層包含與各大音樂要素(如音高與旋律、音樂節(jié)奏、音樂和聲等)及歌聲信息處理相關(guān)的子領(lǐng)域,應(yīng)用層則包含在核心層基礎(chǔ)上更偏向應(yīng)用的子領(lǐng)域(如音樂搜索、音樂情感計(jì)算、音樂推薦等)。核心層屬于高層音樂信號(hào)特性分析或低層音樂語義分析,對(duì)應(yīng)于音樂心理學(xué)中的感知層次;應(yīng)用層則屬于高層音樂語義分析,對(duì)應(yīng)于音樂心理學(xué)中的認(rèn)知層次。


圖3. 音樂信息檢索(MIR)的研究領(lǐng)域


基于內(nèi)容的音樂信息檢索MIR有很多應(yīng)用。在娛樂相關(guān)領(lǐng)域,典型應(yīng)用包括聽歌識(shí)曲、哼唱/歌唱檢索、翻唱檢索、曲風(fēng)分類、音樂情感計(jì)算、音樂推薦、彩鈴制作、卡拉OK應(yīng)用、伴奏生成、自動(dòng)配樂、音樂內(nèi)容標(biāo)注、歌手識(shí)別、模仿秀評(píng)價(jià)、歌唱評(píng)價(jià)、歌聲合成及轉(zhuǎn)換、智能作曲、數(shù)字樂器、音頻/音樂編輯制作等。在音樂教育及科研領(lǐng)域,典型應(yīng)用包括計(jì)算音樂學(xué)、視唱練耳及樂理輔助教學(xué)、聲樂及各種樂器輔助教學(xué)、數(shù)字音頻/音樂圖書館等。在日常生活、心理及醫(yī)療、知識(shí)產(chǎn)權(quán)等其他領(lǐng)域,還包括樂器音質(zhì)評(píng)價(jià)及輔助購(gòu)買、音樂理療及輔助醫(yī)療、音樂版權(quán)保護(hù)及盜版追蹤等應(yīng)用。此外,在電影及很多視頻中,音頻及音樂都可以用來輔助視覺內(nèi)容進(jìn)行分析。以上應(yīng)用均可以在電腦、智能手機(jī)、音樂機(jī)器人等各種平臺(tái)上進(jìn)行實(shí)現(xiàn)。


2.5 一般音頻計(jì)算機(jī)聽覺

計(jì)算機(jī)聽覺是使用計(jì)算方法對(duì)數(shù)字化聲音與音樂的內(nèi)容進(jìn)行理解和分析的交叉學(xué)科。面向音樂時(shí)稱為音樂信息檢索MIR,面向環(huán)境聲時(shí)則稱為基于一般音頻的計(jì)算機(jī)聽覺或AI聲學(xué)。主要基礎(chǔ)學(xué)科是各種聲學(xué)、音頻信號(hào)處理和人工智能-機(jī)器學(xué)習(xí)/深度學(xué)習(xí)。


(1)計(jì)算機(jī)聽覺通用技術(shù)框架

從實(shí)際應(yīng)用的角度出發(fā),一個(gè)完整的CA算法系統(tǒng)應(yīng)該包括如下幾個(gè)步驟。

首先采用麥克風(fēng)(Microphone)/聲音傳感器(Acoustic Sensor)采集聲音數(shù)據(jù);

之后進(jìn)行預(yù)處理(例如將多聲道音頻轉(zhuǎn)換為單聲道、重采樣、解壓縮等);

音頻是長(zhǎng)時(shí)間的流媒體,需要將有用的部分分割出來,即進(jìn)行音頻事件檢測(cè)AED(Audio Event Detection)或端點(diǎn)檢測(cè)ED(Endpoint Detection);

采集的數(shù)據(jù)經(jīng)常是多個(gè)聲源混雜在一起,還需進(jìn)行聲源分離,將有用的信號(hào)分離提取出來;蛑辽傧糠衷肼,進(jìn)行有用信號(hào)增強(qiáng);

然后根據(jù)具體聲音的特性提取各種時(shí)域、頻域、時(shí)頻域音頻特征,進(jìn)行特征選擇(Feature Selection)或特征抽取(Feature Extraction),或采用深度學(xué)習(xí)DL(Deep Learning)進(jìn)行自動(dòng)特征學(xué)習(xí)(Feature Learning);

最后送入淺層統(tǒng)計(jì)分類器或深度學(xué)習(xí)模型進(jìn)行聲景(Sound Scape)分類,聲音目標(biāo)識(shí)別,或聲音目標(biāo)定位。


機(jī)器學(xué)習(xí)模型通常采用有監(jiān)督學(xué)習(xí)(Supervised Learning),需要事先用標(biāo)注好的已知數(shù)據(jù)進(jìn)行訓(xùn)練。基于一般音頻/環(huán)境聲的CA算法設(shè)計(jì)與語音信息處理及音樂信息檢索MIR技術(shù)高度類似,區(qū)別在于聲音的本質(zhì)不同,需要更有針對(duì)性的設(shè)計(jì)各個(gè)步驟的算法,另外需要某種特定聲音的領(lǐng)域知識(shí)。


(2)音頻事件檢測(cè)與音頻場(chǎng)景識(shí)別

音頻事件(AudioEvent)指一段具有特定意義的連續(xù)聲音,時(shí)間可長(zhǎng)可短。例如笑聲、鼓掌聲、槍聲、犬吠、警笛聲等。也可稱為音頻鏡頭(Audio Shot)。音頻事件檢測(cè)AED,亦稱聲音事件檢測(cè)SED(Sound Event Detection),環(huán)境聲音識(shí)別ESR(Environmental Sound Recognition),旨在識(shí)別音頻流中事件的起止時(shí)間(Event Onsets and Offsets)和類型,有時(shí)還包括其重要性(Saliency)。面向?qū)嶋H系統(tǒng)的AED需要在各種背景聲音的干擾下在連續(xù)音頻流中找到聲音事件的邊界再進(jìn)行分類,比單純的分類問題要更困難。


音頻場(chǎng)景(AudioScenes)是一個(gè)保持語義相關(guān)或一致性(Semantic Consistency)的聲音片段,通常由多個(gè)音頻事件組成。例如,一段包含槍聲、炮聲、吶喊聲、爆炸聲等聲音事件的音頻很可能對(duì)應(yīng)一個(gè)戰(zhàn)爭(zhēng)場(chǎng)景。對(duì)于實(shí)際應(yīng)用中的連續(xù)音頻流,音頻場(chǎng)景識(shí)別ASR(Audio Scene Recognition)首先進(jìn)行時(shí)間軸語義分割,得到音頻場(chǎng)景的起止時(shí)間即邊界(AudioScene Cut),再進(jìn)行音頻場(chǎng)景分類ASC(Audio Scene Classification)。ASR是提取音頻結(jié)構(gòu)和內(nèi)容語義的重要手段,是基于內(nèi)容的音頻、視頻檢索和分析的基礎(chǔ)。目前場(chǎng)景檢測(cè)(Scene Detection)的研究,主要是基于圖像和視頻。音頻同樣具有豐富的場(chǎng)景信息,基于音頻既可獨(dú)立進(jìn)行場(chǎng)景分析,也可以輔助視頻場(chǎng)景分析,以獲得更為準(zhǔn)確的場(chǎng)景檢測(cè)和分割。音頻場(chǎng)景的類別并沒有固定的定義,依賴于具體應(yīng)用場(chǎng)景。例如在電影等視頻中,可粗略分為語音、音樂、歌曲、環(huán)境音、帶音樂伴奏的語音等幾類。環(huán)境音還可以進(jìn)行更細(xì)粒度的劃分;谝纛l分析的方法用戶容易接受,計(jì)算量也比較少。


(3)基于一般音頻/環(huán)境聲的計(jì)算機(jī)聽覺應(yīng)用

基于一般音頻的計(jì)算機(jī)聽覺直接面向國(guó)民經(jīng)濟(jì)的各個(gè)領(lǐng)域,具有眾多應(yīng)用。例如:在醫(yī)療衛(wèi)生領(lǐng)域,涉及呼吸系統(tǒng)疾病(咳嗽、打鼾、言語、喘息、呼吸等),心臟系統(tǒng)疾病,其它相關(guān)醫(yī)療(嗓音疾病、胎音和胎動(dòng)、藥劑吞服、血液流動(dòng)、肌音)。在安防領(lǐng)域,涉及公共場(chǎng)所監(jiān)控和私密場(chǎng)所監(jiān)控。在交通運(yùn)輸、倉(cāng)儲(chǔ)領(lǐng)域,涉及鐵路運(yùn)輸業(yè),道路運(yùn)輸業(yè)(車型及車距識(shí)別、交通事故識(shí)別、交通流量檢測(cè)、道路質(zhì)量檢測(cè)),水上運(yùn)輸業(yè),航空運(yùn)輸業(yè)(航空飛行器識(shí)別、航空飛行數(shù)據(jù)分析),管道運(yùn)輸業(yè),倉(cāng)儲(chǔ)業(yè)。在制造業(yè)領(lǐng)域,涉及鐵路、船舶、航空航天和其他運(yùn)輸設(shè)備制造業(yè),通用設(shè)備制造業(yè)(發(fā)動(dòng)機(jī)、金屬加工機(jī)械制造、軸承齒輪和傳動(dòng)部件制造、包裝專用設(shè)備制造),電氣機(jī)械和器材制造業(yè),紡織業(yè),黑色及有色金屬冶煉和壓延加工業(yè),非金屬礦物制品業(yè),汽車制造業(yè),農(nóng)副食品加工業(yè),機(jī)器人制造。在農(nóng)、林、牧、漁業(yè)領(lǐng)域,涉及農(nóng)業(yè),林業(yè),畜牧業(yè)。在水利、環(huán)境和公共設(shè)施管理業(yè),涉及水利管理業(yè),生態(tài)保護(hù)和環(huán)境治理業(yè)。在建筑業(yè),涉及土木工程建筑業(yè),房屋建筑業(yè)。在其它領(lǐng)域,涉及采礦業(yè),日常生活,身份識(shí)別,軍事目標(biāo)識(shí)別等。


3. 總結(jié)與展望

音樂科技、音樂人工智能與計(jì)算機(jī)聽覺以數(shù)字音樂和聲音為研究對(duì)象,是聲學(xué)、心理學(xué)、信號(hào)處理、人工智能、多媒體、音樂學(xué)及各行業(yè)領(lǐng)域知識(shí)相結(jié)合的重要交叉學(xué)科,具有重要的學(xué)術(shù)研究和產(chǎn)業(yè)開發(fā)價(jià)值。目前仍有大量幾乎空白或沒有得到充分研究的子領(lǐng)域。


與自然語言處理、計(jì)算機(jī)視覺、語音信息處理等相關(guān)領(lǐng)域相比,上述學(xué)科在國(guó)內(nèi)外發(fā)展都比較緩慢。幾個(gè)可能的原因包括:(1)數(shù)字音樂涉及版權(quán)問題無法公開,各種音頻數(shù)據(jù)都源自特定場(chǎng)合和物體,難以全面搜集和標(biāo)注。數(shù)據(jù)的獲取及公開困難嚴(yán)重影響了基于機(jī)器學(xué)習(xí)/深度學(xué)習(xí)框架算法的研究及比較。(2)音樂和音頻信號(hào)幾乎都是多種聲音混合在一起,很少有單獨(dú)存在的情況。音樂中的各種樂器和歌聲在音高上形成和聲織體,在時(shí)間上形成節(jié)奏至曲式結(jié)構(gòu),耦合成多層次的復(fù)雜音頻流,難以甚至無法分離處理。環(huán)境聲音具有非平穩(wěn)、強(qiáng)噪聲、弱信號(hào)、多聲源混合等特點(diǎn),一個(gè)實(shí)際系統(tǒng)必須經(jīng)過音頻分割、聲源分離或增強(qiáng)/去噪后,才能進(jìn)行后續(xù)的內(nèi)容分析理解。(3)該領(lǐng)域幾乎都是交叉學(xué)科,進(jìn)行音樂科技的研究需要了解最基本的音樂理論知識(shí),進(jìn)行基于一般音頻的計(jì)算機(jī)聽覺研究則經(jīng)常需要了解相關(guān)各領(lǐng)域的專業(yè)知識(shí)和經(jīng)驗(yàn)。(4)此外,作為新興學(xué)科,還存在社會(huì)發(fā)展水平、科研環(huán)境、科技評(píng)價(jià)、人員儲(chǔ)備等各種非技術(shù)類原因阻礙計(jì)算機(jī)聽覺技術(shù)的發(fā)展。

    

隨著中國(guó)社會(huì)經(jīng)濟(jì)的快速發(fā)展,年青一代受音樂教育的普及,國(guó)家對(duì)人工智能等前沿技術(shù)的重視,上述領(lǐng)域在近幾年也出現(xiàn)了良好的發(fā)展勢(shì)頭。本文作為科普性文章,希望能使全社會(huì)更多的人有所了解,加速推動(dòng)國(guó)內(nèi)音頻音樂技術(shù)領(lǐng)域在學(xué)術(shù)研究和產(chǎn)業(yè)應(yīng)用的發(fā)展,走出一條具有中國(guó)特色的文理結(jié)合的道路,早日達(dá)到甚至超過世界先進(jìn)水平。


參考文獻(xiàn)

[1] A. Camurri, G. Depoli and D. Rocchesso, “Ataxonomy for sound and music computing”. Computer Music Journal (CMJ), 1995, 19(2):4-5.

[2] S. Dubnov, “Computer audition: An introductionand research survey”. ACM International Conference on Multimedia (ACM MM),2006, pp. 9-9.

[3] 李偉,李子晉,高永偉,“理解數(shù)字音樂-音樂信息檢索技術(shù)綜述”,第五屆中國(guó)聲音與音樂技術(shù)會(huì)議(CSMT 2017)特約報(bào)告,復(fù)旦學(xué)報(bào)(自然科學(xué)版),2018,57(3):271-313.

[4] 李偉, 李碩, “理解數(shù)字聲音-基于普通音頻的計(jì)算機(jī)聽覺綜述”, 第六屆全國(guó)聲音與音樂技術(shù)會(huì)議(CSMT 2018), 復(fù)旦學(xué)報(bào)(自然科學(xué)版), 2019, 58(3):269-313.

[5] 李偉,李子晉,邵曦主編,“音頻音樂與計(jì)算機(jī)的交融-聲音與音樂技術(shù)”,2020年1月,復(fù)旦大學(xué)出版社,89.5萬字,468頁(yè)。


  



【深度】未來5-10年計(jì)算機(jī)視覺發(fā)展趨勢(shì)為何?

專家(查紅彬,陳熙霖,盧湖川,劉燁斌,章國(guó)鋒)從計(jì)算機(jī)視覺發(fā)展歷程、現(xiàn)有研究局限性、未來研究方向以及視覺研究范式等多方面展開了深入的探討

華南理工大學(xué)羅晶博士和楊辰光教授團(tuán)隊(duì)發(fā)文提出遙操作機(jī)器人交互感知與學(xué)習(xí)算法

羅晶博士和楊辰光教授團(tuán)隊(duì)提出,遙操作機(jī)器人系統(tǒng)可以自然地與外界環(huán)境進(jìn)行交互、編碼人機(jī)協(xié)作任務(wù)和生成任務(wù)模型,從而提升系統(tǒng)的類人化操作行為和智能化程度

實(shí)時(shí)識(shí)別卡扣成功裝配的機(jī)器學(xué)習(xí)框架

卡扣式裝配廣泛應(yīng)用于多種產(chǎn)品類型的制造中,卡扣裝配是結(jié)構(gòu)性的鎖定機(jī)制,通過一個(gè)機(jī)器學(xué)習(xí)框架將人類識(shí)別成功快速裝配的能力遷移到自主機(jī)器人裝配上。

基于多任務(wù)學(xué)習(xí)和負(fù)反饋的深度召回模型

基于行為序列的深度學(xué)習(xí)推薦模型搭配高性能的近似檢索算法可以實(shí)現(xiàn)既準(zhǔn)又快的召回性能,如何利用這些豐富的反饋信息改進(jìn)召回模型的性能

張帆博士與Yiannis Demiris教授團(tuán)隊(duì)提出高效的機(jī)器人學(xué)習(xí)抓取衣服方法

機(jī)器人輔助穿衣通常人工的將衣服附在機(jī)器人末端執(zhí)行器上,忽略機(jī)器人識(shí)別衣服抓取點(diǎn)并進(jìn)行抓取的過程,從而將問題簡(jiǎn)化

百度算法大牛35頁(yè)P(yáng)PT講解基于EasyDL訓(xùn)練并部署企業(yè)級(jí)高精度AI模型

百度AI開發(fā)平臺(tái)高級(jí)研發(fā)工程師餅干老師,為大家系統(tǒng)講解企業(yè)在AI模型開發(fā)中的難點(diǎn),以及針對(duì)這些難點(diǎn),百度EasyDL專業(yè)版又是如何解決的

Technica公司發(fā)布智能霧計(jì)算平臺(tái)技術(shù)白皮書

SmartFog可以輕松地將人工智能分析微服務(wù)部署到云、霧和物聯(lián)網(wǎng)設(shè)備上,其架構(gòu)支持與現(xiàn)有系統(tǒng)的靈活集成,提供了大量的實(shí)現(xiàn)方案,要用下一代人工智能算法來彌補(bǔ)現(xiàn)有解決方案的不足。

深度學(xué)習(xí)在術(shù)前手術(shù)規(guī)劃中的應(yīng)用

深度學(xué)習(xí)對(duì)推動(dòng)術(shù)前手術(shù)規(guī)劃尤其重要,手術(shù)規(guī)劃中要根據(jù)現(xiàn)有的醫(yī)療記錄來計(jì)劃手術(shù)程序,而成像對(duì)于手術(shù)的成功至關(guān)重要
 
資料獲取
新聞資訊
== 資訊 ==
» 人形機(jī)器人未來3-5年能夠?qū)崿F(xiàn)產(chǎn)業(yè)化的方
» 導(dǎo)診服務(wù)機(jī)器人上崗門診大廳 助力醫(yī)院智慧
» 山東省青島市政府辦公廳發(fā)布《數(shù)字青島20
» 關(guān)于印發(fā)《青海省支持大數(shù)據(jù)產(chǎn)業(yè)發(fā)展政策措
» 全屋無主燈智能化規(guī)范
» 微波雷達(dá)傳感技術(shù)室內(nèi)照明應(yīng)用規(guī)范
» 人工智能研發(fā)運(yùn)營(yíng)體系(ML0ps)實(shí)踐指
» 四驅(qū)四轉(zhuǎn)移動(dòng)機(jī)器人運(yùn)動(dòng)模型及應(yīng)用分析
» 國(guó)內(nèi)細(xì)分賽道企業(yè)在 AIGC 各應(yīng)用場(chǎng)景
» 國(guó)內(nèi)科技大廠布局生成式 AI,未來有望借
» AIGC領(lǐng)域相關(guān)初創(chuàng)公司及業(yè)務(wù)場(chǎng)景梳理
» ChatGPT 以 GPT+RLHF 模
» AIGC提升文字 圖片滲透率,視頻 直播
» AI商業(yè)化空間前景廣闊應(yīng)用場(chǎng)景豐富
» AI 內(nèi)容創(chuàng)作成本大幅降低且耗時(shí)更短 優(yōu)
 
== 機(jī)器人推薦 ==
 
迎賓講解服務(wù)機(jī)器人

服務(wù)機(jī)器人(迎賓、講解、導(dǎo)診...)

智能消毒機(jī)器人

智能消毒機(jī)器人

機(jī)器人底盤

機(jī)器人底盤

 

商用機(jī)器人  Disinfection Robot   展廳機(jī)器人  智能垃圾站  輪式機(jī)器人底盤  迎賓機(jī)器人  移動(dòng)機(jī)器人底盤  講解機(jī)器人  紫外線消毒機(jī)器人  大屏機(jī)器人  霧化消毒機(jī)器人  服務(wù)機(jī)器人底盤  智能送餐機(jī)器人  霧化消毒機(jī)  機(jī)器人OEM代工廠  消毒機(jī)器人排名  智能配送機(jī)器人  圖書館機(jī)器人  導(dǎo)引機(jī)器人  移動(dòng)消毒機(jī)器人  導(dǎo)診機(jī)器人  迎賓接待機(jī)器人  前臺(tái)機(jī)器人  導(dǎo)覽機(jī)器人  酒店送物機(jī)器人  云跡科技潤(rùn)機(jī)器人  云跡酒店機(jī)器人  智能導(dǎo)診機(jī)器人 
版權(quán)所有 © 創(chuàng)澤智能機(jī)器人集團(tuán)股份有限公司     中國(guó)運(yùn)營(yíng)中心:北京·清華科技園九號(hào)樓5層     中國(guó)生產(chǎn)中心:山東日照太原路71號(hào)
銷售1:4006-935-088    銷售2:4006-937-088   客服電話: 4008-128-728