創(chuàng)澤機(jī)器人 |
CHUANGZE ROBOT |
1. 語(yǔ)音信息處理和聲音與音樂(lè)計(jì)算
聲音是人類獲取信息的重要來(lái)源,可劃分為語(yǔ)音(Speech)、音樂(lè)(Music)和一般音頻/環(huán)境聲(General Audio/Environmental Sound)三大類。人類的語(yǔ)言具有特定的詞匯及語(yǔ)法結(jié)構(gòu),用于在人類中傳遞信息。語(yǔ)音是語(yǔ)言的聲音載體,語(yǔ)音信號(hào)屬于復(fù)合音,其基本要素是音高、強(qiáng)度、音長(zhǎng)、音色等。音樂(lè)是人類創(chuàng)造的復(fù)雜的藝術(shù)形式,組成成分是各種樂(lè)音,包括歌聲、各種管弦和彈撥類樂(lè)器發(fā)出的復(fù)合音、少量來(lái)自環(huán)境聲的復(fù)合音以及一些來(lái)自打擊樂(lè)器的噪樂(lè)音。其基本要素包括節(jié)奏(Rhythm)、旋律(Melody)、和聲(Harmonic)、力度(Dynamic)、速度(Tempo)、調(diào)性(Tonality)、曲式(Form)、織體(Texture)、音色(Timbre)等。除了人類創(chuàng)造的語(yǔ)音和音樂(lè),在自然界和日常生活中,還存在著其他數(shù)量巨大、種類繁多的聲音,統(tǒng)稱為一般音頻或環(huán)境聲。例如,自然界的風(fēng)聲、雷聲、海浪聲,機(jī)械設(shè)備的噪聲,動(dòng)物的叫聲,人體的心跳、咳嗽、脈搏聲,軍事的槍聲、炮聲、爆炸聲等等,不可盡數(shù)。
根據(jù)以上聲音的三大種類,可以粗略地將聽(tīng)覺(jué)信息處理分成兩塊,如圖1所示。專門處理語(yǔ)音的學(xué)科是語(yǔ)音信息處理,以語(yǔ)言聲學(xué)為基礎(chǔ),歷史悠久,發(fā)展相對(duì)成熟,已獨(dú)立成為一門學(xué)科。包括計(jì)算語(yǔ)言學(xué)、語(yǔ)音識(shí)別、說(shuō)話人/聲紋識(shí)別、語(yǔ)種識(shí)別、語(yǔ)音增強(qiáng)/去噪/分離、語(yǔ)音合成、語(yǔ)音編碼、語(yǔ)音情感計(jì)算、自然語(yǔ)言處理與口語(yǔ)對(duì)話等經(jīng)典研究領(lǐng)域。面向音樂(lè)和一般音頻信息處理的學(xué)科叫做聲音與音樂(lè)計(jì)算SMC(Sound and Music Computing)[1]。該領(lǐng)域橫跨文理,在國(guó)外已有50多年的歷史,但是在國(guó)內(nèi)僅有20幾年歷史。包含的研究領(lǐng)域隨著時(shí)代變化也在不斷擴(kuò)展,而且由于涉及藝術(shù)創(chuàng)作,還具有一定的未知性。
2. 音樂(lè)科技概覽
2.1 音樂(lè)科技
音樂(lè)與科技的融合具有悠久的歷史。早在20世紀(jì)50年代,一些不同國(guó)家的作曲家、工程師和科學(xué)家已經(jīng)開(kāi)始探索利用新的數(shù)字技術(shù)來(lái)處理音樂(lè),并逐漸形成了音樂(lè)科技/計(jì)算機(jī)音樂(lè)(Music Technology/Computer Music)這一交叉學(xué)科。20世紀(jì)70年代之后,歐美各國(guó)相繼建立了多個(gè)大型計(jì)算機(jī)音樂(lè)研究機(jī)構(gòu),如1975年建立的美國(guó)斯坦福大學(xué)CCRMA(Center for Computer Research in Music and Acoustics)、1977年建立的法國(guó)巴黎IRCAM(Institute for Research and Coordination Acoustic/Music)、1994年成立的西班牙巴塞羅那UPF(Universitat Pompeu Fabra)大學(xué)MTG(Music Technology Group)、以及2001年成立的英國(guó)倫敦女王大學(xué)C4DM(Center for Digital Music)等。幾十年的歷史中,音樂(lè)科技在世界各地都逐漸發(fā)展起來(lái),如美國(guó)的Carnegie Mellon University、Columbia University、New YorkUniversity、George Tech等大學(xué),加拿大麥吉爾大學(xué)的CIRMMT(Centre for Interdisciplinary Research in Music Media and Technology),德國(guó)、日本、新加坡、臺(tái)灣等等。歐洲由于其濃厚的人文和藝術(shù)氣息,歐盟及各國(guó)政府的大力支持成為該領(lǐng)域的世界中心。
音樂(lè)科技在中國(guó)大陸發(fā)展較晚,大約20世紀(jì)80年代有人開(kāi)始零星的研究,90年代一些音樂(lè)學(xué)院開(kāi)始建立音樂(lè)科技或音樂(lè)工程專業(yè),2000年左右在一些綜合性和理工科大學(xué)開(kāi)始出現(xiàn)一批來(lái)自計(jì)算機(jī)等信息學(xué)科的科研工作者。在中國(guó)文理分割的教育體制下,這兩類人群之間橫亙著巨大的學(xué)科鴻溝。藝術(shù)領(lǐng)域的相關(guān)人員只能運(yùn)用國(guó)外的各種音樂(lè)科技軟硬件產(chǎn)品進(jìn)行音樂(lè)創(chuàng)作、表演、教育、理論研究,對(duì)其內(nèi)在的科學(xué)技術(shù)原理知之甚少,更無(wú)法進(jìn)行科技創(chuàng)新和產(chǎn)品研發(fā)。理工科領(lǐng)域的相關(guān)人員一般具有初級(jí)的音樂(lè)知識(shí),但專業(yè)程度差距較大,研究集中于面向消費(fèi)者的音樂(lè)科技,研發(fā)面向?qū)I(yè)應(yīng)用的音樂(lè)科技產(chǎn)品力不從心。
2013年12月,第一屆中國(guó)聲音與音樂(lè)計(jì)算研討會(huì)CSMCW(China Sound and Music Computing Workshop)創(chuàng)建于復(fù)旦大學(xué),為國(guó)內(nèi)同行搭建了一個(gè)產(chǎn)學(xué)研交流的平臺(tái),該會(huì)議2016年更名為中國(guó)聲音與音樂(lè)技術(shù)會(huì)議CSMT(Conference on Sound and Music Technology)。該會(huì)議至今已召開(kāi)七屆(復(fù)旦大學(xué)、清華大學(xué)、上海音樂(lè)學(xué)院、南京郵電大學(xué)、蘇州大學(xué)與UCLA蘇州研究院、廈門理工學(xué)院、哈爾濱工業(yè)大學(xué)),逐漸成為國(guó)內(nèi)音樂(lè)科技全產(chǎn)業(yè)鏈的交流平臺(tái),為加強(qiáng)科技與藝術(shù)的融合,消除學(xué)科鴻溝做出了重要貢獻(xiàn)。隨著中國(guó)社會(huì)的整體發(fā)展,以及人工智能(AI)技術(shù)的持續(xù)火熱,到2017年左右,音樂(lè)科技在國(guó)內(nèi)開(kāi)始呈現(xiàn)加速發(fā)展的趨勢(shì)。2017年,音樂(lè)科技領(lǐng)域國(guó)內(nèi)外的三大重要會(huì)議ISMIR(International Society for Music Information Retrieval Conference)、CSMT、ICMC(International Computer Music Conference)在上海和蘇州連續(xù)舉行。2018年,于中國(guó)音樂(lè)學(xué)院舉辦CSMT第一屆音樂(lè)人工智能(Music AI)研討會(huì);深圳平安科技有限公司與中央民族大學(xué)建立AI作曲聯(lián)合實(shí)驗(yàn)室;騰訊音樂(lè)娛樂(lè)集團(tuán)(TME)在美國(guó)上市;大型中文綜述“理解數(shù)字音樂(lè)-音樂(lè)信息檢索技術(shù)綜述”(CSMT 2017會(huì)議論文集,43頁(yè), 335篇文獻(xiàn))[3]正式發(fā)表。2019年,中央音樂(lè)學(xué)院建立音樂(lè)人工智能與音樂(lè)信息科技系,開(kāi)始招收博士、碩士研究生,實(shí)行音樂(lè)與科技雙導(dǎo)師培養(yǎng)制;AI科學(xué)前沿大會(huì)、北京國(guó)際電子音樂(lè)節(jié)等多個(gè)重要會(huì)議開(kāi)設(shè)音樂(lè)人工智能特約報(bào)告專場(chǎng);上海音樂(lè)學(xué)院開(kāi)設(shè)音樂(lè)人工智能課程;本文作者在百度百科定義音樂(lè)科技、音樂(lè)人工智能、音樂(lè)信息檢索MIR、計(jì)算機(jī)聽(tīng)覺(jué)、中國(guó)聲音與音樂(lè)技術(shù)會(huì)議等五個(gè)學(xué)科詞條;大型中文綜述“理解數(shù)字聲音-基于普通音頻的計(jì)算機(jī)聽(tīng)覺(jué)綜述”(CSMT 2018會(huì)議論文集,45頁(yè),399篇文獻(xiàn))[4]正式發(fā)表;第七屆CSMT會(huì)議參會(huì)人數(shù)超過(guò)200人,來(lái)自70余個(gè)單位,投稿等各項(xiàng)指標(biāo)均創(chuàng)歷史紀(jì)錄。2020年,四川音樂(lè)學(xué)院以音樂(lè)科技為突破口建立實(shí)驗(yàn)藝術(shù)學(xué)院;由本文作者主編55位作者聯(lián)合編著的中文教材“音頻音樂(lè)與計(jì)算機(jī)的交融-音頻音樂(lè)技術(shù)” [5]由復(fù)旦大學(xué)出版社正式出版,全書468頁(yè),895千字。大陸的音樂(lè)科技?xì)v經(jīng)坎坷,雖然進(jìn)步巨大,但是在教育體制、科技評(píng)價(jià)、社會(huì)觀念等各方面的制約下,至今仍然處于起步階段。
音樂(lè)科技是音樂(lè)與科學(xué)技術(shù)的交叉學(xué)科,包含眾多的研究和應(yīng)用領(lǐng)域。在音樂(lè)方面,包括計(jì)算音樂(lè)學(xué)(Computational Musicology)、電子音樂(lè)創(chuàng)作與制作(Electronic Music Creation and Production)、計(jì)算機(jī)輔助的音樂(lè)教育(Computer-aided Music Education)、計(jì)算機(jī)輔助的音樂(lè)表演(Computer-aidedMusic Performance)、錄音混音(Recording and Remixing)、音效及聲音設(shè)計(jì)(Sound Effect and Sound Design)等。該方面的研究課題比較零散,不成理論體系,依賴于在音樂(lè)方面的具體應(yīng)用,有些還涉及藝術(shù)創(chuàng)造。在科技方面,音樂(lè)科技指上述的聲音與音樂(lè)計(jì)算,下邊詳細(xì)闡述,如圖2右半部分所示。
2.2 聲音與音樂(lè)計(jì)算
聲音與音樂(lè)計(jì)算是一個(gè)龐大的研究領(lǐng)域,可細(xì)化為多個(gè)學(xué)科分支。其主要內(nèi)容及分類在1995年的文獻(xiàn)[1]中已有描述,本文所述內(nèi)容是作者根據(jù)近年來(lái)的最新進(jìn)展以及自己的理解對(duì)[1]進(jìn)行補(bǔ)充完善而成。
(1)音樂(lè)生成(Music Generation):包含歌聲合成(Singing Synthesis)、自動(dòng)作曲(AutomaticComposition)、自動(dòng)編曲(Automatic Arrangement)等主要方向,需要較多的音樂(lè)知識(shí),技術(shù)實(shí)現(xiàn)比較復(fù)雜。因近年來(lái)大量使用機(jī)器學(xué)習(xí)/深度學(xué)習(xí)技術(shù),也可以通俗的稱為人工智能音樂(lè)(AI Music)。歌聲合成以語(yǔ)音合成為基礎(chǔ),但需考慮音樂(lè)旋律、節(jié)奏、強(qiáng)弱、音色、結(jié)構(gòu)、情感、藝術(shù)技巧等多種音樂(lè)要素。自動(dòng)作曲早期稱為算法作曲,近年來(lái)進(jìn)化為基于深度學(xué)習(xí)的AI作曲。自動(dòng)編曲在已知主旋律的基礎(chǔ)上編配和弦及各個(gè)聲部,使其成為一首完整的作品。上述研究課題目前只能模仿音樂(lè)專業(yè)人員,尚無(wú)人類源自靈感的創(chuàng)作能力,且主觀性較強(qiáng),評(píng)價(jià)標(biāo)準(zhǔn)難以統(tǒng)一。
(2)聲音與音樂(lè)的內(nèi)容理解與分析:使用計(jì)算方法對(duì)數(shù)字化聲音與音樂(lè)的內(nèi)容進(jìn)行理解和分析,例如音樂(lè)識(shí)譜(Music Transcription)、旋律提。∕elody Extraction)、節(jié)奏分析(Rhythm Analysis)、和弦識(shí)別(Chord Estimation)、音頻檢索(Audio Retrieval)、流派識(shí)別(Genre Identification)、音樂(lè)情感計(jì)算(Music Emotion Calculation)、歌手識(shí)別(Singer Identification)、歌唱評(píng)價(jià)(SingingEvaluation)、歌聲分離(Vocal Separation)等。該分支在20世紀(jì)90年代末隨著互聯(lián)網(wǎng)上數(shù)字音頻和音樂(lè)的急劇增加而發(fā)展起來(lái),研究難度大,多項(xiàng)研究?jī)?nèi)容至今仍在持續(xù)進(jìn)行中。與計(jì)算機(jī)視覺(jué)CV(Computer Vision)對(duì)應(yīng),該分支也可稱為計(jì)算機(jī)聽(tīng)覺(jué)CA(Computer Audition)或機(jī)器聽(tīng)覺(jué)(Machine Listening)[2]。注意計(jì)算機(jī)聽(tīng)覺(jué)是用來(lái)理解分析而不是處理音頻和音樂(lè),狹義上講不包括語(yǔ)音,廣義上亦包括。CA若剔除一般聲音而局限于音樂(lè),則可稱為音樂(lè)信息檢索MIR(Music Information Retrieval)。
(3)聲音與音樂(lè)信號(hào)處理:用于聲音和音樂(lè)的信號(hào)分析、變換及合成,包括頻譜分析(Spectral Analysis)、調(diào)幅(Magnitude Modulation)、調(diào)頻(FrequencyModulation)、低通/高通/帶通/帶阻濾波(Low-pass/High-pass/Band-pass/Band-stop Filtering)、轉(zhuǎn)碼(Transcoding)、無(wú)損/有損壓縮(Lossless/Lossy Compression)、重采樣(Resampling)、回聲(Echo)、混音(Remixing)、去噪(Denoising)、變調(diào)PS(Pitch Shifting)、保持音高不變的時(shí)間伸縮TSM(Time-scale Modification/Time Stretching)、時(shí)間縮放(TimeScaling)等。該分支相對(duì)比較成熟,已有多款商業(yè)軟件如Gold Wave、Adobe Audition/Cool Edit、Cubase、Sonar/Cakewalk、EarMaster等。
(4)其它與音頻音樂(lè)相關(guān)的科技領(lǐng)域:如聲音與音樂(lè)的感知認(rèn)知(Sound and Music Perception and Cognition):研究音樂(lè)的大腦機(jī)制,對(duì)心理、情緒的影響等。一般音頻/環(huán)境聲的合成(Sound Synthesis)。聲音與音樂(lè)的計(jì)算機(jī)接口:包括樂(lè)譜打印(MusicPrinting)、光學(xué)樂(lè)譜識(shí)別(Optical Music Recognition)、音響及多聲道聲音系統(tǒng)(Sound and Multi-channelSound System)、聲音裝置及多媒體技術(shù)(Sound Device and Multimedia Technology)等。音頻信息安全:包括音頻信息隱藏(Audio Information Hiding)、魯棒音頻水印(Robust Audio Watermarking)、音頻認(rèn)證(Audio Authentication)、音頻取證(Audio Forensics)、聲紋識(shí)別(VoiceprintRecognition)、聲音偽造(Sound Forge)、音樂(lè)抄襲(Music Plagiarism)、AI音樂(lè)判別(AI Music Discrimination)等。音樂(lè)治療(Music Therapy):將音樂(lè)與醫(yī)學(xué)、心理學(xué)、計(jì)算機(jī)相結(jié)合的典型范例。音樂(lè)機(jī)器人(Music Robot):包括東西方各種風(fēng)格的表演機(jī)器人、指揮機(jī)器人等。聽(tīng)覺(jué)與視覺(jué)/文本相結(jié)合的跨媒體應(yīng)用(Cross-media Applications Combing Audition andVision/Text)等。
音樂(lè)科技具有眾多應(yīng)用,例如電聲樂(lè)器、數(shù)字音源、音頻工作站、計(jì)算機(jī)輔助的音樂(lè)教育、計(jì)算音樂(lè)學(xué)、音樂(lè)表演的量化分析、電子音樂(lè)創(chuàng)作與制作、音樂(lè)信息檢索MIR、數(shù)字音樂(lè)圖書館、交互式多媒體、音頻接口、輔助醫(yī)學(xué)治療、音樂(lè)機(jī)器人、音頻數(shù)字水印等。
與音樂(lè)有關(guān)但是與SMC不同的另一個(gè)歷史更悠久的學(xué)科是音樂(lè)聲學(xué)(Music Acoustics)。音樂(lè)聲學(xué)是研究在音樂(lè)這種聲音振動(dòng)中存在的物理問(wèn)題的科學(xué),是音樂(lè)學(xué)與物理學(xué)的交叉學(xué)科。音樂(lè)聲學(xué)主要研究樂(lè)音與噪聲的區(qū)別、音高音強(qiáng)和音色的物理本質(zhì)、基于電磁振蕩的電聲學(xué)、聽(tīng)覺(jué)器官的聲波感受機(jī)制、樂(lè)器聲學(xué)、人類發(fā)聲機(jī)制、音律學(xué)、與音樂(lè)有關(guān)的室內(nèi)聲學(xué)等。從學(xué)科的角度看,一部分音樂(lè)聲學(xué)知識(shí)也是SMC的基礎(chǔ),但SMC研究更依賴于音頻信號(hào)處理和人工智能-機(jī)器學(xué)習(xí)/深度學(xué)習(xí)這兩門學(xué)科。同時(shí),研究?jī)?nèi)容面向音頻與音樂(lè)的信號(hào)處理、內(nèi)容分析和理解,與更偏重于解決振動(dòng)相關(guān)物理問(wèn)題的音樂(lè)聲學(xué)也有較大區(qū)別。
2.3 音樂(lè)人工智能
近年來(lái),隨著人工智能概念的火熱并上升為國(guó)家戰(zhàn)略,在音樂(lè)領(lǐng)域出現(xiàn)了音樂(lè)人工智能(Music AI)這一名詞。音樂(lè)人工智能是一個(gè)通俗的略顯模糊的概念,主要指以數(shù)字音樂(lè)為研究對(duì)象以AI為主要技術(shù)手段的計(jì)算機(jī)軟硬件系統(tǒng)研發(fā),可以看成是人工智能在音樂(lè)領(lǐng)域的垂直應(yīng)用。音樂(lè)人工智能屬于音樂(lè)科技的一部分,包括音樂(lè)生成、音樂(lè)信息檢索MIR(含數(shù)十項(xiàng)應(yīng)用)、以及所有其它涉及AI的音樂(lè)相關(guān)的技術(shù),如圖2中虛線框所示。
2.4 音樂(lè)信息檢索MIR
音樂(lè)信息檢索MIR是一個(gè)使用計(jì)算方法對(duì)數(shù)字音樂(lè)的內(nèi)容進(jìn)行理解和分析的交叉學(xué)科。它是音樂(lè)人工智能中體量最大的一個(gè)研究領(lǐng)域。
早期的MIR技術(shù)以符號(hào)音樂(lè)(Symbolic Music)如MIDI(Musical Instrument Digital Interface)為研究對(duì)象。由于其具有準(zhǔn)確的音高、時(shí)間等信息,很快就發(fā)展的比較成熟。后續(xù)研究很快轉(zhuǎn)為以音頻信號(hào)為研究對(duì)象,研究難度急劇上升。隨著該領(lǐng)域研究的不斷深入,如今MIR技術(shù)已經(jīng)不僅僅指早期狹義的音樂(lè)搜索,而從更廣泛的角度上包含了音樂(lè)信息處理的所有子領(lǐng)域。我們根據(jù)自己的理解,將MIR領(lǐng)域的幾十個(gè)研究課題歸納為核心層和應(yīng)用層共9個(gè)部分(圖3)。核心層包含與各大音樂(lè)要素(如音高與旋律、音樂(lè)節(jié)奏、音樂(lè)和聲等)及歌聲信息處理相關(guān)的子領(lǐng)域,應(yīng)用層則包含在核心層基礎(chǔ)上更偏向應(yīng)用的子領(lǐng)域(如音樂(lè)搜索、音樂(lè)情感計(jì)算、音樂(lè)推薦等)。核心層屬于高層音樂(lè)信號(hào)特性分析或低層音樂(lè)語(yǔ)義分析,對(duì)應(yīng)于音樂(lè)心理學(xué)中的感知層次;應(yīng)用層則屬于高層音樂(lè)語(yǔ)義分析,對(duì)應(yīng)于音樂(lè)心理學(xué)中的認(rèn)知層次。
圖3. 音樂(lè)信息檢索(MIR)的研究領(lǐng)域
基于內(nèi)容的音樂(lè)信息檢索MIR有很多應(yīng)用。在娛樂(lè)相關(guān)領(lǐng)域,典型應(yīng)用包括聽(tīng)歌識(shí)曲、哼唱/歌唱檢索、翻唱檢索、曲風(fēng)分類、音樂(lè)情感計(jì)算、音樂(lè)推薦、彩鈴制作、卡拉OK應(yīng)用、伴奏生成、自動(dòng)配樂(lè)、音樂(lè)內(nèi)容標(biāo)注、歌手識(shí)別、模仿秀評(píng)價(jià)、歌唱評(píng)價(jià)、歌聲合成及轉(zhuǎn)換、智能作曲、數(shù)字樂(lè)器、音頻/音樂(lè)編輯制作等。在音樂(lè)教育及科研領(lǐng)域,典型應(yīng)用包括計(jì)算音樂(lè)學(xué)、視唱練耳及樂(lè)理輔助教學(xué)、聲樂(lè)及各種樂(lè)器輔助教學(xué)、數(shù)字音頻/音樂(lè)圖書館等。在日常生活、心理及醫(yī)療、知識(shí)產(chǎn)權(quán)等其他領(lǐng)域,還包括樂(lè)器音質(zhì)評(píng)價(jià)及輔助購(gòu)買、音樂(lè)理療及輔助醫(yī)療、音樂(lè)版權(quán)保護(hù)及盜版追蹤等應(yīng)用。此外,在電影及很多視頻中,音頻及音樂(lè)都可以用來(lái)輔助視覺(jué)內(nèi)容進(jìn)行分析。以上應(yīng)用均可以在電腦、智能手機(jī)、音樂(lè)機(jī)器人等各種平臺(tái)上進(jìn)行實(shí)現(xiàn)。
2.5 一般音頻計(jì)算機(jī)聽(tīng)覺(jué)
計(jì)算機(jī)聽(tīng)覺(jué)是使用計(jì)算方法對(duì)數(shù)字化聲音與音樂(lè)的內(nèi)容進(jìn)行理解和分析的交叉學(xué)科。面向音樂(lè)時(shí)稱為音樂(lè)信息檢索MIR,面向環(huán)境聲時(shí)則稱為基于一般音頻的計(jì)算機(jī)聽(tīng)覺(jué)或AI聲學(xué)。主要基礎(chǔ)學(xué)科是各種聲學(xué)、音頻信號(hào)處理和人工智能-機(jī)器學(xué)習(xí)/深度學(xué)習(xí)。
(1)計(jì)算機(jī)聽(tīng)覺(jué)通用技術(shù)框架
從實(shí)際應(yīng)用的角度出發(fā),一個(gè)完整的CA算法系統(tǒng)應(yīng)該包括如下幾個(gè)步驟。
首先采用麥克風(fēng)(Microphone)/聲音傳感器(Acoustic Sensor)采集聲音數(shù)據(jù);
之后進(jìn)行預(yù)處理(例如將多聲道音頻轉(zhuǎn)換為單聲道、重采樣、解壓縮等);
音頻是長(zhǎng)時(shí)間的流媒體,需要將有用的部分分割出來(lái),即進(jìn)行音頻事件檢測(cè)AED(Audio Event Detection)或端點(diǎn)檢測(cè)ED(Endpoint Detection);
采集的數(shù)據(jù)經(jīng)常是多個(gè)聲源混雜在一起,還需進(jìn)行聲源分離,將有用的信號(hào)分離提取出來(lái)。或至少消除部分噪聲,進(jìn)行有用信號(hào)增強(qiáng);
然后根據(jù)具體聲音的特性提取各種時(shí)域、頻域、時(shí)頻域音頻特征,進(jìn)行特征選擇(Feature Selection)或特征抽取(Feature Extraction),或采用深度學(xué)習(xí)DL(Deep Learning)進(jìn)行自動(dòng)特征學(xué)習(xí)(Feature Learning);
最后送入淺層統(tǒng)計(jì)分類器或深度學(xué)習(xí)模型進(jìn)行聲景(Sound Scape)分類,聲音目標(biāo)識(shí)別,或聲音目標(biāo)定位。
機(jī)器學(xué)習(xí)模型通常采用有監(jiān)督學(xué)習(xí)(Supervised Learning),需要事先用標(biāo)注好的已知數(shù)據(jù)進(jìn)行訓(xùn)練;谝话阋纛l/環(huán)境聲的CA算法設(shè)計(jì)與語(yǔ)音信息處理及音樂(lè)信息檢索MIR技術(shù)高度類似,區(qū)別在于聲音的本質(zhì)不同,需要更有針對(duì)性的設(shè)計(jì)各個(gè)步驟的算法,另外需要某種特定聲音的領(lǐng)域知識(shí)。
(2)音頻事件檢測(cè)與音頻場(chǎng)景識(shí)別
音頻事件(AudioEvent)指一段具有特定意義的連續(xù)聲音,時(shí)間可長(zhǎng)可短。例如笑聲、鼓掌聲、槍聲、犬吠、警笛聲等。也可稱為音頻鏡頭(Audio Shot)。音頻事件檢測(cè)AED,亦稱聲音事件檢測(cè)SED(Sound Event Detection),環(huán)境聲音識(shí)別ESR(Environmental Sound Recognition),旨在識(shí)別音頻流中事件的起止時(shí)間(Event Onsets and Offsets)和類型,有時(shí)還包括其重要性(Saliency)。面向?qū)嶋H系統(tǒng)的AED需要在各種背景聲音的干擾下在連續(xù)音頻流中找到聲音事件的邊界再進(jìn)行分類,比單純的分類問(wèn)題要更困難。
音頻場(chǎng)景(AudioScenes)是一個(gè)保持語(yǔ)義相關(guān)或一致性(Semantic Consistency)的聲音片段,通常由多個(gè)音頻事件組成。例如,一段包含槍聲、炮聲、吶喊聲、爆炸聲等聲音事件的音頻很可能對(duì)應(yīng)一個(gè)戰(zhàn)爭(zhēng)場(chǎng)景。對(duì)于實(shí)際應(yīng)用中的連續(xù)音頻流,音頻場(chǎng)景識(shí)別ASR(Audio Scene Recognition)首先進(jìn)行時(shí)間軸語(yǔ)義分割,得到音頻場(chǎng)景的起止時(shí)間即邊界(AudioScene Cut),再進(jìn)行音頻場(chǎng)景分類ASC(Audio Scene Classification)。ASR是提取音頻結(jié)構(gòu)和內(nèi)容語(yǔ)義的重要手段,是基于內(nèi)容的音頻、視頻檢索和分析的基礎(chǔ)。目前場(chǎng)景檢測(cè)(Scene Detection)的研究,主要是基于圖像和視頻。音頻同樣具有豐富的場(chǎng)景信息,基于音頻既可獨(dú)立進(jìn)行場(chǎng)景分析,也可以輔助視頻場(chǎng)景分析,以獲得更為準(zhǔn)確的場(chǎng)景檢測(cè)和分割。音頻場(chǎng)景的類別并沒(méi)有固定的定義,依賴于具體應(yīng)用場(chǎng)景。例如在電影等視頻中,可粗略分為語(yǔ)音、音樂(lè)、歌曲、環(huán)境音、帶音樂(lè)伴奏的語(yǔ)音等幾類。環(huán)境音還可以進(jìn)行更細(xì)粒度的劃分;谝纛l分析的方法用戶容易接受,計(jì)算量也比較少。
(3)基于一般音頻/環(huán)境聲的計(jì)算機(jī)聽(tīng)覺(jué)應(yīng)用
基于一般音頻的計(jì)算機(jī)聽(tīng)覺(jué)直接面向國(guó)民經(jīng)濟(jì)的各個(gè)領(lǐng)域,具有眾多應(yīng)用。例如:在醫(yī)療衛(wèi)生領(lǐng)域,涉及呼吸系統(tǒng)疾。ǹ人、打鼾、言語(yǔ)、喘息、呼吸等),心臟系統(tǒng)疾病,其它相關(guān)醫(yī)療(嗓音疾病、胎音和胎動(dòng)、藥劑吞服、血液流動(dòng)、肌音)。在安防領(lǐng)域,涉及公共場(chǎng)所監(jiān)控和私密場(chǎng)所監(jiān)控。在交通運(yùn)輸、倉(cāng)儲(chǔ)領(lǐng)域,涉及鐵路運(yùn)輸業(yè),道路運(yùn)輸業(yè)(車型及車距識(shí)別、交通事故識(shí)別、交通流量檢測(cè)、道路質(zhì)量檢測(cè)),水上運(yùn)輸業(yè),航空運(yùn)輸業(yè)(航空飛行器識(shí)別、航空飛行數(shù)據(jù)分析),管道運(yùn)輸業(yè),倉(cāng)儲(chǔ)業(yè)。在制造業(yè)領(lǐng)域,涉及鐵路、船舶、航空航天和其他運(yùn)輸設(shè)備制造業(yè),通用設(shè)備制造業(yè)(發(fā)動(dòng)機(jī)、金屬加工機(jī)械制造、軸承齒輪和傳動(dòng)部件制造、包裝專用設(shè)備制造),電氣機(jī)械和器材制造業(yè),紡織業(yè),黑色及有色金屬冶煉和壓延加工業(yè),非金屬礦物制品業(yè),汽車制造業(yè),農(nóng)副食品加工業(yè),機(jī)器人制造。在農(nóng)、林、牧、漁業(yè)領(lǐng)域,涉及農(nóng)業(yè),林業(yè),畜牧業(yè)。在水利、環(huán)境和公共設(shè)施管理業(yè),涉及水利管理業(yè),生態(tài)保護(hù)和環(huán)境治理業(yè)。在建筑業(yè),涉及土木工程建筑業(yè),房屋建筑業(yè)。在其它領(lǐng)域,涉及采礦業(yè),日常生活,身份識(shí)別,軍事目標(biāo)識(shí)別等。
3. 總結(jié)與展望
音樂(lè)科技、音樂(lè)人工智能與計(jì)算機(jī)聽(tīng)覺(jué)以數(shù)字音樂(lè)和聲音為研究對(duì)象,是聲學(xué)、心理學(xué)、信號(hào)處理、人工智能、多媒體、音樂(lè)學(xué)及各行業(yè)領(lǐng)域知識(shí)相結(jié)合的重要交叉學(xué)科,具有重要的學(xué)術(shù)研究和產(chǎn)業(yè)開(kāi)發(fā)價(jià)值。目前仍有大量幾乎空白或沒(méi)有得到充分研究的子領(lǐng)域。
與自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、語(yǔ)音信息處理等相關(guān)領(lǐng)域相比,上述學(xué)科在國(guó)內(nèi)外發(fā)展都比較緩慢。幾個(gè)可能的原因包括:(1)數(shù)字音樂(lè)涉及版權(quán)問(wèn)題無(wú)法公開(kāi),各種音頻數(shù)據(jù)都源自特定場(chǎng)合和物體,難以全面搜集和標(biāo)注。數(shù)據(jù)的獲取及公開(kāi)困難嚴(yán)重影響了基于機(jī)器學(xué)習(xí)/深度學(xué)習(xí)框架算法的研究及比較。(2)音樂(lè)和音頻信號(hào)幾乎都是多種聲音混合在一起,很少有單獨(dú)存在的情況。音樂(lè)中的各種樂(lè)器和歌聲在音高上形成和聲織體,在時(shí)間上形成節(jié)奏至曲式結(jié)構(gòu),耦合成多層次的復(fù)雜音頻流,難以甚至無(wú)法分離處理。環(huán)境聲音具有非平穩(wěn)、強(qiáng)噪聲、弱信號(hào)、多聲源混合等特點(diǎn),一個(gè)實(shí)際系統(tǒng)必須經(jīng)過(guò)音頻分割、聲源分離或增強(qiáng)/去噪后,才能進(jìn)行后續(xù)的內(nèi)容分析理解。(3)該領(lǐng)域幾乎都是交叉學(xué)科,進(jìn)行音樂(lè)科技的研究需要了解最基本的音樂(lè)理論知識(shí),進(jìn)行基于一般音頻的計(jì)算機(jī)聽(tīng)覺(jué)研究則經(jīng)常需要了解相關(guān)各領(lǐng)域的專業(yè)知識(shí)和經(jīng)驗(yàn)。(4)此外,作為新興學(xué)科,還存在社會(huì)發(fā)展水平、科研環(huán)境、科技評(píng)價(jià)、人員儲(chǔ)備等各種非技術(shù)類原因阻礙計(jì)算機(jī)聽(tīng)覺(jué)技術(shù)的發(fā)展。
隨著中國(guó)社會(huì)經(jīng)濟(jì)的快速發(fā)展,年青一代受音樂(lè)教育的普及,國(guó)家對(duì)人工智能等前沿技術(shù)的重視,上述領(lǐng)域在近幾年也出現(xiàn)了良好的發(fā)展勢(shì)頭。本文作為科普性文章,希望能使全社會(huì)更多的人有所了解,加速推動(dòng)國(guó)內(nèi)音頻音樂(lè)技術(shù)領(lǐng)域在學(xué)術(shù)研究和產(chǎn)業(yè)應(yīng)用的發(fā)展,走出一條具有中國(guó)特色的文理結(jié)合的道路,早日達(dá)到甚至超過(guò)世界先進(jìn)水平。
參考文獻(xiàn)
[1] A. Camurri, G. Depoli and D. Rocchesso, “Ataxonomy for sound and music computing”. Computer Music Journal (CMJ), 1995, 19(2):4-5.
[2] S. Dubnov, “Computer audition: An introductionand research survey”. ACM International Conference on Multimedia (ACM MM),2006, pp. 9-9.
[3] 李偉,李子晉,高永偉,“理解數(shù)字音樂(lè)-音樂(lè)信息檢索技術(shù)綜述”,第五屆中國(guó)聲音與音樂(lè)技術(shù)會(huì)議(CSMT 2017)特約報(bào)告,復(fù)旦學(xué)報(bào)(自然科學(xué)版),2018,57(3):271-313.
[4] 李偉, 李碩, “理解數(shù)字聲音-基于普通音頻的計(jì)算機(jī)聽(tīng)覺(jué)綜述”, 第六屆全國(guó)聲音與音樂(lè)技術(shù)會(huì)議(CSMT 2018), 復(fù)旦學(xué)報(bào)(自然科學(xué)版), 2019, 58(3):269-313.
[5] 李偉,李子晉,邵曦主編,“音頻音樂(lè)與計(jì)算機(jī)的交融-聲音與音樂(lè)技術(shù)”,2020年1月,復(fù)旦大學(xué)出版社,89.5萬(wàn)字,468頁(yè)。
機(jī)器人招商 Disinfection Robot 機(jī)器人公司 機(jī)器人應(yīng)用 智能醫(yī)療 物聯(lián)網(wǎng) 機(jī)器人排名 機(jī)器人企業(yè) 機(jī)器人政策 教育機(jī)器人 迎賓機(jī)器人 機(jī)器人開(kāi)發(fā) 獨(dú)角獸 消毒機(jī)器人品牌 消毒機(jī)器人 合理用藥 地圖 |