輕鬆做到高音質人聲分離!迪威智能深耕音樂 AI 處理二十年,還可以運用到智慧製造

隨著音樂的數位化,串流音樂平台興起,線上 KTV 對我們來說也是愈來愈家常便飯,但早在 2005 年,研究音樂處理技術的清大資訊工程學系教授張智星(Roger),就已經開始思考線上 KTV 的可能性,二十一世紀初幾年,還是個網路不成熟、音樂版權不清不楚的年代,甚至發生過「成大 MP3」這樣的事件;由於大環境的不適,這位教授失敗了,但是他並沒有放棄,而是決定繼續深耕於音樂處理的研究,期待大環境的成熟。

埋首研究室十年,這個機會終於到來;2017 年在政府提出的「價創計畫」的支持與輔佐下,張智星教授先後又找到兩位夥伴加入:葉子雋和林智源。葉子雋是張教授的博班學生,葉子雋說,自己並不希望當教職,也不想要成為大企業底下的一顆螺絲釘,於是決定跟著老師一起以音樂為題目創業;至於林智源則是在台大的創新創業在職專班聽到張教授的演講後,決定加入迪威智能。

張智興教授(中間)、執行長林智源(後排左一)、技術長葉子雋(後排右三),與迪威智能研究團隊成員合影
張智興教授(中間)、執行長林智源(後排左一)、技術長葉子雋(後排右三),與迪威智能研究團隊成員合影

就像許多價創計畫的團隊一樣,在校園內的研究與技術是一回事,如何對接到市場、讓技術落地,又是另一回事,這樣的轉換讓團隊感到困難,成立後近兩年的時間就在價創計畫、創夢市集、AWS 等加速器的支持底下探索市場,「那時候導師一直告訴我們『不能只是這樣,要不斷加速』,其實給了我們很大的助力。」葉子雋笑著說。

團隊起初是以「音樂遊戲」為題目切入市場,但是他們發現音樂本身就已經是一個很利基的市場、遊戲也是同樣的狀況,兩個結合起來又更難賺錢了,於是迪威智能決定回歸自己的強項——已經深耕二十年的音樂處理技術,將自己定位為一個音樂技術的開發商與服務商,將數位音樂導入 AI 處理的技術,最終於 2019 年成立迪威智能(Deep Wave)。

深耕音樂處理AI技術,提供音樂產業三大應用

相比於其他的音訊處理技術,是以 rule based 技術判斷人聲與背景音樂,但是並沒有辦法做更複雜的處理,有其限制;迪威智能則是以 AI 裡面較複雜的深度學習技術,直接學習何謂人聲、何謂背景聲,甚至去細分背景聲裡面個樂器的聲音,分離後的音質也會更好。

迪威智能人聲分離
迪威智能人聲分離

至於訓練用的音樂來源,迪威智能說他們都是購買具有合法版權的音樂,雖然現在取得音樂容易,以這些音樂訓練出來的技術也不會有法律疑慮,但若是以此技術進行商用,就會有版權問題,「其實放上 Youtube 也是遊走在灰色地帶,這就要看該音樂的版權政策是怎麼訂的了。」林智源笑著說。

迪威智能將他們的技術深化,並分成三大應用:

  1. 人聲分離
    人聲分離的應用場域與市場需求較多,例如線上卡拉 OK 伴唱帶,甚至是在戶外錄製 podcast、拍攝 youtube 等,都會在後製期間強化人聲;另外,若有歌詞的檔案,迪威智能的 AI 系統也可以自動將歌詞對照到人聲的時間點。

  2. 樂器分析
    迪威智能的技術還可以將背景音樂的樂器各自獨立成一個音軌,並且自動產生出樂譜,這樣一來對於音樂教學與練習會有極大的幫助。

  3. MIDI 檔案
    MIDI(Musical Instrument Digital Interface,音樂數位介面)就是將音樂參數化(音高、動態、節奏等)的意思,這樣一來可以讓音樂檔案在不同媒體之間通用;至於實際應用,迪威智能將人聲變成 MIDI 檔案,那就可以應用在任何裝置上,並作為歌唱評分的標準。

迪威智能的 AI 音訊處理技術,深獲國際音樂評比 MIREX(Music Information Retrieval Evaluation eXchange)的肯定,前前後後總共獲得過 25 次評比獎項,也在該活動中認識不少音樂娛樂界的廠商,其中一中國知名音樂串流平台也跟迪威智能合作中。

整合各項技術成立SaaS平台,展望智慧製造的應用可能

這些音訊處理技術,未來迪威智能考慮直接建立一個整合的 SaaS 模式平台,讓對於相關音樂處理有需求的廠商可以直接到平台訂閱服務;除了音樂娛樂產業,迪威智能也希望建立音樂線上教育平台、開啟 B2C 的服務,讓過去僅僅是由老師錄影授課的方式,改成可以動態追蹤學生學習效果、以及給予即時回饋的模式。

將音樂處理技術應用在音樂教育
將音樂處理技術應用在音樂教育

除了音樂娛樂與教育產業,迪威智能也正在把人聲辨識的技術應用在正語發音的市場。與音樂教育一樣,透過人工智慧的判讀,老師就可以給予即時回饋,讓英語學習具句效率,目前迪威智能也已經跟一些英語教育平台合作開發中。另一個應用是智慧工廠與智慧製造,透過便是機器運作時的聲音是否正常,就可以即時給予工廠警告,不過目前 AI 模型的建立仍具有一點難度,林智源說:「目前最大的挑戰是錄音會被環境影響,這部分有待克服。」除了跨足正語發音和智慧製造市場,迪威智能也提到只要技術許可,醫療聽診也是可以延伸的領域。

迪威智能深耕音樂處理二十年,已經具備深厚的技術,成立兩年多的時間接觸了音樂、教育、工廠製造等不同領域,林智源說,他們正在尋找這些技術最適合的應用領域與市場,目前多方嘗試下來,應該還是會以音樂娛樂市場為主,至於其他的服務則是作為延伸服務;待 SaaS 平台建立整合完成,迪威智能的下一步就會開始往硬體整合的方向前進,提供更多元的產品。

圖左為迪威智能技術長葉子雋,圖右為執行長林智源
圖左為迪威智能技術長葉子雋,圖右為執行長林智源

創業快問快答

Q:希望提供這個社會什麼價值?希望解決甚麼樣的問題?

A:音樂產業客群中,多數之數位音樂產業相關客戶並沒有較深厚之音訊處理技術門檻;智慧製造客群中,多數客戶礙於資源與規模較無法接觸音訊處理等AI相關技術;在音樂教育的一般使用者客群中,大部分使用者缺乏相關專業軟體與操作之技術。

Q:就目前市場狀況,您認為貴公司服務的競爭優勢為何?

A:團隊深耕此領域之基礎研究二十餘年,並擁有許多與業界合作研發之經驗。

Q:最常被客戶或投資人問起的事情?您會如何回應?

A:常被問「是否會有版權問題?」但我們將自己定義為工具,工具產出的違法與否與工具本身無關。

團隊資訊

公司名稱:迪威智能股份有限公司(DeepWave Co., Ltd.)
成立時間:2019/8/30
產品名稱:全方位智能數位音樂技術平台
上線時間:2020 Q4
團隊人數:7 名
官方網站新創資料庫

更多Meet創業小聚報導
BMW、保時捷看好的聲控技術,音訊開發新創DSP Concepts獲台杉4.35億領投
反骨的理工男,回聲主唱吳柏蒼用區塊鏈找回失落的數位音樂
「Siri,這是什麼歌?」蘋果砸120億收購音樂識別服務Shazam
用AI聽懂寶寶的「心聲」!宜莫瑞開發「嬰語辨識」系統,減輕新手爸媽困擾
讓人與電腦都輕鬆聽分明!洞見未來打造多人聲分離引擎解決聽力難題
用AI打造多人聲分離引擎,RelaJet給聽障者更好的聆聽體驗