導讀
加拿大一家名為“琴鳥”(Lyrebird)創(chuàng)業(yè)公司聲稱,通過分析約一分鐘的錄音,然后利用語音模仿算法,就可以模仿任何人的語音,還能在聲音中加入“感情”因素,讓它更生動逼真。
關鍵字
背景
在介紹這項創(chuàng)新技術(shù)之前,考慮到有些朋友不了解語音合成技術(shù),同時也為了延續(xù) IntelligentThings一貫傳遞技術(shù)和創(chuàng)新價值的原則。所以,我們還是從語音合成技術(shù)的背景談起。
語音合成技術(shù),簡單一點說,就是通過計算機等技術(shù),將文字信息轉(zhuǎn)化為語音信息,然后播放出來。下圖就是一款簡單的語音合成設備,它能夠輸出合成的和數(shù)字化的語音。
(圖片來源于:維基百科)
這項技術(shù)有著漫長的歷史,最早可以追溯到1779年,Kratzenstein 研制出一種機械式語音合成器。后來,由于電子技術(shù)興起和加入,1939年貝爾實驗室H. Dudley 制作出一個電子語音合成器。而近期,又發(fā)展到 TTS,即“文本到語音”技術(shù),它結(jié)合了芯片、人工智能、軟件等技術(shù),將文字轉(zhuǎn)化為語音。
TTS技術(shù)的處理流程
(圖片來源于:維基百科)
目前,在語音合成領域,不少公司都有所建樹,例如國外的微軟、朗訊、AT&T、Elan、TextAloud等,國內(nèi)的科大訊飛、捷通華聲、百度等。
近些年來,伴隨著人工智能等前沿技術(shù)的發(fā)展,語音合成技術(shù),取得了長足的進步,越來越流暢、連貫、自然,絲毫沒有任何機械、生澀的感覺。
未來,語音合成技術(shù)的發(fā)展方向,應該就是讓聲音達到真人說話水準,并逐漸加入音色、情感方面的合成,使之更具特色,更加個性化。
創(chuàng)新
在語音合成和人工智能等技術(shù)興起的背景下,最近,位于加拿大蒙特利爾的初創(chuàng)公司Lyrebird 宣布成功開發(fā)出了一項語音合成新技術(shù),它只需分析幾十秒鐘的音頻錄音,就可以利用語音模仿算法,仿造任何人的聲音,這是世界上首次。
公司的名字為“Lyrebird”:琴鳥,并不是偶然,是獨具匠心的選擇。因為,琴鳥這種鳥,能夠模仿各種聲音,例如喇叭聲、氣鳴聲、伐木聲等等。
該公司的核心技術(shù)是一個深度學習模型,由蒙特利爾大學MILA實驗室所開發(fā)。公司三位創(chuàng)始人:Alexandre de Brébisson、Jose Sotelo、Kundan Kumar 都是該校的博士生。
說起這項技術(shù)的創(chuàng)新和獨特之處,主要有以下三點:
聲音獨特
開發(fā)者可從幾千種不同的預定義聲音中進行選擇,或者根據(jù)需求,為應用程序設計獨特的聲音。
實時生成
通過GPU集群,不到半秒種的時間,就能夠生成1000條句子。
控制情感
可以注入不同的情感效果,例如壓力、憤怒、同情等等,生成的聲音不是機械的,而是富有情感的。
另外,他們還為公司或者個人開發(fā)者,提供了一套API(應用程序編程接口)和AI應用,使他們能夠開發(fā)新的語音合成解決方案。
在lyrebird.ai的網(wǎng)站上,該公司特意展示了特朗普、奧巴馬、希拉里等人的合成語音,旨在說明這項技術(shù)的準確性和有效性。
應用
這項技術(shù)將會帶來一些列精彩的應用,例如:私人助手,用于讀取著名的音頻書籍;各類可聯(lián)網(wǎng)的語音合成設備,為視覺障礙的殘疾人合成語音;另外,它還可以服務于電影動畫或者游戲工作室。
未來
未來團隊會有什么計劃?他們的API正在開發(fā)之中,并且也在擴大他們的測試范圍,邀請更多人的參與。
對于這項技術(shù),也許很多朋友都會發(fā)出質(zhì)疑,因為它會引發(fā)一些負面的問題:
例如,有人會利用它創(chuàng)造出虛假的數(shù)字聲音,而聽起來又十分逼真,以至于可以欺騙聽眾,讓他們以為是在聽真人講話。這樣一來,某些別有用心的壞家伙就可以篡改聲音,誤導和欺騙他人。
面對這些質(zhì)疑,該公司團隊認為:
通過公開發(fā)布這項技術(shù),他們希望每個人都能意識到這種技術(shù)的存在,復制他人的語音是有可能的,所以說錄音有時候也可能是虛假的,或者說是被人為修改過的。
參考資料
【1】https://lyrebird.ai
需要進行深入咨詢和交流的朋友,請聯(lián)系微信:JohnZh1984