文/陳根
聲音是一個人獨特的標識,而在人工智能的快速發展下,這一獨特標識卻又有了越來越多可代替的選項——語音合成作為人工智能的一個重要分支,旨在通過輸入文字,經由人工智能的算法,合成像真人語音一樣自然的音頻。
現在,機器已經可以輕松又準確地模仿人類講話,并被廣泛的應用于音視頻創作場景中,甚至機器也可以克隆特定人的聲音。給算法輸入某個人的一個聲音片段,算法會學習這個人的方式,然后再把這種說話方式跟其他的人聲相結合,不過問題或許也隨之而來。
語音合成還將超越預想
語音合成涉及創建特定的聲音模型,不僅可以將文字轉化成聲音,而且可以轉化為接近真人語調和節奏的聲音。語音合成雖然并不是一個新近的技術,甚至已經是一個廣泛應用于各行各業,以及出現在人們社會的生產和生活的技術,但語音合成能帶來的未來,實際上仍然超越人們的想象。
語音合成應用中最為人們所熟悉的就是人工智能的語音電話、語音導航、語音助手以及配音等。
比如,配音方面,在過去的幾十年里,許多經典的 TVB 影視片都離不開配音。并且,動漫等影視中最逼真的聲音合成,也大多通過配音演員的聲音錄制來實現的,然后將他們的聲音剪切成不同的片段,像做拼圖一樣,將這些聲音“拼接”在一起,形成一整段聲音。語音合成則讓昔日繁瑣且枯燥的配音工作有望被取代。配音將不再是專業人士的標配,任何人都可以自主且簡單地克隆自己的聲音,而克隆出來的聲音近乎逼真。
直到不久前,語音克隆,即過去所說的“語音銀行”,還只是個定制業務,為那些有可能因癌癥或手術喪失語言能力的人服務。過去,模仿并合成語音耗時漫長,花費不菲。過程中要錄制許多短句,每一句都要以不同的情感側重及根據不同的語境(陳述、疑問、命令等)重復多次,為的是涵蓋所有可能的發音。比利時語音銀行公司阿卡貝拉集團(Acapela Group)對需耗時八小時的錄制過程收取3000歐元(3200美元)的費用。其他公司收費更高,還需要顧客在錄音室里花上好幾天的時間。
現在,神經網絡可以對目標聲音的未排序數據進行訓練,最終以簡單快速、容易的方式,生成一段完整的音頻。當人們將克隆的音頻從設備中導出時,音色和音質幾乎不會受到壓縮和影響。
不過,當前人們所應用或者預想的語音合成還只是語音合成的一部分場景,而放眼語音合成更廣闊的未來,還將成為人類一種全新的交流設備。
當前,許多工程師都致力研發將人腦和電腦進行聯系的精密系統,并且這項工作也在不斷地改進。盡管現在的系統主要是基于注視和視覺注意——這對于許多患者來說都很難做到,但是解碼聽覺注意和運動想象的系統也在不斷研發中。
未來,通過使用這樣的設備,一位四肢癱瘓的患者可以成功地用思維控制機械手臂。如果將這種裝置植入大腦的語言區,或許有一天語音合成器就能把患者想說的話真實地傳遞出來。更進一步說,完全癱瘓了的中風患者或許能夠通過一部可以識別個體語言大腦模式的語音合成器“開口說話”。
2019年4月,加州大學舊金山分校的華裔教授愛德華·錢(Edward Chang)及同事開發出一種將腦活動轉為語音的解碼器,這套人類語音合成系統,通過解碼與人類下頜、喉頭、嘴唇和舌頭動作相關的腦信號,合成被試想要表達的語音。
可以說,過去人類聲音所到達的地方,現在語音合成都在一步步到達,語音合成的應用越發深入地融入人們的生產和生活,也在不經意間改變著人們的生活。
關于真實的博弈
現在,幾近成熟的語音合成已經可以輕松又準確地模仿人類講話,不過問題或許也隨之而來。
2014 年,電影《永遠的蝙蝠俠》中知名演員瓦爾·基爾默(Val Kilmer),因患喉癌被迫做氣管切開手術,導致聲音受損。至此,瓦爾·基爾默與許多優秀影片擦肩而過,演藝生涯近乎跌入谷底。而利用語音合成技術就能夠創造出了瓦爾·基爾默的“原聲”。2021年 8 月,一家名為奏鳴曲(Sonantic)的初創公司聲稱,他們已經通過人工智能語音克隆技術創造出了瓦爾·基爾默的“原聲”。
這種聲音克隆技術使用起來并不復雜,人們只需要拿著事先準備好的臺詞,對著麥克風仔細錄制 30 分鐘左右,即可完成第一步克隆工序。錄制的過程中讀錯字,或者有發音沒有很清晰等情況,只要停下來重新錄制這部分即可。
全部錄制完之后,將生成的音頻文件導出并做一定的處理,幾個小時以后人們克隆的聲音就做好了。此刻,人們可以互動界面中輸入各種想表達話語,人工智能克隆技術就可以在較短的時間內生成專屬自己的“逼真聲音”。
巴黎一家新公司CandyVoice開發了一款手機應用,只要對著它說出約160個法語或英語短語,程序就能將這些發音的片段重組,念出之后打字輸入的任何字句,聽起來和我們自己的聲音頗為神似。這個應用其實是克隆了我們的語音。拼合出的語音聽起來還是有點合成的味道,但CandyVoice的老板讓·呂克·克萊伯(Jean-Luc Crébouw)認為,公司算法的改進會令聲音變得越來越自然。
此外還有一款類似的軟件Festvox,由卡內基梅隆大學的語言技術研究所針對英語及四種廣泛使用的印度語言開發。而百度則表示,其開發的軟件僅憑50句話就可以模擬一個人的聲音。
不過,在越來越逼真的語音合成下,也出現了越來越多的擔憂和質疑——假的東西越真,辨別假的成本也越大。從語音合成到視頻合成,其中一個嚴重后果,就是對于信息的真實性形成的嚴峻挑戰。
自從攝影術、視頻、射線掃描技術出現以來,視覺文本的客觀性就在法律、新聞以及其他社會領域被慢慢建立起來,成為真相的存在,或者說,是建構真相的最有力證據。“眼見為實”成為這一認識論權威的最通俗表達。在這個意義上,視覺客觀性產自一種特定的專業權威體制,聲音更是作為一個人獨特的標識存在。
然而,合成的技術優勢和游獵特征,使得這一專業權威體制遭遇前所未有的挑戰。借助這一體制生產的視覺文本,深度造假者替換了不同乃至相反的文本內容和意涵,造成了文本的自我顛覆,也就從根本上顛覆了這一客觀性或者真相的生產體制。PS 發明后,有圖不再有真相;而深度偽造技術的出現,則讓視頻也開始變得鏡花水月了起來,再加上聲音也不再可信,這對于本來就假消息滿天飛的互聯網來說,這無疑會造成進一步的信任崩壞。
比如,2021年,一位銀行經理接到公司董事打來的電話:公司安排了一項收購,要從賬戶里轉出巨額資金,希望他批準這道流程,還附上了相關律師的電子郵件,以確認金額和轉入賬戶。
這次交易合法合規,流程也并無問題,況且還是老板親自打的電話,他就按要求將3500萬美元如數轉出。直到轉完賬之后,這位迪拜高管也萬萬沒有想到,電話那頭熟悉的老板的聲音,其實是用語音克隆技術合成的。這樁詐騙案由福布斯報道,但受害者的名字和其他更多細節沒有透露。據估計,這項精密的計劃至少涉及17人,自去年年初,騙取的資金已經發往全球各地的銀行賬戶。
總的來說,語音合成的可能性真實存在,也被人們清晰地看見,但語音合成的風險也需要人們重視——要知道,一個失去了“真實感”的世界,將會比沒有語音合成的世界更加可怕。