計算機說話的聲音,應該與人類相似到什么程度?
這是2009年時,IBM的一個團隊所面臨的問題,該團隊由六名語言學家、工程師和營銷人員組成,當時正在為“沃森”(Watson)設計一個文字轉語音功能。“沃森”是一個玩《危險邊緣》(Jeopardy!)游戲的人工智能程序。
18個月后,在一場萬眾矚目的比賽中,“沃森”擊敗了《危險邊緣》兩名最優秀的參賽者,其精心調校的聲音——聽起來不是很像真人,但也不太像電影《2001:太空漫游》(2001: A Space Odyssey)中的HAL 9000——展現了“沃森”的人造性格。
如今,隨著計算機便攜度的提高,以及手和眼睛沒有空閑的用戶越來越多地使用語音與之交互,計算機“人格”也成為了越來越多的軟件設計師努力應對的一個挑戰。
機器設備正在傾聽、理解和發出聲音,這些設備不僅僅包括計算機和智能手機。語音功能已被廣泛添加到汽車、玩具等等日常物品,以及信息“家電”中,比如家用機器人Pepper和Jibo,亞馬遜Echo揚聲器設備的語音功能Alexa。
一種新的設計科學正在成型,其目標是構建出被稱為“交談代理”的軟件程序,能夠理解自然語言和語音,并對人類語音命令做出反應。
但是,在“人機交互”設計領域的研究人員率領下對此類系統進行的構建,不僅是一門科學,也是一門藝術。
目前計算機發出的聲音,除了很短的詞組之外,尚未逼真到和人聲難于區分,可以用來播送天氣預報和行車路線的程度。
大多數軟件設計人員都承認,他們尚未穿越“恐怖谷”階段,這指的是設備發出的聲音很像真人,但卻讓人心煩、很不諧調的狀況?!翱植拦取钡恼f法是日本機器人專家森政弘(Masahiro Mori)在1970年提出的。他發現隨著圖形動畫越來越逼真,但又尚未達到和真人視頻難以區分的程度時,會有一個讓人覺得毛骨悚然而怪異的階段。
這種現象同樣也適用于語音。
“我會說這是一種不協調的聲音,”ToyTalk高級語音科學家布賴恩·朗納(Brian Langner)說?!爱敊C器在某些地方做得不錯時,人們往往會期待它每件事都做好?!盩oyTalk是一家位于舊金山的科技公司,在為芭比娃娃之類的東西創造數字語音。
除了正確發音,在語音中體現語調變化及感情等人類特質是一個更大的挑戰。語言學家稱之為“韻律”,也就是在口語中正確重讀、添加語調或情緒的能力。
如今,即便有了這些進步,仍然無法通過人工智能完全體現人聲中的豐富情感。第一批實驗性研究的成果剛剛開始為語音學家所用,這些成果是通過使用機器學習算法和有關人聲所蘊含的情感的巨大數據庫取得的。
合成語音可以通過各種方式制作完成。最高品質的自然語音技術會先通過人聲以不同方式生成一個語音組成部件甚至子部件的數據庫。一名配音員可能要耗費至少10到幾百個小時為每個數據庫錄音。
現代語音合成技術源于蘇格蘭計算機科學家阿朗·布萊克(Alan Black)的早期工作。布萊克目前在卡內基梅隆大學(Carnegie MellonUniversity)語言技術研究所(Language Technologies Institute)任教授。
布萊克承認,盡管已經取得重大進步,語音合成系統尚未達到接近人聲的完美程度。他說,“問題是我們無法很好地控制我們如何對著合成器說話,‘有感情地說?!?/p>
對于ToyTalk公司那些設計娛樂角色的開發人員來說,這種錯誤可能不會帶來嚴重后果,因為他們的目標就是使聽眾開心,甚至是大笑。然而,對于那些旨在與人合作用于商業用途或與人成為伙伴的程序來說,這種挑戰要更為微妙。
設計者們經常稱,他們不想讓人以為自己正在跟人對話,但他們仍想在用戶與機器之間創造一種類似人類之間的關系。
《危險邊緣》對于IBM研究員來說是一個極具挑戰性的語音合成問題,因為雖然回答很短,但有很多潛在的發音錯誤陷阱。
“單詞發音方面的出錯率是我們面臨的最大問題,”IBM研發中心(IBM Research)認知環境實驗室(Cognitive Environments Laboratory)研究員安迪·埃倫(Andy Aaron)說。
AD該團隊的幾名成員花了一年多的時間創建了一個巨大的正確發音數據庫,以盡可能地將錯誤降至接近零的水平。像brut Champagne(干香檳)、carpe diem(抓住今天)、sotto voce(低聲地)等短語屬于容易出錯的潛在雷區,因此無法盲目遵從發音指南。
研究人員采訪了25名配音員,尋找可以創建沃森語音的特別人聲。他們將范圍縮小至他們最喜歡的聲音,然后通過各種方式呈現聲音,甚至一度通過頻移使其聽起來像是孩子的聲音。
“幾乎每個人都強烈反對這種人物設定,”IBM研發中心沃森多模式實驗室(Watson Multimodal Lab)高級管理人員邁克爾·皮徹尼(Michael Picheny)說?!拔覀儾幌M曇袈犉饋磉^于亢奮?!?/p>
研究人員要尋找一種緩慢、平穩,最重要的是“令人愉悅”的機器語音。最終在對程序進行調試時,他們更多地是在扮演藝術家而不是工程師的角色。他們形成的聲音明顯是計算機的聲音,但聽起來很樂觀,甚至有點活潑。
皮徹尼說,“好的計算機-機器界面是一種藝術,應該當藝術來對待?!?/p>
翻譯:土土、許欣