精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
如果電腦說(shuō)話的聲音真的和人類一模一樣

智能

如果電腦說(shuō)話的聲音真的和人類一模一樣

John Markoff 8 小時(shí)前

除了正確發(fā)音之外,讓電腦學(xué)會(huì)說(shuō)話還要解決另一個(gè)更艱巨的挑戰(zhàn):在電腦語(yǔ)音中加入類似音調(diào)變化和情緒這樣人類才具有的特征。

電腦說(shuō)話的聲音和人類能有多像?

2009 年,一個(gè)六人組成的 IBM 團(tuán)隊(duì)遇到了這個(gè)問(wèn)題。該團(tuán)隊(duì)由語(yǔ)言學(xué)家、工程師和營(yíng)銷人員構(gòu)成,他們當(dāng)時(shí)正開始為該公司準(zhǔn)備參加《Jeopardy!》節(jié)目(哥倫比亞廣播公司益智問(wèn)答游戲節(jié)目,已有數(shù)十年歷史——譯者注)的人工智能程序 Watson 設(shè)計(jì)一種能將文字轉(zhuǎn)化成語(yǔ)音的功能。

十八個(gè)月后,這個(gè)團(tuán)隊(duì)精心合成出了一種聲音。這個(gè)聲音聽起來(lái)不太像人類,但是也不像電影《2001太空漫游》(2001: A Space Odyssey)里人工智能電腦 HAL 9000 那樣呆板空洞。Watson 系統(tǒng)用這個(gè)聲音說(shuō)出自己的答案,在飽受關(guān)注的《Jeopardy!》節(jié)目中擊敗了歷史上勝率最高的兩位人類選手。

電腦的便攜性越來(lái)越高,而用戶也越來(lái)越忙碌,需要更多地使用語(yǔ)音交互與電腦進(jìn)行互動(dòng)。在這樣的背景下,當(dāng)下越來(lái)越多軟件設(shè)計(jì)師要面對(duì)一個(gè)挑戰(zhàn):為電腦創(chuàng)造“性格”。

如今的機(jī)器可以聆聽、理解并說(shuō)話,這不僅僅是電腦和智能手機(jī)才具備的功能。我們?nèi)粘I钪械暮芏嗍挛锒季邆淞苏Z(yǔ)音功能,比如汽車和玩具。當(dāng)然智能家電也能說(shuō)話,比如居家陪伴型機(jī)器人 Pepper 和 Jibo,還有亞馬遜 Echo 項(xiàng)目中的智能播放器 Alexa。

我們所謂的“對(duì)話代理”(conversational agents)是一種可以理解自然語(yǔ)言和人類言語(yǔ)的軟件程序,它能夠響應(yīng)人類的語(yǔ)音命令。在打造這個(gè)軟件系統(tǒng)的過(guò)程中,一個(gè)新的設(shè)計(jì)科學(xué)漸漸形成。

人機(jī)交互設(shè)計(jì)領(lǐng)域的研究人員在打造“對(duì)話代理”軟件程序的過(guò)程中發(fā)揮主導(dǎo)作用。不過(guò)打造這個(gè)程序的過(guò)程更像是一門藝術(shù),而不是一門科學(xué)。

我們?yōu)殡娔X打造計(jì)算機(jī)化的聲音,使它能夠以與人類相似的聲音讀出短語(yǔ)和詞組。有了這個(gè)功能,電腦就能播放天氣預(yù)報(bào)或者在為汽車導(dǎo)航時(shí)與用戶交流。然而當(dāng)電腦在朗讀比短語(yǔ)詞組長(zhǎng)的句子時(shí),我們還無(wú)法保證它的聲音聽上去與人類正常聲音別無(wú)二致。

大多數(shù)軟件設(shè)計(jì)師承認(rèn),他們現(xiàn)在依舊面臨一個(gè)困難:如何跨越“恐怖谷”(uncanny valley)。恐怖谷理論認(rèn)為,電腦程序具備的幾乎與人類非常相似的聲音反而會(huì)令我們感到煩擾和刺耳。“恐怖谷”這個(gè)詞由日本機(jī)器人專家森政弘(Masahiro Mori)在 1970 年提出。他發(fā)現(xiàn)在圖形動(dòng)畫越來(lái)越像人類的過(guò)程中,有一個(gè)時(shí)間點(diǎn)上人們會(huì)覺得這些類人化的東西驚恐且怪異。這之后人們才會(huì)對(duì)其進(jìn)行改進(jìn),使其與人類影像一模一樣。

這個(gè)過(guò)程也適用于讓電腦說(shuō)話這件事。

ToyTalk 是舊金山的一家技術(shù)公司,主要為類似于芭比娃娃這樣的物品打造數(shù)字化語(yǔ)音。該公司高級(jí)語(yǔ)音科學(xué)家布萊恩·蘭納(Brian Langner)表示:“我愿意讓數(shù)字化聲音顯得有些刺耳且不和諧。人們的要求總是很高,當(dāng)機(jī)器能做好一些事情時(shí),他們常常就會(huì)希望機(jī)器可以完美地處理所有事情。”

除了正確發(fā)音之外,讓電腦學(xué)會(huì)說(shuō)話還要解決另一個(gè)更艱巨的挑戰(zhàn):在電腦語(yǔ)音中加入類似音調(diào)變化和情緒這樣人類才具有的特征。語(yǔ)言學(xué)家稱之為“韻律”,也就是能在發(fā)音過(guò)程中正確使用強(qiáng)調(diào)、語(yǔ)調(diào)和感情的能力。

即便取得了不少成績(jī),但是今天我們依舊無(wú)法讓人工智能程序在發(fā)音時(shí)完整無(wú)誤地呈現(xiàn)出句子背后的情緒。第一個(gè)實(shí)驗(yàn)性研究采用了機(jī)器學(xué)習(xí)算法,還利用了大量充滿人類感情語(yǔ)音的數(shù)據(jù)庫(kù)。目前研究剛剛有些成果,可供語(yǔ)音科學(xué)家進(jìn)行分析和探討。

IBM的尋找 Watson 聲音之旅
2009 年,IBM 公司一個(gè)由六人組成的團(tuán)隊(duì)開始為人工智能程序 Watson 尋找合適的聲音。數(shù)月之后,Watson 在宣傳鋪天蓋地的益智問(wèn)答游戲節(jié)目《Jeopardy!》中用研究人員精心合成的聲音作答,成功戰(zhàn)勝該節(jié)目歷史上勝率最高的兩位人類選手。
你可以在原文中聽到 Watson 的四段音頻。

打造合成語(yǔ)音的方式有很多種。想要保證合成語(yǔ)音聽起來(lái)自然順暢,質(zhì)量最高的一種技術(shù)是利用人類的聲音。研究人員要對(duì)人類語(yǔ)音進(jìn)行錄音,記錄下人類以多種方式說(shuō)話過(guò)程中的句子細(xì)微構(gòu)成,然后形成多個(gè)數(shù)據(jù)庫(kù)。一個(gè)獻(xiàn)聲的配音人員要花費(fèi)至少十到上百個(gè)小時(shí)的時(shí)間,才能為一個(gè)數(shù)據(jù)庫(kù)完成錄音。

在 2013 年的科幻電影《她》(Her)中,我們能看到為聲音加入無(wú)形情感元素的重要性和難度。在這部電影里,杰昆·菲尼克斯(Joaquin Phoenix)扮演的孤獨(dú)的辦公室職員愛上了薩曼莎(Samantha),一個(gè)先進(jìn)電腦操作系統(tǒng)的合成語(yǔ)音。

實(shí)際上,影片中的電腦語(yǔ)音最終由斯嘉麗·約翰遜(Scarlett Johansson)進(jìn)行配音。該片導(dǎo)演斯派克·瓊斯(Spike Jonze)最初選定的聲優(yōu)演員并不是約翰遜小姐,但她未能展現(xiàn)出瓊斯導(dǎo)演想要呈現(xiàn)的那種機(jī)器與人之間浪漫愛情關(guān)系,因此被導(dǎo)演替換掉。

蘇格蘭計(jì)算機(jī)科學(xué)家艾倫·布萊克(Alan Black)目前是卡耐基梅隆大學(xué)語(yǔ)言技術(shù)學(xué)院的教授。他的早期研究成果奠定了現(xiàn)代語(yǔ)音合成技術(shù)的基礎(chǔ)。

布萊克先生承認(rèn),雖然科學(xué)家已經(jīng)在語(yǔ)音合成領(lǐng)域取得了重大進(jìn)步,但語(yǔ)音合成系統(tǒng)目前還無(wú)法完美地呈現(xiàn)出與人類一模一樣的聲音。他說(shuō):“問(wèn)題在于,我們無(wú)法很好地掌控與語(yǔ)音電子合成器說(shuō)話的方式,無(wú)法讓合成器帶有感情的進(jìn)行發(fā)音。”

對(duì)于像 ToyTalk 公司研發(fā)人員這樣設(shè)計(jì)娛樂(lè)角色的人而言,錯(cuò)誤可能不是致命的問(wèn)題。他們的目標(biāo)是娛樂(lè)大眾,甚至就是要讓用戶開懷大笑。但是對(duì)于那些旨在與人類在商業(yè)領(lǐng)域進(jìn)行合作或者陪伴人類的程序而言,這個(gè)挑戰(zhàn)就要微妙敏感得多。

研發(fā)這些程序的設(shè)計(jì)師經(jīng)常表示,他們不想欺騙愚弄那些與機(jī)器交流的用戶,但是依舊想在用戶和機(jī)器之間打造一種類人的關(guān)系。

比如,IBM 最近就投放了一個(gè)電視廣告。廣告中呈現(xiàn)了一個(gè)對(duì)話,交流的雙方是極具影響力的創(chuàng)作型歌手鮑勃·迪倫(Bob Dylan)和 Watson 人工智能系統(tǒng)。當(dāng) Watson 系統(tǒng)想要開始唱歌時(shí),迪倫先生突然離開了舞臺(tái)。事實(shí)證明,Watson 的確是個(gè)差勁的歌手。

這個(gè)廣告很好地表達(dá)了 IBM 的目標(biāo)——他們希望將 Watson 系統(tǒng)打造成不是與人類十分相像的專家學(xué)者。他們希望 Watson 的聲音聽起來(lái)不那么像人類的聲音。換句話說(shuō),他們不想讓 Watson 的聲音給觀眾毛骨悚然之感。

對(duì)于 IBM 的研究人員來(lái)說(shuō),讓 Watson 系統(tǒng)參加《Jeopardy!》節(jié)目是個(gè)特別的語(yǔ)音合成挑戰(zhàn)。雖然 Watson 系統(tǒng)在回答問(wèn)題時(shí)都會(huì)采用很短的詞語(yǔ),但是這其中卻充滿了大量可能導(dǎo)致發(fā)音錯(cuò)誤的陷阱。

安迪·亞倫(Andy Aaron)是 IBM 研究院認(rèn)知環(huán)境實(shí)驗(yàn)室的一名研究人員。他說(shuō):“我們要讓 Watson 正確地讀出每個(gè)字。降低出錯(cuò)率是我們面臨的最大問(wèn)題。”

IBM 研究院的研究人員安迪·亞倫表示,發(fā)音錯(cuò)誤是他們幫助 Watson 系統(tǒng)準(zhǔn)備《Jeopardy!》比賽過(guò)程中遇到的最大的問(wèn)題”。圖片版權(quán):Cole Wilson/《紐約時(shí)報(bào)》

為了讓發(fā)音錯(cuò)誤的出現(xiàn)幾率盡可能地接近零,研究團(tuán)隊(duì)的幾個(gè)成員花了一年多時(shí)間,為詞語(yǔ)的正確發(fā)音打造了一個(gè)宏大無(wú)比的數(shù)據(jù)庫(kù)。類似于低糖度香檳(brut Champagne)、及時(shí)行樂(lè)(carpe diem)和聲音低沉(sotto voce)這樣的詞語(yǔ)是導(dǎo)致 Watson 系統(tǒng)發(fā)音錯(cuò)誤的潛在雷區(qū)。正因?yàn)橛羞@樣的詞語(yǔ)存在,Watson 系統(tǒng)才不能盲目地按照發(fā)音指南朗讀數(shù)據(jù)庫(kù)中的所有詞組。

研究人員面試了 25 名配音演員,想要找到一個(gè)獨(dú)特的人類聲音以便為 Watson 打造屬于自己的聲音。他們先縮小范圍,留下自己最喜歡的配音演員。接著他們對(duì)這名配音演員的聲音進(jìn)行處理,某些時(shí)候甚至?xí)淖兟曇纛l率以便使其聽起來(lái)像是童聲。

IBM 研究院 Watson 多模式實(shí)驗(yàn)室的高級(jí)管理人員邁克爾·皮陳(Michael Picheny)說(shuō):“幾乎每個(gè)人都強(qiáng)烈反感這種類型的人物角色。我們不希望 Watson 的聲音聽起來(lái)太過(guò)于熱情。”

研究人員想要的機(jī)器聲音是緩慢、堅(jiān)定的。更重要的是,這種聲音要“令人愉悅”。相比工程師而言,他們最終更多扮演了藝術(shù)家的角色,對(duì) Watson 系統(tǒng)的聲音進(jìn)行了微調(diào)。他們合成的聲音明顯就是電腦的聲音,但是聽起來(lái)樂(lè)觀向上,甚至有一些活潑明快。

皮陳先生說(shuō):“一個(gè)好的人機(jī)界面就是一個(gè)藝術(shù)品。而我們也應(yīng)該以對(duì)待藝術(shù)品的方式看待這種人機(jī)交互模式。”

隨著語(yǔ)音技術(shù)的不斷進(jìn)步,全新的引人注目的應(yīng)用軟件也會(huì)漸漸出現(xiàn)。甚至來(lái)說(shuō),這些新的軟件可能會(huì)令人類感到焦慮。

Imperson 是一家位于以色列的軟件公司,他們?yōu)閵蕵?lè)業(yè)研發(fā)健談多話的人物角色。目前,該公司正在考慮進(jìn)軍政壇。Imperson 認(rèn)為在選舉期間,在社交媒體平臺(tái)使用虛擬替身角色的政客能吸引更多支持者。這個(gè)虛擬替身角色能夠清楚地說(shuō)出候選人在任何合理問(wèn)題上的態(tài)度和看法。

該公司聯(lián)合創(chuàng)始人兼首席技術(shù)官埃亞勒·法爾福(Eyal Pfeifel)表示:“聽眾想要和候選人之間開展互動(dòng)式對(duì)話。人們能夠理解虛擬角色表達(dá)的意思,而且這其中不存在恐怖谷理論提出的問(wèn)題。”

題圖版權(quán):Cole Wilson/《紐約時(shí)報(bào)》

翻譯:康平

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
IBM Watson認(rèn)知計(jì)算平臺(tái),你想知道的這里都有了
IBM:人類與機(jī)器邁向認(rèn)知新時(shí)代
看IBM如何為Watson建立商業(yè)模式
最適合計(jì)算機(jī)的聲音,應(yīng)該是什么樣的? | 雷鋒網(wǎng)
讓機(jī)器像人類一樣思考:AI人工智能
IBM沃森負(fù)責(zé)人Mike Rhodin談人工智能的未來(lái)
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 云梦县| 六枝特区| 吕梁市| 嘉兴市| 金山区| 全州县| 寻乌县| 彰化市| 平舆县| 莲花县| 温宿县| 砀山县| 乃东县| 乌兰察布市| 湾仔区| 岳阳市| 武清区| 建宁县| 城口县| 区。| 绩溪县| 青川县| 望江县| 新晃| 台安县| 资溪县| 田东县| 舟曲县| 娄烦县| 奉贤区| 绥化市| 平和县| 德州市| 梁河县| 马公市| 天祝| 临猗县| 灯塔市| 锡林郭勒盟| 陆丰市| 申扎县|