本文由Rehoo團隊Leery原創,無授權禁轉!(圖片來自網絡)
圖片來自網絡
大家很容易誤讀和高估人工智能的成就。而這一點在人類語言領域中更為明顯,在過去的一年中,我們看到許多公司給人的印象是,他們的語音機器人,和其他應用程序可以像人類一樣進行有意義的對話。
您只需要看看Google的Duplex,Hanson Robotics的Sophia以及其他許多產品,就可以確信我們已經達到人工智能能夠體現人類行為的階段。但掌握人類語言需要的不僅僅是復制類似人類的聲音或制作結構合理的句子。它需要常識,對環境和創造力的理解,這些都不是當前人工智能趨勢所具備的。
事實上,深度學習和其他人工智能技術在使人類和計算機彼此更加接近方面已經走過了漫長的道路。但是,電路和二進制數據的世界以及人類大腦的奧秘仍然存在著巨大的差距。除非我們不了解并承認人工智能與人類智能之間的差異,否則我們會對未滿足的期望感到失望,并錯過人工智能所提供的真正機會。為了理解AI與人類語言關系的真實深度,我們將場分解為不同的子域,從表面到深度。
演講到文字
語音轉錄是AI算法取得最大進步的領域之一。平心而論,這甚至不應被視為人工智能,但人工智能的定義有點模糊,而且由于很多人可能錯誤地將自動轉錄解釋為智能的表現。較舊的技術迭代要求程序員經歷繁瑣的過程,即發現和編纂分類和將語音樣本轉換為文本的規則。由于深度學習和深度神經網絡的進步,語音到文本已經取得了巨大的飛躍,并且變得更容易和更精確。
使用神經網絡,您可以提供大量的語音樣本及其相應的文本,而不是編寫規則。神經網絡找到單詞發音中的常見模式,然后“學習”將新的錄音映射到其相應的文本。這些進步使許多服務能夠為其用戶提供實時轉錄服務。AI驅動的語音到文本有很多用途。Google最近推出了Call Screen,這是Pixel手機上的一項功能,用于處理詐騙電話,并向您顯示實時發言人的文字。YouTube使用深度學習提供自動隱藏字幕。但是AI算法可以將語音轉換為文本這一事實并不意味著它能夠理解它正在處理的內容。
語音合成
語音到文本的另一面是語音合成。同樣,這真的不是智力,因為它與理解人類語言的意義和背景無關。但它仍然是許多應用程序中不可或缺的一部分,這些應用程序以自己的語言與人類交互。就像語音到文本一樣,語音合成已經存在了很長時間。我記得在90年代的實驗室里第一次看到計算機化的語音合成。
失去聲音的ALS患者幾十年來一直在使用該技術通過輸入句子并讓計算機為他們閱讀來進行交流。盲人也使用技術閱讀他們看不到的文字。然而在過去,計算機產生的聲音聽起來并不像人,而語音模型的創建需要數百小時的編碼和調整。現在,在神經網絡的幫助下,合成人聲已變得不那么累贅了。
該過程涉及使用生成對抗網絡(GAN),這是一種AI技術,它將神經網絡相互對立以創建新數據。首先,神經網絡攝取人的語音的大量樣本,直到它能夠判斷新的語音樣本是否屬于同一個人。然后,第二神經網絡生成音頻數據并通過第一個運行它以查看是否將其驗證為屬于主題。如果沒有,則生成器更正其樣本并通過分類器重新運行它。兩個網絡重復該過程,直到它們能夠生成聽起來自然的樣本。
有幾個網站可以讓您使用神經網絡合成自己的聲音。這個過程就像為它提供足夠的語音樣本一樣簡單,遠遠低于上一代技術所需的樣本。這項技術有很多好的用途。例如,公司正在使用人工智能語音合成來增強他們的客戶體驗,并為他們的品牌提供自己獨特的聲音。
在醫學領域,AI正在幫助ALS患者重新獲得真正的聲音,而不是使用計算機化的聲音。當然,谷歌正在使用該技術實現其雙工功能,以自己的聲音代表用戶撥打電話。AI語音合成也有它的不良用途。也就是說,它可以用于偽造,用目標人的聲音撥打電話,或者通過模仿國家元首或高級政治家的聲音來傳播假新聞。 如果一臺電腦聽起來像個人,那并不意味著它能理解它所說的內容。
處理人類語言命令
圖片來自網絡
這是我們突破表面并深入了解AI與人類語言的關系的地方。近年來,我們看到了領域自然語言處理(NLP)的巨大進步,再次歸功于深度學習的進步。
NLP是人工智能的一個子集,它使計算機能夠識別書面文字的含義,無論是在將語音轉換為文本,通過文本界面(如語音機器人)接收它們,還是從文件中讀取它們之后。然后,他們可以使用這些詞語背后的含義來執行某個操作。
但NLP是一個非常廣泛的領域,可以涉及許多不同的技能。在最簡單的形式,NLP將幫助計算機執行通過文本命令給予它們的命令。智能揚聲器和智能手機AI助手使用NLP來處理用戶的命令。基本上,這意味著用戶不必保持嚴格的單詞序列以觸發命令并且可以使用相同句子的不同變體。
在其他地方,NLP是Google搜索引擎用于理解用戶查詢的更廣泛含義并返回與查詢相關的結果的技術之一。NLP證明非常有用的其他地方是分析工具,例如Google Analytics和IBM Watson,用戶可以使用自然語言句子查詢數據,而不是編寫復雜的查詢語句。
NLP的一個有趣用途是Gmail的智能回復功能。Google會檢查電子郵件的內容并提供答案建議。該功能的范圍有限,僅適用于簡短答案有意義的電子郵件,例如Google的AI算法檢測到預定的會議或發件人希望簡單的“謝謝”或“我會看一下”。但有時候,它提供了非常簡潔的答案,可以節省您幾秒鐘的打字,特別是如果你在移動設備上。
圖片來自網絡
但是,僅僅因為智能揚聲器或AI助手可以響應不同的天氣問題,這并不意味著它完全理解人類語言。目前的NLP實際上只是善于理解具有非常明確含義的句子。AI助手在執行基本命令方面變得越來越好,但如果您認為可以與他們進行有意義的對話并討論抽象主題,那么您會感到非常失望。
用人類語言說話
NLP的另一面是自然語言生成(NLG),這是一種AI學科,它使計算機能夠生成對人類有意義的文本。此領域也受益于人工智能的進步,特別是在深度學習方面。NLG算法的輸出可以顯示為文本,如聊天機器人,或通過語音合成轉換為語音并為用戶播放,如智能揚聲器和AI助手所做的那樣。
在許多情況下,NLG與NLP密切相關,與NLP一樣,它是一個非常廣闊的領域,可能涉及不同程度的復雜性。NLG的基本級別有一些非常有趣的用途。例如,NLG可以將圖表和電子表格轉換為文本描述。像Siri和Alexa這樣的AI助手也使用NLG來生成對查詢的響應。Gmail的自動填充功能以非常有趣的方式使用NLG。當您輸入句子時,Gmail會向您提供完成句子的建議,您可以通過按Tab鍵或點擊它來選擇。該建議考慮了你的信的一般主題,這意味著也涉及NLP。
一些出版物正在使用AI來編寫基本的新聞報道。這些新聞寫作機器人背后的技術是NLG,它通過分析人類記者用來撰寫報告的風格,基本上將事實和數字轉化為故事。它無法提出新的想法,編寫能夠講述個人經歷和故事的功能,或撰寫介紹和闡述意見的專欄。另一個有趣的案例研究是Google的Duplex。谷歌的AI助手將人工智能的能力和極限都放在人類語言的掌握之上。Duplex以非常出色的方式結合了語音到文本,NLP,NLG和語音合成,使許多人相信它可以像人類那樣進行交互。
但Google Duplex它將擅長執行公司演示的任務類型,例如預訂餐廳或在沙龍預約。這些是問題空間有限且可預測的領域。但是Duplex并不了解其對話的背景。它只是將人類語言轉換為計算機命令,將計算機輸出轉換為人類語言。它無法就抽象主題進行有意義的對話,這可能會帶來不可預測的方向。
機器翻譯