芯片制造商英偉達發布了一款可以整合聊天軟件的強大工具,押注人工智能的語言技能將迅速提高。
盡管人工智能在過去十年取得了令人印象深刻的進步,但機器在理解人類語言方面仍然很糟。試著和小愛同學、小度甚至Siri開個玩笑就知道。
為許多人工智能算法提供動力的芯片制造商英偉達認為,這種情況即將改變,并希望在即將到來的爆炸式增長中占有一席之地。
英偉達發布的軟件,使得在其硬件上構建能夠更優雅地使用自然語言的人工智能程序變得更加容易。并將加速新語言算法的開發,使聊天機器人和語音助手更敏捷、更智能。
英偉達已經生產出最受歡迎的用于訓練深度學習人工智能模型的芯片,這些模型擅長圖像分類等任務。然而,因為語言的模糊性和復雜性,將像深度學習這樣的統計機器學習方法應用到書面或口頭單詞上要困難得多。
但最近取得了一些重大進展。來自谷歌的兩種新的語言深度學習方法Transformer和BERT被證明尤其擅長于在不同語言之間進行翻譯、回答特定文本內的問題、甚至生成看起來像人寫的文本。這引發了學術界和產業界對利用機器學習提高語言水平的興趣。
“Transformer和BERT的結合產生了巨大的影響,”哈佛大學教授亞歷山大拉什(Alexander Rush)說。拉什專門研究人工智能的子領域,即自然語言處理(簡稱NLP)。“它基本上在每一個基準測試中都是領先的,它可以讓一個本科生用五行代碼就能生產出世界級的模型。”
英偉達一直擅長追蹤人工智能研究的最新趨勢。如果它最新的預感被證明是正確的,那么語音助手可能會從僅僅響應命令,變成可連貫地串起更多的單詞。與此同時,聊天機器人也會顯得更聰明,而諸如World等文檔編輯應用程序和輸入法中的自動補全功能可能會開始顯示整段文字,而不是接下來的幾個字母或單詞。
英偉達深度學習副總裁布萊恩·卡坦扎羅(Bryan Catanzaro)表示:“我們對語言建模的需求很大。”“如果你看看語言進步的速度,對其進行投資是明擺著的。”
英偉達通過優化在其GPU上訓練語言模型的過程來開發軟件。這加快了訓練人工智能模型的時間,從幾天到一個小時內);加速了訓練語言模型的性能,從40毫秒到2毫秒左右;并允許數據集規模更大的語言模型訓練,英偉達的語言模型,稱為威震天,比以前大很多倍,有86億個參數)。
不作惡
然而,技術進步也可能造成黑暗面。比如更智能的算法亦可以大規模生產更有說服力的、量身定制的虛假評論、社交媒體帖子和新聞報道。其他研究小組已經展示了強大的語言模型是如何在吸收了大量互聯網上的文字后,生成具有現實效果的文本。
英偉達有一個防止潛在誤用的計劃:它不會發布自己開發的最大語言模型,并計劃依靠研究人員謹慎使用其工具。“我們正在發布代碼,展示如何使用GPU來訓練這些大型模型,”Catanzaro說。“我們相信社區將會負責任地使用這些代碼,這種規模的培訓模型需要強大的計算能力,這是大多數人所無法完成的。”
即使進步迅速,但機器要真正與我們交流可能還需要很長一段時間。機器很難理解語言,部分原因在于其組成的復雜性:單詞可以被重新排列,從而有無限的意義。理解短語的意思通常還需要對世界有某種常識性的理解,而這是計算機所不具備的。
“我們看到了NLP能力的復興,”艾倫人工智能研究所(Ai2)的首席執行官Oren Etzioni說。他表示,這將極大改善聊天機器人和語音助手的能力,盡管它們還很笨拙而缺乏基本常識。
Ai2最近推出了一個名為Grover的工具,它使用先進的NLP技術來捕捉似乎是人工智能炮制出來的文本。機器人已經在Facebook和Twitter上欺騙了人們。自動生成的假文本已經存在,而且很可能呈指數級增長。國內的某些網站和APP的評論很多亦來自AI,如果你仔細看的話常常會發現題不對文的評論,是不是?