文/周博磊
制造一臺可以媲美人類智能的計算機,是計算機科學家一直以來的一個夢想。夢想誕生于60多年前,而直到今天,人工智能終于以超乎前人期望的樣子橫空出世了。
1956年的夏天,人類歷史上幾位最頂尖的計算機科學家在美國達特茅斯學院匯聚一堂。他們之中,有計算機專家馬文·明斯基,有信息論專家克勞德·香農,還有兩位后來的諾貝爾獎獲得者赫伯特·西門和約翰·納什。這個夏天,他們唯一的任務就是開創一個新的研究領域——人工智能。
他們雄心勃勃地表示:“從理論上來說,人類智能的每個特性都可以被分毫不差地描述出來,從而讓計算機去模仿。”他們躊躇滿志地勾勒出預期目標:“我們希望制造一臺人工智能計算機,它可以使用語言,可以理解抽象的概念,可以完成人類才能完成的任務,并且可以不斷地改進自身性能。”他們信心百倍地認為:“只要一個夏天,只要有一群優秀的計算機科學家,就可以實現這個預期目標里面的一個甚至多個子目標?!?/span>
誰都沒有想到,為了達到這個預期目標,他們花費了遠遠超過一個夏天的時間。
2006年,達特茅斯會議召開50年后,當年的與會者重聚達特茅斯
60多年后的今天,人工智能終于在人類的生活中占據一席之地。現在,我們已經有機會乘坐自動駕駛汽車,使用智能手機翻譯各種語言,我們放心地讓計算機修正電子文檔和電子郵件中的字詞錯誤……人工智能已經深深融入了我們的生活。
只是,我們在享受著人工智能帶來的便利的同時,很容易忘記它并不是從一開始就這樣“智能”。
1956年的達特茅斯會議之后,科學家很快就明確定義了人工智能這一研究領域所包含的方向:機器翻譯、計算機視覺、文本理解、語言識別、機器人控制和機器學習。在隨后的30年里,大量的資源被投入到這些領域。但遺憾的是,科學家沒能在任何一個研究方向取得實質性突破。直到20世紀90年代初,1956年的一些設想才逐漸被實現。
成功不僅姍姍來遲,它到來的方式也令人始料未及。從1956年到現在的幾十年間,人工智能的研究目標沒有變,但是實現人工智能的方法已經發生了翻天覆地的變化。
早期人們采取的是“自上而下”的研究手段。它的思路是,先模仿人類處理語言、文字和圖片的過程建立一個數學模型,然后用計算機軟件實現這一模型,那么計算機就可以據此進行信息處理和邏輯思維。然而,這種“自上而下”的手段后來被證明是徒勞。早期的研究人員還認為,人工智能的突破性進展將幫助人類進一步理解人腦產生智能的原理,這個觀點也不攻自破。
“自上而下”的研究思想試圖直接模仿人腦
科學家在屢戰屢敗中終于明白,基于“自上而下”的手段建立起來的系統并不能適應現實生活中千變萬化的情形。直到20世紀90年代初,因為幾十年的停滯不前,大多數研究人員開始放棄這種基于“自上而下”的模型推演出的普適的智能計算系統,轉而專注于開發一些能解決具體任務的智能系統。
人工智能最先在具體任務上取得成功的例子是商品推薦系統。它的作用等同于商場里的導購員,可以向消費者推薦適合他們的商品?;卮鹣M者為什么購買某件商品本身很難,但是通過以前的消費記錄去預測他們以后會購買什么樣的商品會比較容易。比如說,你購買了《哈利·波特》系列小說的第一部和第二部,你就有很大的可能性會購買第三部。進行商品推薦并不需要去理解消費者的行為動機,只需要讓計算機從大量數據里估算出商品之間的相關性就足夠了。
“自下而上”的研究手段從數據出發
從數據本身出發,就是“自下而上”的研究手段的核心思想。因為人工智能領域里的很多問題,并不能用成型的數學理論去解釋,但是好在有海量的數據可供分析。這種“自下而上”、從數據出發的研究手段是不是能進一步推廣到其他智能任務上呢?
事實證明,“自下而上”的研究手段在處理語言識別、機器翻譯和計算機視覺中的手寫識別等任務時大獲全勝。到20世紀中期,機器學習的原理日趨清晰:機器不需要從算法層面去理解學習的過程,更不需要以此去模仿人腦是如何“學習”的,它只需要有大量數據支持訓練,就可以完成各種任務,也就是說,數據比理論模型更重要。基于這一原理制造的新一代智能機器逐漸占據統治地位。研究人員也放棄了以往持有的“人工智能可以幫助人類理解人腦智能”的觀點,因為試圖從算法之中去理解人類智能純屬浪費時間——算法的“智能”主要來自于海量的數據訓練,而不是算法本身。
那么,機器到底是如何學習的呢?
在人工智能里,“學習”的定義是,機器根據過去的經驗改進自己的行為。這聽起來神乎其技,但其實是個非常機械的過程。以電子郵箱中的垃圾郵件過濾功能為例,當我們把一封郵件拖入垃圾文件夾時,垃圾郵件過濾器就會統計這封郵件的發件人和郵件內容中的所有字句,從而計算得出一封郵件由于包含某些信息而被歸為垃圾郵件的概率。這使得垃圾郵件過濾器在未來接收到新郵件時,可以通過掃描郵件的發件人和其中字句來判斷該郵件是否為垃圾郵件。垃圾郵件過濾器并不需要去理解郵件內容,僅僅去統計字句就足夠了。
將這種看似簡單的統計方法與海量數據相結合,可以實現許多不可思議的功能。這些功能很難用“自上而下”的研究手段直接設計,比如,生成和補全你即將輸入的語句,預測你的鼠標下一次會點擊在哪里,給你推薦需要的商品,甚至進行語言翻譯、手寫識別、人臉識別等等。我們根本不需要人為地給智能系統指出哪些是重要的識別特征,只要給它們足夠的數據,它們就可以訓練有素。
如果我們把一些簡單的統計方法應用到同一個復雜系統中,并且輸入大量的數據來訓練它,系統最終的輸出結果將會非常智能。不過,盡管它表現得如此智能,它自己并不能解釋為什么會有這樣的輸出結果。這一現象有時被稱作“不可解釋的大數據有效性”,它給人們上了非常重要的一課:把一些簡單的統計方法相結合,并且提供海量的訓練數據,計算機系統就可以輕松實現一些曾困擾了“自上而下”的理論派們幾十年之久的智能行為。
得益于垂手可得的大數據,人工智能終于走下神壇,在現實生活中有了用武之地:一個個視覺、語言、翻譯、問答系統被開發出來;當這些單一功能的系統整合進一個更大的系統,它們就構成了蘋果公司的Siri語音助手和谷歌公司的自動駕駛汽車。
人工智能的進步離不開對數據的有效利用。于是,現在的人工智能研究人員投入了更多的時間和精力在數據上,比如說如何找到合適的數據,如何利用更多的數據資源。當然,有價值的數據大多是用戶行為的副產品,例如人們隨手發布的朋友圈或者微博。正因為如此,工程師也在積極開發更多收集數據的方法,比如說在社交平臺的圖片里標注出自己的好友,給買過的商品打分,參與可以采集地理坐標的游戲,等等。數據,變成了一種新的資源。
另一方面,當人工智能展現出強大功能的同時,我們也開發出了史無前例的數據平臺。無論是在網上閱讀新聞、搜索信息、購買商品、玩游戲,還是收發電子郵件、查詢銀行賬戶,我們都在跟數據平臺打交道。數據推動著人工智能一步步走向強大,人工智能也推動了數據平臺的開發。
人工智能既是一門強大的技術,也是人類生活的變革者。
人工智能帶來了多種多樣的問題和挑戰:它監控人們的行為,暴露人們的隱私,影響我們的決策,取代人類的工作……我們真的準備好了嗎?
如果我們因智能系統的差錯而被無端拒絕入境,或者在就醫時被誤診,我們可以向誰申訴?信用記錄可以被算法排序,難道我們的個性和認知也一樣嗎?如果大量的工作被人工智能取代,這個充斥著失業人群的社會會變得更好嗎?
綜合性的數據平臺不停地收集個人數據,這使得它可能成為監控人類的裝置:它知道我們所在的地理位置,我們瀏覽器中的訪問記錄,以及我們在社交媒體上的所有分享。然而我們并不能決定誰可以訪問這些記錄,這些記錄可以用來做什么,或者這些記錄是否可以被永久刪除。也就是說,我們并不具有個人隱私的控制權。
智能系統利用這些數據預測我們的下一步行為,它的本意是更好地服務于人類,但也無形中影響著我們的決策。許多人工智能公司開發的商業模型依賴于用戶更多地瀏覽和點擊廣告,很明顯,當機器獲得更多的用戶數據,它就能更好地“忽悠”用戶點擊廣告。更糟糕的結果是,用戶看到的只是系統最想展示的,而不是自己最想看到的。
人工智能已經“飛入尋常百姓家”。因為隨處可見,所以我們可能沒有意識到這就是“人工智能”,也不會直接把它叫作“人工智能”,但這并不妨礙它在健康、交通、通信、教育等不同領域帶來深遠影響。人工智能的前沿研究并未停歇。未來,機器學習的一個研究方向是改進和優化幾十年前提出的各種“自上而下”的模型。這之后又將會帶來怎樣的驚喜,我們拭目以待。
人工智能為我們的生活帶來了無盡的可能性,在這無盡的可能性之中,就包含了人工智能的潛在風險。這個風險并不在于人工智能是否會毀滅人類,而在于它對個人隱私的侵蝕,以及對傳統產業、文化和生活方式的沖擊。
一張圖看懂人工智能的成長路
(點擊可查看大圖)
故事遠未終結……
◆ ◆ ◆
本文選自《科學畫報》
轉載請保留作者,注明轉載自科學畫報