編者按:
1919年1月15日,北大教授陳獨秀用“賽先生”指稱科學。百年紀念日,北大教授饒毅、謝宇,清華教授白重恩、吳國盛,上海紐約大學教授張崢同臺討論“科技對未來的影響”。今天我們刊發張崢教授的演講全文。
演講 | 張 崢(上海紐約大學計算機科學教授)
整理 | 邸利會
● ● ●
我想討論的一個題目,是看一看人工智能跟人腦的鴻溝在什么地方。
說到人工智能和人的智能之間的關系,大家也許聽說過“類腦計算”這個詞,但大家可能不清楚它是什么。據說,領導們在討論中國腦計劃時有問起過,什么叫“類腦計算”,結果都答不上來。一個將軍特別聰明,他說“類腦計算”就是下一代的人工智能——特別有智慧,但其實還是沒有回答這個問題。
我在工作中非常喜歡跟腦科學家一起合作。我發覺兩個學科之間的鴻溝相當大,經常會發生雞同鴨講的問題——我們的語言不一樣、任務不一樣、方法論也不一樣。有一個笑話說,一個神經元是生物學的問題,兩個神經元就是神經科學的問題,而人工智能一言不和就成千上百萬的神經元,從尺度上說就非常不同。
先來看人工智能。現在AI技術處在井噴狀態,給大家舉幾個我覺得很不錯的結果。2017年底,AlphaZero從零開始學習打敗了人類圍棋、象棋和日本的一個游戲;一年之后,同樣的團隊調整槍口,做了蛋白質結構的預測;一個多星期前,在《自然·醫學》期刊里大概有8篇做數字醫療的文章,好幾篇講人工智能在健康領域的可能應用,這些都是非常有潛力、非常好的結果。
人工智能的服務對象非常廣,其中科普最成功的顯然就是AlphaGo下圍棋這個事,路人皆知。而人工智能也正在進入人們的生活當中,比如智能音箱。亞馬遜花了幾年時間秘密研制,到今天已經成了紅海。我原來住酒店時經常頭疼的是一大堆開關,不知道哪個開關管哪個燈。上次我去一個酒店,一個開關都沒有,只有一個音箱,我不知道是Ta哄我還是我哄Ta,花好幾分鐘我才說服Ta把窗簾關上。顯然是因為我太老了,不習慣新東西。
現在人工智能的背后有一個深度學習的方法在起作用。我就先簡單說一些它是什么。
演講中,張崢自曝花了好幾分鐘說服一個音箱關上窗簾。
深度學習到底是什么?
第一個概念大家高中數學都學過:函數。深度網絡本質上就是一個函數,只是這個函數帶參數。深度網絡工作時產生一堆數值,是概率。比如,我們做圖形識別,識別一千類物品,網絡輸出就是一千類的概率分布,是一個一千維的向量。最后要判斷是哪一個,就挑一個最高概率的作為輸出。
輸入是什么?是特別高維的向量。這點大家可能不清楚,輸入是來自現實生活、三維世界的一張照片,那怎么可能是幾千維的向量呢。原因在于,假如說一張圖片長和寬都有一千個像素,那就是一個一百萬個點的矩陣,然后還有紅綠藍三個顏色頻道,所以總計是三百萬的、很大的向量。不管我們人是怎么認識這個世界的,計算機的模型看到的就是一個維數很大的向量,假設圖片更清晰的話,尺寸就更大。所以,這個函數,也就是深度網絡要做的事情就是把高維向量映射到相對來說低維的向量。
那我們怎么訓練這個網絡?還是一樣,給它圖片,它給輸出,只是我們要調整參數。網絡一開始肯定是亂的,明明給貓的圖片,它輸出的類別可能是狗,這個網絡就有錯誤了,就需要調整參數。
這就引入第二個概念。大家要是熟悉炒股,知道訣竅在于低開高走,深度網絡或者機器學習的目標跟炒股是反著的,要高開低走。高和低,就是錯誤程度的衡量,訓練模型就是向錯誤減少的方向慢慢調整,減少錯誤。可以把錯誤的曲面直觀地想象成一個起起伏伏的山脈。實際上,非常大的模型的錯誤曲面高高低低,非常復雜。如果訓練數據少,這個曲面就非常不完整,相當粗糙,找不到最低點,或者陷入一個局部最小。這就是為什么大數據有用,它可以使得表面更平滑一點。
講到這里,咱們知道了兩個概念,第一個是函數,第二個概念就是反炒股。
第三個很關鍵:訓練的標簽從哪里來。一張圖片究竟是貓還是狗,不能搞混。前一段有一個新聞,在縣城里為AI打工的人,這叫數據標注工作者。比如訓練自動駕駛的模型,要把路上的行人框出來,這就是標注。如果5、6秒標一個,一個小時框三四百個,標框一天兩三千個,大概七八十塊錢,這個就是現在的所謂人工智能這個新的生態環境開出的新職業。
特別有趣的一點是,這些標注工作者有個非常樸素的總結,說人工智能其實就是我們教機器怎么來學習,是我們教會了它。
在一定程度上,這沒有錯。但打標簽是成本非常高的一件事。我們學界做的一部分工作就是想把這個成本降下來,就是說標簽不用那么準確,或者少標一點。如果我們成功了,也許這個新職業又消失了。
但是有一類人工智能任務其實不需要人工來打標簽,比如圍棋。
圍棋已經有兩千多年的時間,大概二十多年前,宇航員把圍棋帶到太空里去了,差不多那時候深藍剛剛勝出人類。人們普遍認為,下圍棋計算機不可能戰勝人類,因為圍棋變化的數目超過了宇宙的原子總數,所以帶到外太空去,向外星文明宣示,不要來哦,我們有很高級的文明,比如圍棋。
人工智能在下圍棋上已經遠超人類頂尖棋手。
剩下的事情我想大家都知道,從2014年AlphaGo登場,到2017年完勝,勝負的轉變特別快,人類完敗,沒有爭議——昨天是學生,今天變成老師,昨天是孫子,今天就變成爺爺了,計算機把最好的人類棋手,打得滿地找牙。
為什么計算機可以學的那么快?就是因為在這個任務上,標注是零成本。計算機下一盤圍棋,一眨眼下幾千盤。現在玩游戲,我聽說一個機器玩一天大概是一個人玩一百還是兩百年的量。如果有一類工作,零成本,本身又是有結構的,機器可以做得非常好。當然并不是說這個事情容易,只是說圍棋比賽和其他機器學習的任務類似,因為下完之后有輸贏,這個輸贏就告訴我們有誤差,就可以指導我們調整模型參數。當然,計算機下圍棋里面還是有相當有深度的研究成果,非常聰明的算法,這里暫時略下不提。
到AlphaZero的時候,研究者就不再需要人類棋手的棋譜,計算機自己學,自己下,學完了就把你的牙打得不知道哪兒去了。
人工智能的其它成績
人工智能還可以做很多其它事。既然可以分類,就可以指導下一步棋子落在哪,也可以指導下一筆畫在哪,比如生成筆跡。這一類工作叫做生成模型,2013年的工作已經可以產生幾可亂真的筆跡,到了2017年,積累了很多人的努力,機器可以生成人臉圖片。這本質上是拿一堆真的人臉的圖片,讓機器來模擬,然后慢慢學出來規律,不光可以自由地生成人臉圖片,還可以按照組合要求合成某一個臉。
也許有人覺得AI不能做藝術創作。看幾年前2015年的DeepDream,還做得很差,比如這個模型生成的圖片,因為模型的前身是識別物體,看了很多狗狗貓貓,合成一個圖片的時候里面就有很多貓狗的影子,看起來挺惡心。
人工智能的藝術創作也已經做到了以假亂真的地步。
同一年的另一類工作:風格遷移,拿一張照片按照某個藝術家的風格遷移過去,就生成了這樣的作品。到了2017年的一個工作,把從16世紀開始的大概25種畫派照片收集起來讓機器學習。學習的目標是既要像某一類但是又不能太像,在這樣的壓力下,模型生成了的圖片在網上盲投時過了圖靈測試,就是說大家認為這些圖片是藝術家畫的。藝術創作的創造性本身到底怎么定義,也變得相當的模糊。
人工智能現在之所以井噴,因為到了一個時間點能把很多學科揉在一起,比如AlphaGo在圍棋背后的所謂強化學習,其概念發端于一百多年前的心理學。其成功包括很多學科的支撐,比如腦科學、計算機科學。其中有很多無形推手,作用并不直接,比如互聯網、數碼技術——假如沒有互聯網、數碼相機就沒辦法收集和標注數據。
還有一個因素是很多商業應用。有很多看得見摸得著,像自動駕駛、人臉識別、機器翻譯等等。但是我覺得更大應用是隱藏在幕后,比如在車間里、流水線上,也就是說工業4.0。我自己認為這方面的應用要打開才是好事情,才可以把生產效率提上去。
讓機器的腦有結構
講了那么多還沒有講到關鍵點:深度模型作為一個函數,哪部分是“腦”,為什么?
在這一點上,我跟不少神經科學家有分歧,有的神經科學家覺得神經元是最關鍵,人工智能的神經元應該跟腦一樣,需要用脈沖信號;也有的說優化的方法必須和人腦的學習方式一致。
我覺得這些都不是本質,更關鍵的是函數的形式是什么,或者說網絡的高層結構式是什么。
給大家舉一些例子,有很多計算機學家做的工作是架構師,就是設計不同網絡的結構,底層是神經元,但是可以分成不同的模塊,不同的網絡的架構會不一樣。就像人居住的環境,地上打一個草席、到酒店、住高樓,雖然都是睡,但結構不一樣,這個結構最關鍵。我覺得是這個結構本身跟人腦之間的關系要搞清楚。
可假如我們問腦科學家,比如說一句話,哪些腦區是聯動的,之間的邏輯和先后次序是什么,計算過程是什么,他們是不是很清楚呢?在上海我主持一個項目,自然語言處理在腦科學和人工智能之間的聯合研究項目。啟動調研的時候,我問,比如說看到桌子上有個蘋果,那么說出這句話,人腦是如何做到的,我以為他們(腦科學家)一小時之后就能告訴我,結果花了一天給了我一個草案,其中有很多的猜測。
我沒有任何貶低腦科學的意思,只是說腦科學也在探索,還有很多未知領域,既然有那么多未知,我們怎么和人類智能比較呢?挺困難。但是我們可以猜,我們可以從其他角度來看這些問題。
比如現在機器翻譯相對成熟,但結果還不好,你可以似懂非懂地猜。那么,我們人類是怎么犯錯的呢?我們人類犯的錯挺有趣,關鍵在于人類犯錯和機器學習犯的錯不一樣。兩個系統犯錯一樣不見得他們背后的工作原理是一樣的,但是假如說犯錯不一樣,那么原理一定不一樣。這可以啟發我們怎么設計這個機器。
再比如說詩歌。我以前非常喜歡,現在沒有時間讀了,現在有很多寫詩的軟件,大家也許試過。但舉一些我們出色的詩人寫的詩歌,比如里爾克的這首“羚羊”,里面有一句寫道:To see you: tensed, as if each leg were a gun loaded with leaps. 這是描寫羚羊跳躍的敏捷,他說羚羊的腿像一把槍,裝的不是子彈,是跳躍,來形容動作之快,非常形象。
我有一個上海的詩人朋友王小龍,他的這首《愛的十四行》情詩,說“我要在海邊蓋一座房子,親愛的,一座鹽粒堆成的房子,我要的就是通體純藍……” “通體純藍”這四個字大家琢磨一下,非常有趣:鹽會想到提煉,用純這個字非常對,說海,我們會想象到藍,這句詩讓人覺得想象非常自然。讀詩讀多了,你會發現意向的跳躍和連接非常有趣,顯然我們現在機器學習出來的詩句沒有這個能力。
我們反過來看一看,機器學習里面的結構是什么樣的。比如機器學習的翻譯模型,就是一串詞進去,一串詞出去。大家知道,在圖靈測試之后有一個思想實驗叫“中國屋”,就是討論機器到底是不是理解句子。機器把一個詞拿過來,字典翻一翻,找一個詞吐出去,叫“中國屋”。“中國屋”,或者結構是“中國屋”的模型,是不擁有所謂理解的能力的。
我們起碼要做到“中國房”。
我曾打趣說,三、四十年前,中國屋和中國房是一回事,因為大家都挺窮。但是現在“中國房”走進去有各種各樣的房間,承載不同的功能,有臥室、廚房、衛生間等等,有層次、有結構。如果我們的模型是一個扁平的結構,那就是中國屋。我們起碼要做成有層次結構、有功能分塊的模型,只有那樣,才有希望跟人腦去進行對比。
在這里,我們也可以從其他地方得到一些啟發。有一個印度小伙子,他做了一件非常了不起的工作。他發現自閉癥的孩子在說話的時候有些詞吐不出來,比較抽象的詞,比如動詞,經常說不出來,所以不成句。他觀察到,自閉癥孩子媽媽引導孩子說話,來理解孩子的意圖,是用提問來引導的:比如說吃飯,吃什么?和誰一起吃?什么時候吃?他就做了這么一個游戲,訓練自閉癥的孩子來產生句子,每個時間點都是可以正生長的圖,這就很像人來生長句子的過程了。比如“他來我也來”這種帶有主從關系的套句,可以有不同的次序來生成。人說一句話,有各種豐富表達的可能性,這也是語言的魅力,我們現在人工智能遠遠沒有達到這個地步。
連接兩個“智能”的橋梁
我覺得連接人腦和人工智能的橋梁是有可能的。但是要這么看,就是腦科學底層有一些做基因、做神經元、神經電路這些工作,對理解人腦、保護腦非常有作用,但和人工智能的關系并不直接,也不一定對人工智能有特別大的啟發。因為底層的可以用神經元做,也可以用其它器件做。但是,還有一些是更高層的、功能性的、系統層的工作,尤其神經心理學、神經哲學這些新的學科,對人工智能的發展至關重要。
張崢認為,關于人腦研究,更高層的、功能性的、系統層的工作對人工智能的發展非常重要。
同樣的,人工智能也可以分成兩種,一種存在于人機交互的界面。一張圖片包含什么信息,一句話在說什么,機器不能瞎猜,機器理解的過程至少跟人腦的認知計算的過程保持一致。
也就是說,在人機交互的這些功能上,比如理解人的語言、理解人的知識、理解圖片、以及各種交互功能,我覺得我們沒有選擇,我們必須要去理解大腦認知計算的過程,用它作為一個指導來做我們人工智能的東西。如果這個過程不一樣,那么即使看上去一樣,但實質不一樣,犯錯都不一樣,就提不上真正的,能和人緊密接觸的智能來。這是非常基礎也非常重要的工作。
張崢最后總結說,對于自己不擅長的東西,人類可以交給人工智能去做,目送人工智能做的越來越好。
人工智能的另外一部分我索性叫做“累腦”,為什么呢?
因為在人類那么長的進化過程當中,大部分的環境是相對簡單的。大腦還沒有足夠的時間和壓力來發育出比較成熟的功能來應對一些比較復雜的任務。比如概率、統計等等,大家學習的時候會普遍覺得比較累,比較“抽象”。這些問題,本質上是數學問題、搜索問題,就像下圍棋,這些問題,人類對付起來天生比較吃力。
對這一類型的人工智能,我覺得我們應該放松,不必要拘泥于大腦的結構,我們應該目送AI遠去,希望Ta在一馬平川上飛奔,做得越來越好。把我們本來也不擅長的任務交給人工智能,讓它發力,這樣反而可以解放我們人類。
演講視頻完整版,可關注知識分子官方微博 @知識分子 回看。
關于“科學精神中國行”