注:這是一篇關于人工智能與人的萬字長文。一次性讀完可能會有困難。建議分次閱讀。
為了寫這篇文章,我用掉半年的讀書錢自己訓練了乞丐版的GPT模型。
在這篇文章中我從如下幾個方面圍繞人工智能進行了討論,包括:
通用人工智能和圖靈測試;
ChatGPT的前世今生;
ChatGPT的現有缺陷;
算法和邏輯的理論限制;
非技術層面的局限性;
人的獨特性和優勢;
最近ChatGPT大紅大紫,先是OpenAI開放了ChatGPT供大家使用。于是網上出現了各種有趣的對話。之后微軟火速在其云計算平臺中上架Azure OpenAI Service以加強其競爭力。再之后微軟準備將ChatGPT整合在Bing里面。這使得大家認為谷歌搜索地位威脅,并導致其股價一周內跌超10%。
大公司“手忙腳亂”,廣大吃瓜群眾也沒閑著,討論起來熱情甚高。就連我之前關注的一些經濟理論公眾號都開始推送相關文章。這熱度不亞于大牛市時大家全都討論股票。
無論對人工智能或者計算機科學了解多少,不少人都對認為通用人工智能AGI馬上就要到來了。
通用人工智能與圖靈測試
我們都知道通用人工智能這個概念。但是它具體指的是什么呢?實際上它的定義只有概述,并沒有一個可量化的嚴密定義。
稍微了解的人會提到圖靈測試。圖靈測試是計算機先驅圖靈在1950年的論文”computing machinery & intelligence”(這篇論文是發表在心理學與哲學期刊上的)里面提到的“imitation game”,用于衡量計算機智能化程度的一種方法。這種方法可以被認為是人與AI之間的對照測試。測試的方法為測試者在不知道對方身份(人或機器)的情況下與對方進行交流,并且判斷對方是人還是機器。如果測試者無法正確判斷,那么就認為機器具有以假亂真的思考能力。
不過,圖靈對這種測試也只給出了定性的描述,并沒有給出可以明確量化的評判標準。直到今天,人們對于通用人工智能的評判標準也沒有定論與共識。這更像是一個哲學問題而非技術問題。
在論文中,圖靈給出了如下對話例子。他預測到在未來50年,機器在與測試者通過五分鐘關于任何主題的交流中會有超過30%的幾率通過圖靈測試。
那么在73年后的今天,我們直接使用論文中的例子來問ChatGPT看是什么情況。
我們可以看出,對于寫詩,ChatGPT可以給出看起來不錯的答案。詩詞這種類型的文章,很難有客觀或者能夠達成共識的評判標準。我不是詩詞方面的專家,也無法從主觀上判別文學水平的高低。
由于1月30日的模型更新。ChatGPT已經可以很好地對數學這樣的基于嚴密邏輯問題給出答案。其實這也是機器的強項,不過ChatGPT是用復雜的方法(神經網絡擬合而非直接依賴于邏輯電路)來實現這一目的。
而對于稍微復雜一些的邏輯問題,ChatGPT就顯得捉襟見肘了。比如國際象棋殘局。當我問能否下棋時,ChatGPT給出了”信誓旦旦“的回答。結果它沒有處理好一步必殺的殘局。
對于簡單的事實性問題,ChatGPT回答基本沒有問題。我又試了一些需要一些簡單推理的問題,它顯得有些力不從心。
對于狹義明確的機器學習任務,我們有很多評判標準來判斷模型執行任務的好壞。但對于通用人工智能來說,我們只能通過模糊的圖靈測試來判斷。
從現階段來看,我們可以輕易通過直覺判斷出ChatGPT還是無法通過圖靈測試。但是隨著人工智能技術的提升,基于直覺的判斷會越來越困難。
我們需要可以量化的標準來判斷人工智能的進步。可惜的是,圖靈在他的論文中并沒有嚴密定義圖靈測試的標準,而只是用自然語言進行了描述。
缺乏嚴密的判斷標準會使得人工智能的進步越來越困難。當模型進化到我們無法依靠直覺判斷且沒有合適的客觀量化標準時,我們就無法判斷兩個版本的模型哪一個更好,也就無法繼續對模型進行近一步迭代。
當我們不知道缺點,那該如何進步?這是一個需要思考的問題。
ChatGPT的前世今生
對于大多數人來說,ChatGPT就是OpenAI開放的對話界面,而界面背后就是那強大而神秘的人工智能。
對于有計算機背景的人來說,我們知道ChatGPT本質上是個可以處理序列數據的大型語言模型(LLM)。這個模型接受一串向量(input embedding)作為輸入,輸出一段向量作為結果。比如我們輸入”天王蓋地虎“,我們期望模型輸出”寶塔鎮河妖“。當然,在模型的眼里,輸入輸出都是編碼后的字符串,而不是原始的文字。
關于序列建模(sequential modeling)的研究早在80年代就已經有了。John Hopfield在1982年提出了RNN的雛形Hopfield Network。此外Michael I Jordan在1986年提出Serial order也有類似作用。再之后,Jurgen Schmidhuber等人在1997提出了LSTM。
但是由于算力、數據、以及收斂性等原因,早期的序列建模模型都很難真正用起來。記得在我剛接觸機器學習那時候,序列數據還是需要做預處理才能由模型消化的。
真正有實用性的時序建模方法直到2014,2015才由Google研究院提出。從那以后,序列建模開始了爆發式發展。
現在大紅大紫的ChatGPT并不是橫空出世的變革性產物。它及其近親GPT-1/2/3在模型本質沒有重大改變。所有這些GPT模型都源自于Google2017年所提出的Transformer機制。而Transformer這個結構的重點是Attention模塊。再往上追溯,Attention模塊受啟發于Encoding-decoding機制,而其又是基于RNN/LSTM的缺點進行的改進。
如果對于Attention以及Transformer的具體特性有興趣,可以在網上找到很多相關介紹資料。用一句話概括,Attention機制一個神經網絡常用子結構,它可以幫助模型從一個輸入序列中動態識別和聚焦重要的輸入信息。而Transformer是利用Attention以及其他子結構(layer norm以及feed forward neural network)組合成的可以有效進行表征學習(representation learning)的模塊。它可以被認為是神經網絡中版本的可復用集成電路,使用者可以把它當做黑盒使用,只需要關注輸入輸出。
GPT基本結構:Transformer。GPT1用了12層。
GTP-1/2/3都是關于自然語言理解的基礎模型(foundation model)。"基礎模型"指的是用于機器學習和人工智能領域的基礎模型,通常是通過大量數據進過無監督學習訓練過的深度神經網絡。它們可以被用于處理基本的計算任務,如圖像分類、語音識別和自然語言處理。GPT模型不針對任何具體細分任務。如果直接拿來用的話,它們可以用來作為上下文補全,即給出前半段話它們可以補全剩下的內容。
而ChatGPT是在這些GPT基礎模型基礎上針對具體使用場景(對話)而調優的模型。其模型訓練使用了額外的標注數據進行有監督學習。
就模型結構來說,它們沒有太神秘的地方。它們的主要區別在于訓練數據、模型超參數、以及模型的規模。這個觀點在GPT的每一篇論文中都有說明。
對于GPT,我們是可以依葫蘆畫瓢山寨一個出來的。不過由于訓練數據、算力、以及調參的高門檻,我們個人訓練出來的模型基本沒有實用性。早年機器學習單兵作戰的時代已經過去。
出于好奇,我寫了一個乞丐版的GPT,并使用兩個小于20M的數據在我的筆記本電腦上訓練了兩個不同風格的模型。
對于第一個模型,我給它提供了西方哲學代表人物的經典著作。在讀完我可能要花十年才能讀完的書后,模型根據我的輸入產生的如下輸出。可以看出,雖然模型輸出和我的輸入基本沒有合格的語義關聯性,不過至少在單詞甚至短句級別以及語感上看起來靠譜了。
這看起來沒有什么特別。但要知道,模型是沒有”單詞“這個概念的,它在訓練時的輸入是字符級別的。即使是這個乞丐版模型也掌握了用字符組合成單詞的規律。此外,它似乎也掌握了一句話由幾個單詞以及標點符號組成這樣的規律。
接著我又用一個有意思的數據集訓練了一個新的模型,大家可以猜猜這個模型像誰?
在這個乞丐版模型的基礎上,如果我把模型的輸入從字符分詞(character tokenizing)改為子詞分詞(sub-word tokenization),我相信模型的性能也可以得到顯著的提高。
從模型規模上來說,我的模型只有6層Transformer,包含1900萬參數。作為對比,真實的GPT-3模型有1750億參數,是我的模型規模的1萬倍。而訓練數據更是我的數百萬倍。至于算力和訓練成本,OpenAI可以花費數百萬美元調動微軟云里面成千上萬的GPU花上數周的時間訓練模型。而我,只有一臺筆記本電腦和以及花了幾十美元租用GPU。
模型層面的局限性
ChatGPT的表現總體來說是驚艷的,讓我們看到人工智能有望通過圖靈測試的可能性。但目前其還有不少明顯的缺陷。不過下面提到的這些問題都是可以解決的。它們不是理論上的瓶頸。
正兒八經說胡話以及不完整的答案
對很多稍微復雜的問題,ChatGPT的答案還經不起推敲。
我曾試圖讓ChatGPT幫我總結書的內容,結果它連章節都搞錯了。還有比如前面對話中下棋的例子,在搜索空間小到人都可以一眼看出來的情況下,ChatGPT仍然給出了非最優解。
此外,如果一個問題的答案比較長的話,ChatGPT也會因為輸出長度限制對答案半途而廢。
這個問題的解決方法可以通過大力出奇跡。進一步增大模型的輸入規模,使其具有更強的泛化以及記憶能力。同時使用更多的訓練數據。比如包括金庸的所有小說以及相關論壇的所有內容。
模型只有短期記憶
ChatGPT雖然可以像模像樣的和我們對話,但是如果對話長了,它會忘掉之前的上下文。當然,我們不指望它能夠記住我們所有對話內容,但同一次的對話內容應該是需要記住的。
ChatGPT是LLM,它只會根據當前輸入給出當前輸出。在ChatGPT剛推出的時候,它的對話是完全不具備記憶性的。但之后OpenAI很快做出了改進。現在我們用的ChatGPT已經具備一段完整對話中保持記憶了。
如果要讓模型具備更長的記憶,一個簡單粗暴的方法是把之前的對話全部作為模型輸入。這樣就使得模型具有更多的上下文。但這樣做會使得模型的規模變得更加巨大,且需要更多的訓練數據使模型訓練能夠收斂。
模型答案形式單一
我們都知道,現在ChatGPT只能通過文字來根據訓練數據提取信息回答問題。如果要更具有實用性,模型應該具備同時輸出多種形式的內容,比如文字穿插圖片甚至視頻。
一個直接的做法是結合多模態學習(multi-modal learning)以及多媒體生成模型(generative modeling比如GAN)。結合語言模型以及視覺模型,使得模型能夠把兩種形式的信息在同一空間中表征出來。當然,多模態學習本身也處于研究的初級階段,像DALL-E 2這種基于GAN的text-to-image模型還處于初級階段。
答案沒有時效性
如果你問ChatGPT具有時效性的問題,它可能會拒絕回答。這是因為模型的知識在訓練時就已經成型了。他無法回答訓練數據所不包含的未來的信息。
這個問題的一個解決方法是使用增量學習(incremental training)實時更新模型的知識。如果微軟真想用ChatGPT來替代搜索引擎的話,那么它可能需要把爬蟲和ChatGPT的訓練模塊集成在一起。
人工智能圖靈獎得主Lecun Yann也對ChatGPT這類大規模語言模型的現狀給出了一些的精準評價。
所有上述問題都在理論上可以解決,至少有思路。大力出奇跡是可期的。傳聞下一代GPT模型參數是一萬億,讓我們拭目以待。
理論層面的局限性
如果前面提到的局限性只是當前人工智能的不完善的話。接下來提到的內容則從理論層面給通用人工智能設定了天花板。當然,這個天花板很高。現在的人工智能還遠遠沒有達到觸及天花板的水平。此外,這些天花板對于狹義人工智能的具體應用不會產生明顯的影響,只是讓人工智能無法被“通用”來解決所有問題。最后,這里的有些理論層面的局限性不止針對人工智能,而是針對所有基于算法甚至邏輯的解決方案,包括人類思維本身。
計算理論的局限性
計算機科班的人可能上過一門課叫做計算理論(Theory of Computation)。估計絕大多數人都覺得這課講的內容過于脫離實際而沒有意義。
確實,計算理論課遠沒法像編程課或者AI課做課堂項目那樣能夠帶來即時的成就感反饋,但這門課涉及的領域決定著計算機解決問題能力的基礎。計算理論的研究內容包括算法分析、計算復雜性理論、編碼理論、密碼學等。
對于任何抽象或者具體的”計算機“,其本質都是通過算法來解決問題。任何的人工智能方案(或狹義的神經網絡)都是算法。
算法能解決的具體的問題是無限多的。我們不可能枚舉所有的具體問題來研究算法解決問題的能力,于是人們可以對問題根據復雜性分類,進而按問題類別研究算法能以什么效率解決問題。在下圖中我們可以看出,我們可以把所有的計算問題按時間復雜度分為四類(當然還有不同的分法):
P(Polinomial time):計算機可以在常數時間解決的問題。
NP(Non-Polinomial time):計算機可以在指數時間內能解決的問題。
Decidable:計算機可以在有限時間解決的問題。
Undecidable:計算機無法在有限時間解決的問題。
我們可以看出,對于某些問題(比如NP和Decidable類別的問題)我們無法找到在合理時間范圍內能給出答案的算法。其實即使是P類別的問題,如果時間復雜度超過O(n^3)基本也慢得沒法用。對于這些問題,即使是人工智能也無法在合理時間解決。
此外,Undecidable問題是計算機無法計算和解決的問題。這些問題是大力出奇跡也無法解決的天花板。在理論中,“停機問題”是屬于這個類別的問題。而現實中,判斷一個程序是否絕對沒有bug是與停機問題等價的問題。
如果大家還記得高中學過薩繆爾·貝克特的荒誕主義戲劇《等待戈多》,那么就很容易理解停機問題了。
無法近似求解的問題
也許有人會說,對于有些問題,我們并不需要求精確解,只要有近似解就行了。對計算理論了解的同學甚至會說,對于NP問題,我們可以找出有界的近似問題(bounded approximate solution)。
比如郵差問題(TSP)雖然需要指數時間求解最優解,但是最好的近似算法Christofides可以在對數時間算出最多比最優解差50%的解。
然而,還是存在著很多問題甚至連靠譜的多項式時間近似解法也沒有。這類問題被統稱為NP-hard下面的一個子問題APX-hard。一個實用的這類問題是頂點覆蓋問題。頂點覆蓋問題是一個重要的圖論問題,其應用廣泛,涉及許多領域包括網絡拓撲、數據庫索引設計、站點布置、生物信息學等。
如果我們問人工智能找出覆蓋一個網絡的最少結點,它沒法用少于指數時間來給出方案,即使是有界的近似方案也無法給出。對于足夠大的網絡,人工智能可能在問問題的人的有生之年也回答不了這個問題。
非數值計算的抽象問題
從1950年代的perceptron開始,算法的優化就是通過數值化的loss來判斷預測值與實際值之間的差距。而算法的目的是減小這樣的差距。人工智能的主流解決方案本質上是數值擬合。這種解決問題的思路對于非數值問題很難解決。比如當我們要求一個問題的答案完全精確時,那么任何的誤差都是無法容忍的。
這類問題不少,比如數論中的很多問題不是靠擬合或者窮舉可以解決的。而數論在實際應用中無處不在。又比如對一些數列求解析解,這也不是靠擬合可以解決的。
也許有人會說,我讓ChatGPT解決subsum的算法題沒有問題。確實是這樣,這是因為ChatGPT的訓練數據中有人類的解法,模型是擬合的問題和答案的文字關系,而不是真正去求解問題。如果遇到個人類尚未遇到的新類型的問題,那么訓練數據中就不存在這種尚未出現的答案的。
比如人類現在尚未發現一般一元五次方程的求根公式。而算法是無法通過擬合得到證明它找到了這個求根公式的。因為無論它擬合多少具體的一元五次方程的根,也無法從一般性證明它擬合出來的公式對無限多的一元五次方程普遍成立。
那么有人會說,現在不行不代表未來不行。現在符號計算的研究進展不錯,說不定以后就有解決方案了。
我們是否可以建立一套體系讓計算機直接推理抽象數學公式呢?當初數學家希爾伯特曾經也是這樣想的,他和當時一群有名望的數學家期望建立一套無矛盾形式系統,使得所有數學定理可以被機械的推導。
然而一個20歲出頭的名不見經傳的博士生用他的博士論文扼殺了這一美好的期望。他證明任何足夠強到蘊含了皮亞諾算術系統(PA)的一致(即無矛盾)的系統都是不完備的,所謂不完備也就是說在系統內存在一個為真但無法在系統內推導出的命題。這里我們不用了解什么是皮亞諾算數系統。我們只需要知道:
哥德爾不完備性定理證明了一種基本的數學系統無法同時具有完備性和可證明性,即在一個數學系統中存在一些命題不能被該系統內的公理與規則證明。
哥德爾不完備定理有著深遠的哲學意義。它說明了知識體系是不能完備的,即不可能用一組完備的規則或命題來描述一切真理。人的知識是不完備的,邏輯是不完備的,數學是不完備的,人工智能也不會是完備的。
它還提出了信仰與科學之間的矛盾,以及人類知識的局限性。它對人類對真理的追求、科學的發展、以及哲學、數學等學科的發展產生了深遠的影響。
讓我們看看ChatGPT如何評價哥德爾不完備性定理吧。
經驗主義以及未知的未知
人工智能的一個重要功能就是感知和決策。而這兩者在很大程度上都需要用到統計。統計學中主要有兩個流派:頻率主義者(frequentist)和貝葉斯主義者(Bayesian)。頻率主義者是純粹的經驗主義者,追求“眼見為實”;而貝葉斯主義者則結合了理性主義與經驗主義,給未知留有余地。
純經驗主義以及頻率主義者認為所有知識都是來源于數據,而人工智能模型的所有知識也來自于數據。因此我們可以說人工智能是頻率主義者,是經驗主義的產物。根據頻率主義的原則,如果一個可能性在過往經驗(訓練數據的標簽)中沒有出現的話(Out of Distribution),那么它就完全不在決策的考慮范圍內。
經驗主義的局限性在現實生活中確實惹出過事。比如我之前從事的自動駕駛領域,感知模型經常受困于無法識別一些奇葩的物體,比如穿動物道具裝的人。這是由于訓練數據中難以包含這些物體。模型需要”眼見為實“,而我們無法無限添加小概率樣本。因此意外總會發生。
一個簡單的方法是當模型發現無法識別的物體時全部當做障礙物處理,但這會使得自動駕駛車輛過于謹慎而寸步難行。比如之前就出現模型因為樹蔭而突然剎車的情況。
我們也可以把人工智能模型改造成貝葉斯主義者。比如在模型中可以添加“先天知識“來處理經驗的局限性,比如貝葉斯先驗知識。但是先驗知識對人工智能來說是”超驗“的,同時也屬于未知的未知,因此它自己無法完成這項任務。此外,未知的新情況永遠都會出現,因此人工智能無法一勞永逸地一次性地通過外部協助來彌補經驗主義的不足。
人工智能可以通過擬合的方式根據已有知識推出未知知識,但是知識的閉包不是無限大的,總有一些存在但在知識閉包之外的無法用現有知識組合而成的知識。這種未知的未知是擬合無法解決的。
而人,是可以用主觀能動性有辦法應對未知的未知的。
模型的世界觀與價值觀
模型能從數據中學到規律,數據塑造了模型的世界觀。而數據,特別是知識類數據是人產生的(比如人的著作,網上的文章等)。此外,訓練數據的準備工作中有很多人為參與的過程。這些過程對數據的分布造成了扭曲,也對模型的世界觀產生了影響。
在前面我訓練的模型可以看出。當我給模型提供的是西方哲學作為訓練數據。因此模型的輸出的內容便高深抽象。而當我給模型提供川普的演講錄時,模型的輸出便很接地氣且充滿了煽動性。我想如果我用知乎的數據來訓練模型,那么估計模型的回答估計是下圖這樣的。
任何形式的模型優化都涉及到loss。人通過loss塑造了模型的價值觀。AutoML可以在某種程度上自動改變loss,但無論是loss的權重微調,還是loss function的選取都脫離不了loss function本身是人發明的事實。模型無法無中生有未知的loss function,原因涉及到之前提到的未知的未知。
其他方面的局限性
基于現有解決方案的人工智能(比如大規模語言模型)除了技術上的問題外,同樣還有很多其他方面的局限性。當然,這些問題應該是有解的。
成本
成本應該是最容易解決的。前面提到,大規模模型的訓練費用很高。記得以前做自動駕駛時訓練一個模型需要32個Nvidia 2080 GPU使用超過1T的數據訓練將近一周。一個模型的訓練費用好幾萬美元。而自動駕駛的模型由于是要加載到車上使用,模型的規模比像ChatGPT這樣的大規模語言模型小很多。
GPT-3的論文里有提到能量消耗。里面指出每產生100頁的內容會消耗0.4千瓦時的用電量。作為對比,有人算過每一次google搜索的平均耗電量是0.00028千瓦。
GPT-3的每次推理輸出大約400單詞(2048 token),大概需要100次推理產生100頁的內容。也就是說每次推理GPT為0.0004千瓦時耗電量。
也許0.0004比0.00028看起來大不了多少,但是如果我們用GPT替代傳統搜索,成本會上升超過40%。
避風港法案
使用GPT這類自動生成內容的方案作為搜索引擎還有法律上的問題。
“避風港原則”是美國1998年制定的《數字千年版權法案》提出的一個概念。搜索引擎服務商通常以此原則作為免責事由,認為自己在技術上不可能審查每一條網絡鏈接的真實性,也就不應承擔網絡鏈接虛假的責任。
但如果搜索引擎通過模型自動生成內容,那么服務提供商就無法再找到理由規避由于搜索內容帶來的任何責任。
根據ChatGPT目前的水平,如果貿然上線估計會被賠死。微軟也知道潛在的風險,早早貼出了免責聲明。
倫理
倫理是一個很復雜的東西,大家都能解釋幾句,但沒人能說得清楚。
以前做過一段時間用機器學習解決integrity(中文不知道如何合適的翻譯,用倫理這個詞太大了,用節操這個詞太low了)。后來發現這根本就不是一個機器學習甚至技術問題。integrity這個東西涉及倫理,而正如我說過,倫理這個概念是模糊的沒有共識。因此無論怎么做都有人不滿意。
后來覺得無望去做自動駕駛,結果跳入了另一個倫理大坑。知道電車難題的同學就知道難處了。以后有機會可以細說。
之前的ChatGPT會很容易產生錯誤的信息。在OpenAI做了數次改進后,ChatGPT會經常以不知道為理由拒絕回答問題以回避風險。
人類的獨特之處
說完了人工智能,我們再說說人的優勢。可能大家覺得隨著人工智能的發展,人會變得越來越沒有用。這是有道理的,其實從1萬年前人類馴化第一頭用于畜馱重或拉扯農具的家畜的時候,人就開始變得”越來越沒用“了。
工業革命之后,人類在體力勞動方面的作用開始大幅減少。而上個世紀的自動化革命更是極大減少了人們的體力勞動需求。到了21世紀,人工智能發展讓人們發現自己的腦力勞動優勢也逐漸被取代。如果繼續這樣發展下去,人還剩下什么作用呢?
讓我們看看我們還有什么獨特之處。
信念及責任感
信念,是一個人對所持有的某種事物的看法。信念是一個人內部對做與信念相符的事情的動力。信念越強的人,做相符的事情的動力越強,而外部世界(經驗,數據)對他的正反饋對信念的加成越強,而負反饋的作用越小。
中國古代哲學中有一種思想叫做”知其不可而為之“。是指盡管明知道某個事情很難或幾乎不可能完成,但仍然會嘗試去做。這句話被用來形容那些敢于探索、勇于創新的人,尤其是那些在困難和挑戰面前依然能夠堅持不懈,不屈不撓,頑強奮斗的人。
德國哲學家海德格爾也有類似的觀點,他在《存在與時間》里面提出了”向死而生(Being-toward-death)“這個概念。從一個獨特的角度闡述了生命的意義。他提出,通過提高生命的效度和密度,做自己認為有價值的事情,生命才有意義。至于這件事能不能成,那是不重要的。
責任感,是指一個人對自己的行為、決策和影響負責的意識和能力。一個有責任感的人會盡力把事情做好。
責任感會讓人放棄個人的利益而完成自己的角色需要做的事情。無論做這件事情在當時看來多么困難。
信念和責任感可以讓人無視客觀困難和風險而堅持做他們認為有意義有價值的事,哪怕會失去自己的生命也在所不辭。在某些情況下,他們的行為要么可以保全大家的利益,要么可以得到超額的收獲。
主觀意識決定物質是一個存在爭議的論點,但是主觀意識提升成功率是可以相信的。
在人類歷史上,有很多人無視風險,為了自己認為正確的事情而舍生取義的事情。面對同樣的情況,如果人工智能根據當時收集到的數據仔細計算風險的話,最后的結論很可能就是不值得做。
直覺與靈感
直覺與靈感是最難以解釋的東西,當直覺起作用時,就像在游戲中作弊一樣讓本來極難的問題不講道理般地得到解決。也許在規律在已知數據中存在時,人工智能可以通過分析海量數據我們可以最終找到這些規律,但是直覺和靈感的時間復雜度是O(1)。而當規律在已知數據中不存在時,基于數據的分析就無能為力了。
歷史上有很多科學發現是通過直覺和靈感而獲得的。如果不是做了一個奇怪的夢,門捷列夫無法發現元素周期表,凱斯勒也無法知道苯的環狀結。
如果說物質世界的規律在理論還還可以在有限的時間內找到規律,那么非物質的數學就更加靠靈感和直覺了。
至今人們也不知道拉馬努金是不講道理地發明的那一大堆令人匪夷所思的公式。對很多公式他都沒有留下證明,但后世的人發現他的公式都是對的。其中一些尚未被證明的公式,啟發了幾位菲爾茲獎得主的工作。
數學家哈代對拉馬努金的評價體現出了這點:
他知識不足的程度跟知識的深厚都讓人很吃驚。他是能夠發現模方程和定理的人……到達前所未聞的地步,他對連分數的掌握……超出了世界上任何一個數學家,他自己發現了ζ函數的泛函方程和解析數論中的很多著名問題中級數的主要項;但他卻沒有聽說過雙周期函數或者柯西定理,對復變函數只有非常模糊的概念……
以色列理工學院曾在2019年提出一個叫做拉馬努金機的算法來模仿拉馬努金制造一些和連分數有關的公式,其本質仍然是通過”擬合“來增加連分數等式兩邊相等的概率。當算法認為誤差足夠低時,它便認為等式找到。這個算法可以找出兩邊無限逼近的連分數等式,但它仍然無法以數學的標準嚴格證明兩邊相等。
另一位數學家黎曼,更是一位理論超越觀察的人。他的很多理論在提出時人們完全無法理解,有的理論直到現在人們也無法理解。但隨著時間的推移,人們在現實世界中逐漸觀察到可以用他的數學工具解釋的現象。
比如黎曼在1854年提出了異于現實世界觀察的黎曼幾何。當時所有的現實問題都可以用已經用了上千年歐式幾何解決。人們不知道這種新的幾何除了思想游戲外還有什么作用。但是50年后,愛因斯坦成功地以黎曼幾何為工具,才將廣義相對論成功地用數學的方式表達。
如果是人工智能的話,是沒法提出與所有觀察數據相異的觀點與結論的。
寫在最后
通用人工智能沒有明確的定義。根據我理解的不同定義,我對其發展有不同的個人簡介。
如果通用人工智能的定義是人工智能發展到能夠淘汰人類,那么我覺得這只是個時間問題。因為達到這個門檻不需要人工智能在每一個方面都超越人類,或者具備意識。
如果通用人工智能的定義是人工智能可以取代人類做任何事情,那么我持懷疑態度。因為人具有主觀能動性,具有數據無法支持的信念,以及具有有時能發揮作用的非理性。當然,我個人認為越來越多的人正逐漸失去自我塑造三觀的能力。人類退化到失去靈性也不是沒可能。
如果通用人工智能的定義是一個無所不知的智慧體,那么我持反對意見。刻在希臘德爾斐神廟的一句話“認識你自己”,在兩千多年來一直提醒著我們人類自己:一個系統無法完備自洽,連具有靈性的人也不例外。