本文來自微信公眾號:未盡研究 (ID:Weijin_Research),原標題《走向通用人工智能,還得來一次理論的范式轉移》,作者:未盡研究,題圖來自:《環太平洋》
用人類所有的語言作為用來學習的數據,去復制人類的智能,去發現一種新的智能,這是一項偉大的實驗。費曼說過:凡是我不能創造的,我就無法理解。
ChatGPT時刻
世界上第一個能像人一樣對話的機器人,不可能只是在語言實驗室里,而只能是出世不久即在真實的世界里與上億人對話的ChatGPT。它的字面意思,就是預訓練生成式對話機器人。這個機器人的大腦,就是自然語言大模型。這份報告里自始至終會用自然語言大模型(簡稱大模型)這個概念。
這個由深度神經網絡訓練出來的GPT-3.5大模型,擁有1750億個參數,45萬億字節語言數據。神經網絡可以從已知的單詞正在組成的句子中,預測下一個單詞——這也是辛頓(Geoffrey Hinton)等人于1986年5月在《自然》雜志上發表的論文中,首次提出的語言模型。
自然語言展示出智能,就是排序的游戲。我們置身于一個復雜的世界。無論多么復雜,宇宙萬物,從人類語言到蛋白質的結構,皆成序列。序列決定結構。結構決定功能。世界上所有的語種,皆是由遵從一定的語義和語法規則而組成的語言文字序列。
根據人類的提示,借助從人類語言中知識的學習,計算機通過概率統計,總是能通過推算出下一個單詞,以符合語法、語義、上下文信息等,最終生成對人類有意義的詞組、句子、段落、表達,并且與人類流暢地對話。
生成式人工智能輸出對話的原理示例。Scaling, emergence, and reasoning in large language models, Jason Wei
機器學習讓計算機從經驗中學習知識,而不是以人類給計算機規定的形式以獲取所需要的所有知識。計算機用較簡單的概念,一層一層地學習復雜概念,構建出多層次的深度神經網絡。
人工智能的表現改善迅速。人工智能測試與人類水平相比。Kiela et al.(2021)
從2012年起,人類訓練的模型識別圖像和聲音,接近并超過了人類的水平;對自然語言的辨識和處理能力迅速提升,一些單項語言能力迅速超越人類的能力。到2016年時,一個粗略的經驗法則是,只要在一個具體的類別給定5000個標注樣本,監督深度學習一般將達到可以接受的性能,當至少有1000萬個標注樣本的數據集用于訓練時,它將達到或超過人類的表現。
大模型縮放定律與涌現能力。左圖:當模型大小呈指數增長時,相應的模型性能呈線性增長。右圖:當模型尺寸達到一定規模時,性能急劇增加,出現涌現現象。
算力越來越強,算法越來越精妙,神經網絡能吞吐的數據量也越來越大。自注意力轉換器(Transformer)的出現,讓計算系統可以并行處理更大規模的語言數據量,直到可以從人類所有語料庫數據中推算出人類想要的結果。目前神經網絡的神經元(參數)的數量,已經遠遠超過了人腦,達到了數千億甚至數萬億個,所處理的自然語言數據量也達到了幾十萬億級別(接近人腦的連接數),在日益復雜的神經網絡中,出現了智能從一項任務向其他任務遷移,當模型的規模達到某個臨界值時,那些各自的能力,以及新的能力就會突然“涌現”,其中包括人們所期待的智能的泛化與通用。
涌現是大模型的理論基礎,用來解釋為什么無需人工干預,就能從原始的自然語言或者多模態數據中自動學習到的特征與模式,并且能用來進行預測和決策。
一般認為,深度學習模型的分層結構和權重學習機制導致了涌現的發生。大模型的訓練中,每一層神經元(可視為變量組合)的輸出都是下一層神經元的輸入,并且模型的每個權重都通過強化學習算法進行學習和更新。當訓練大模型時,數據中的統計規律對其內部參數和結構進行調整 ;一層又一層的權重學習,使得深度神經網絡能夠自動學會從原始數據中提取隱含的特征和模式,從而實現涌現能力。
涌現這個概念,來自復雜性科學,它的一個基本論斷,就是大量最簡單的行為中,可能產生高級和復雜的行為。
大模型不僅知書,而且達理。語言是世界“潛在復雜性的表現”。這意味著語言運作的模型在某種意義上也包含世界運作的模型。通用的大模型,在一定程度上也是一個世界模型。從DeepMind到OpenAI的終極目標,正是訓練出達到甚至超過人類水平的智能,不僅能完成專項任務,而且能完成多項任務,具有學習、推理、預測等能力,即通用人工智能(AGI)。通用人工智能相信奇點,人工智能終有一天會比人類聰明。
ChatGPT推出僅僅2個月,成為史上用戶數量過億所用時間最短的產品;之后100天左右,GPT-4推出,并迅速與微軟的產品全面集成,幾乎重新定義了所有的軟件服務。盤踞于搜索、云計算和SaaS之上的巨頭開始“跳舞”,硅谷掀起了一場大模型風暴,也引發了通用AI革命。
大模型的缺陷
大語言模型目前引領了人工智能的發展方向,它在帶來驚喜的同時,也不時伴隨著失望。最大的問題是可靠性。人們最初會容忍一個不成熟的技術,但是不成熟的技術,將無法直接大規模應用。
ChatGPT在首頁提醒了自己的局限:可能偶爾會產生不正確的信息;可能偶爾會產生有害的指令或有偏見的內容;對2021年后的世界和事件的了解有限。許多用戶無法容忍的,是它在洋洋灑灑的文章和頭頭是道的敘事中,隱藏著事實性錯誤。
而大模型“涌現”智能的原因和機理是什么,一直沒有找到合理的解釋,它依然像是從一個黑盒子里冒出來的異類智能。它也涌現出人類語言中所固有的認知缺陷,如偏見、歧視、胡思亂想、胡言亂語,等等。人們不知其所以然,難以完全放心。
大模型主要是一場大規模的工程實驗的結果,一時還欠缺理論的解釋。在它所涉及到的語言學、心理學等領域里,遭遇了權威學者們的抵制與批評;大模型的“智能”,也承受著學術界的嚴格拷問和批判。
一些人工智能科學家、語言學家、心理學家、哲學家批評,大模型在與人類進行對話時,只是根據人類的提示,對語言數據進行概率統計運算,然后提供一個猜測式的回答,并沒有真正理解語言的意義。人類掌握語言的背后,其實是對事實的了解,對物理世界的感知,對因果關系的追求;機器學習對這一切無感 ,因而并不了解語言的意義,不對事實負責,也不是真正的智能。圖靈獎獲得者楊立昆說:自回歸式的深度神經網絡,不可能有未來。
如何解決可靠性問題?如何建立起一個世界模型?人工智能的研究者們,已經總結出了一系列的工程實踐。繼續擴大模型,增加參數和語言數據依然是一個方向,但并非唯一可行。現有模型,需要更加精確地理解和掌握人類的意圖,如提升語言數據的質量,優化人類反饋的強化學習(RLHF),更好的提示工程(Prompt Engineering),持續精調模型,以及大模型主動發問人類,調用更多外部資源,等等。目前OpenAI并不急于推出GPT-5,而是致力于提升現有模型的穩定性與可靠性,這是未來兩年OpenAI的技術方向。
隨著插件的推出,以及人類越來越多地把自己的事情委托給基于大模型的應用來處理,人們也擔心可能帶來的一個后果,是人類犧牲了自己的決策權,而大模型的決策機制是不透明的。
大模型的下一步
OpenAI并不急于訓練GPT-5,近兩年內,創新迭代的重點,已經不再是馬上造出更大的模型,而是讓現有的模型變得更好。一方面是推廣模型化的應用,建立起生態;另一方面是解決大模型暴露出來的問題。
自主智能體(如AutoGPT)應用的推出,正在讓ChatGPT 變得像個“玩具”。大模型可以通過API接口,調用其他應用、其他模型,自動完成更為復雜的任務。自主智能體在完成任務的過程中,能推理工作的步驟。而且這些智能體之間的互動,已經有專家開始探索。智能體還能將工作流與硬件結合在一起,讓智能硬件真正具備智能,從而改變物理世界。大模型的訓練成本越來越低,正在快速降低使用門檻,變成“小模型”進入到越來越多的邊緣計算中,也與越來越多的設備結合在一起,包括手機和機器人。
連續學習,與世界和周圍環境同步的能力。一旦模型被訓練,它就固定了,無法及時整合來自用戶的新反饋和世界的新信息(指的是更改權重的方式)。可以根據新數據對模型進行微調,但這可能會導致性能下降或過擬合。由于訓練周期較長,模型訓練期間,世界又出現了新的事件、信息和知識,盡管插件已經可以解決部分問題,但大模型自身可能需要探索一種能夠持續穩定進行連續學習的方法。
訓練模型的技術堆棧,使用三個應和即可完成。Replit官網
多模態大模型。如果大模型在結合文本、圖像和視頻的數據集上接受訓練,以提供對世界如何運作的更豐富的感知,那么它們將減少幻覺。語言大模型與視覺、聽覺,以及人類設計和發現的更加復雜的結構結合在一起,可以彌補自然語言智能的不足,對周圍環境形成感知,讓智能更加完整和“具身”。
大模型的小型化、平民化。開源的大模型,正在幫助實現一張顯卡上能訓練出百億級參數的模型,成本僅數百美元。可能在不遠的將來,人人都將可以獲得本地的、定制化的大模型服務。人類的創造與消費活動將合為一體。
專業領域、細分領域的模型正在大量涌現。用專業知識和領域數據來精調大模型,會減少錯誤,通常在特定領域內比通用大模型更加可靠。
成為機器人的大腦。以語言大模型為基礎,集成多模態模型,利用零樣本學習方法讓機器人完成任務。通過在真實的物理世界中與環境互動,完成人類任務,形成具身化的人工智能。(如LLM-Brain,谷歌的PaLM-E)
也許克服大模型所固有的弱點,除了上述技術之外,可能還需要新的范式,超越對下一個單詞的預測。在科學家對GPT-4進行測試之后,提出了如下的建議:
以“慢思考”深層機制,監督下一個單詞預測的“快思考”機制。這種方法可以允許模型執行長期計劃、探索或驗證,并保持工作記憶或行動計劃。慢思考機制將使用下一個單詞預測模型作為子程序,但它也可以訪問外部信息源或反饋,并且能夠修改或更正快速思考機制的輸出。
超越單詞預測。用層次結構取代標記序列,其中文本的高級部分(如句子、段落或思想)在嵌入中表示,內容以自上而下的方式生成。將長期記憶集成為體系結構的固有部分,也許在某種意義上,模型的輸入和輸出除了表示文本的標記之外,還將包括表示上下文的向量。
正如維特根斯坦在晚年幾乎完全否定了自己早年關于語言的理論,把語言看成是一種人類全面參與的“游戲”,語言大模型將在無數人的應用中,不斷探索語言的真諦,擴展智能的邊界。
盡管大模型飽受批評,在數學家和物理學家沃夫拉姆(Steve Wolfram)看來,它依然是一個“令人驚訝的科學發現:在某種程度上,在像 ChatGPT 這樣的神經網絡中,有可能捕捉到人類大腦在生成語言時所做的事情的本質”。
大語言模型反過來幫助我們更深刻地理解人類智能,它提供了人類智能的一種對照。人工智能將使人類重新審視自以為已經知道的領域,例如,可能人類以為高深的東西,原本是淺顯的。“神經網絡之所以能夠成功地寫一篇論文,是因為寫一篇論文被證明是一個比我們想象的計算'更淺’的問題。”(Wolfram)。
大模型反過來提示人類,人類的哪些智力活動是真正有價值的,以及如何更有效地運用人類的智能。ChatGPT的推出,讓人類的智能得到了一個“第三方”的評判,而未來知識的產生,也將越來越多地產生于人類與機器的協同之中。
如果人類無法解釋大模型所產生的智能,只會有兩種結果,要么這種智能的確是一種虛幻的東西,要么現有的理論需要來一次“范式轉移”。
本文節選自未盡研究報告《通用AI,通用技術,通向何方》第一章。
本文來自微信公眾號:未盡研究 (ID:Weijin_Research),作者:未盡研究