本篇《自然》長文共5423字,干貨滿滿,預計閱讀時間17分鐘,時間不夠建議可以先“浮窗”或者收藏哦。
原文作者:Celeste Biever
大型語言模型可以模仿人類聊天,但科學家對其是否能推理意見不一。
世界上最好的人工智能(AI)系統可以通過困難考試,寫出煞有介事的小論文,還能與人流利交談,在很多人看來足以以假亂真。它們還有什么做不到的?——它們解不了簡單的圖形謎題。
在一項基于彩色圖塊的測試中,大多數人類都能識別出其中的模式。但根據今年5月發表的一篇論文[1],GPT-4——聊天機器人ChatGPT和搜索引擎Bing背后的最新版AI系統——在其中一類模式中只識別出了將近三分之一,在另一類模式中甚至只有3%。
插圖:The Project Twins
提出這套邏輯題的團隊的目的是能更好地評估AI系統的能力——以及幫助解決GPT-4這類大型語言模型(LLM)的一個難題。用某些方式測試,這些模型能輕松通過以前被認為是里程碑式成就的測試;換一種方法測試的話,它們就看起來沒那么出彩了,會暴露出明顯的弱項,并且也沒法進行抽象概念的推理。
“AI領域的人們正在費盡心力研究這些系統如何評估。”圣菲研究所的計算機科學家Melanie Mitchell說。正是他的團隊制作了這套邏輯謎題(見“擊敗機器的抽象思考測試”)。
擊敗機器的抽象思考測試
人工智能系統至今為止仍未能在ConceptARC測試中達到人類的水平。這組邏輯題要求解答者在看過幾組示范之后,根據相同的邏輯關系判斷出彩色像素圖形會變成什么樣。以下是兩套例題,你能根據相同的邏輯關系判斷出來嗎?
滑動看答案
滑動看答案
來源:參考文獻1
在過去的2-3年里,LLM已經在泛用性上碾壓了之前的AI系統。它們的原理很簡單,就是根據輸入的文字生成最可能的下一個單詞,依據的則是用以訓練的上億句網絡文本中單詞之間的統計相關性。對基于LLM建造的聊天機器人來說,還有一個要素:人類訓練員為這些機器人該如何回話提供了詳盡的反饋。
使用大量人類語言進行訓練之后,這種“自動填充”式算法就顯現出了驚人的泛用性。其他AI系統可能會在某一項任務上擊敗LLM,但它們必須使用先用問題相關的數據進行訓練,并且沒辦法從一項任務中舉一反三推廣到另一項上。
大體上說,研究者對LLM臺面之下發生了什么有兩種截然不同的看法,哈佛大學的認知科學家Tomer Ullman說。一部分人將算法的成功歸因于出現了一點點推導或理解能力。另一些人(包括他自己和Mitchell等人)則更為謹慎。
“爭論各方都是很聰明的人。”Ullman說。他說,之所以意見有分歧,是因為哪一方都沒有決定性的證據。“我們沒有某種蓋革計數器,指一下就能說'嗶嗶嗶——有智能’。”
雙方的研究員都認為,像這種能顯示出人類與AI能力區別的邏輯測試是正確的方向。這種評價標準也可以用來說明今天的機器學習系統里缺了什么,由此細分人類智慧的組成,紐約大學的認知計算科學家Brenden Lake說。
有關如何測試LLM、以及測試能說明什么問題的研究,同樣有著實用意義。如果要讓LLM能在現實世界領域——從醫學到法律——中應用的話,理解它們的能力限制就非常重要,Mitchell說:“我們必須理解它們能做什么,不能做什么,這樣我們才能安全地使用它們?!?/p>
圖靈測試死了嗎?
機器智能領域最著名的測試一直都是圖靈測試。它是英國數學家和計算機先驅阿蘭·圖靈(Alan Turing)于1950年提出的,當時計算機領域才剛誕生。圖靈提出了一種評估方法,他稱之為“模仿游戲”[2]。在這個場景中,人類裁判會在看不見對方的情況下與一臺電腦和一個人分別進行簡短的文字對話。裁判能穩定判斷出哪臺是電腦嗎?圖靈認為,這個問題等價于“機器可以思考嗎?”。
圖靈沒有說明這個場景中的很多細節,Mitchell強調,所以也就沒有嚴格的評分標準?!八皇亲置嬉饬x上能讓機器做的那種測試——它更像是一個思想實驗。”谷歌的軟件工程師Fran?ois Chollet說。
來源:Geopix/Alamy
但是用語言來測試機器是否能思考的想法延續了下來。在之前幾十年里,商業家兼慈善家Hugh Loebner出資舉辦了每年一度的圖靈測試大獎賽,被稱為Loebner獎。人類裁判會和機器與人進行對話,并嘗試猜出來誰是誰。但該大獎賽到2019年就停辦了,因為Loebner本人去世了,不再有資金舉辦比賽,英國人工智能和行為模擬學會的計算機科學家Rob Wortham說。該組織自2014年起代表Loebner舉辦競賽。他說LLM現在在這類比賽中會有很高概率騙過人類。LLM興起在賽事停辦后不久則純屬巧合。
其他研究者們也同意,GPT-4和其他LLM現在可能能通過大眾所知的那個版本的圖靈測試,也就是它們可以騙過許多人類,至少當對話短的時候沒問題。五月,以色列公司AI21實驗室的研究者們報告說超過150萬人玩過了他們基于圖靈測試寫出來的在線游戲。玩家被分配聊兩分鐘,對方可能是其他玩家,也可能是被研究者設置來模仿人的LLM聊天機器人。玩家正確識別出機器人的比率只有60%,研究者說這比盲猜沒好多少[3]。
不過在這種游戲里,熟悉LLM的研究者們可能還是能贏。Chollet說他識別LLM很輕松——只要利用已知的系統弱點就可以。“如果你讓我在這種情境里,問我'在和LLM說話嗎?’,那我肯定能說得上來?!盋hollet說。
他說,關鍵是要讓LLM脫離舒適區。他建議給LLM提一些和訓練集中常見場景相似的變體。很多時候,LLM會參照訓練集中的原始場景給出回答,而不是符合新場景的正確回答。
不過,Chollet等人懷疑用騙人測試作為計算機科學的目標并不合適?!斑@全部都是為了騙過陪審團?!盋hollet說。這項測試會讓聊天機器人的開發者把精力花在讓AI玩把戲上,而不是開發一些有用或有趣的能力。
考題的危險
大多數時候,研究者評估AI時使用的不是圖靈測試,而是用來評估特定能力的考題,例如語言能力,常識推理或數學能力。他們也在越來越多地使用為人類設計的學術和專業考試來作為考題。
當GPT-4于今年3月推出時,它背后的公司OpenAI使用了一套為機器設計的考題,其中包括了閱讀理解、數學和編程。OpenAI說,GPT-4在其中大多數都得了高分[4]。該公司還給GPT-4出了約30套考題,其中包括:給美國高中學生出的各科“大學先修課程”試題;美國各州用來測試醫師行醫能力的考試;以及美國研究生入學選拔時的考試GRE。在美國的統一律師資格考試(許多州將之作為律師資格認定程序的一部分)中,GPT-4得到了能考進前10%的成績(見“AI系統的部分考試成績”)。
“很多語言模型在這些考試題上能做得很好,”Mitchell說,“但通常結論并不是它們在這些通用能力上超過了人類,而是試題有限?!毖芯空邆兲岬降囊粋€難題是,訓練模型用的文本太多,它們可能已經在訓練集里見過了類似的題目,因此實際上AI可能只是查了小抄。這個問題被稱為數據污染。
OpenAI說它檢查了問題和訓練集中相似的詞組,排除了這一點。從LLM中移除相似的詞組后,它的表現沒什么變化,也就是說其成功不能大部分歸于數據污染。但是,有些研究者質疑這種檢測夠不夠嚴格。
紐約大學的語言技術學家,同時也在AI公司Anthropic任職的Sam Bowman提醒說,不要把GPT-4的能力完全視作死記硬背而忽視了它的能力。數據污染“讓問題復雜了一點,但我不認為這影響到問題本質。”
研究者們還注意到,LLM的成績不夠穩定,會做題不一定能做事。Mitchell說,稍微改一下考題就能讓它們答錯。例如,她從企業管理碩士生的考卷中拿了一道題目,稍微改了改說法。能做對原題的人類應該能答出改后的版本。但ChatGPT沒答出來。
有關考試分數的意義還有一個更嚴重的問題。對人類來說,考高分可以可靠地證明智力水平——這詞的含義有點模糊,不過其中一個意思是能在一系列任務中表現出色、并適應不同環境的能力。也就是說,考試考得好的人通常也能在其他認知測試中表現不錯,也可以掌握某些抽象概念。但對LLM來說情況不是這樣,Mitchell說;這些考試成績和人類的情況截然不同?!坝猛茢嗳祟惖姆绞饺ネ茢郃I系統,往往不太行?!彼f。
這可能是因為LLM只通過語言來學習;它沒有現實世界中的身體,也無法像人一樣體會到語言和事物、性質和感情之間的聯系。“很顯然,它們不是用人的方式來理解單詞的。”Lake說。在他看來,LLM現在展現出來的是“流利的語言能力,但沒有真正的理解力?!?/p>
往好的方面講,LLM也有人類沒有的能力——例如它能知道人類寫過的幾乎每個詞之間的關聯。這可能能讓模型根據語言中的“怪癖”或是其他提示來解決問題,而不需要特意舉一反三來擴展能力范圍,Mitchell說。
OpenAI的研究員Nick Ryder也同意,(AI)在一項考試上得高分可能不像人類得分那樣具有推廣意義?!拔矣X得人們看到人類和LLM考試成績后,不能簡單地同等評估。”他說。OpenAI的分數“不意味著像人類一樣的能力或類似人類的思考。它是用來說明模型在該任務上表現如何的。”
除了傳統給機器設計的考題和人類考試以外,研究者們還對LLM作了更廣泛的探索。3月,微軟研究院的Sébastien Bubeck和同事們發表的《通用人工智能的火花:對GPT-4的初步實驗》[5]預印本論文引發了熱潮。他們記錄了一系列令人驚訝的能力——很多都沒有直接或明顯地和語言相關。一項重大進展是它能通過心理學家用來測試心智理論的測試,這是讓人類能預測并推理其他人精神狀態的核心人類能力。文章中說,“考慮到GPT-4能力的廣度和深度,我們認為它可以視為早期(但尚不完備)版本的通用人工智能(AGI)系統。”
但是,Bubeck也向《自然》澄清,“GPT-4明顯沒有像人一樣思考,無論它展現出了何種能力,都是以它自己的方式做到的?!?/p>
雖然說得驚人,但這篇文章對LLM的能力的評估不夠系統性,Mitchell說:“這更像人類學。”Ullman說要想說服人機器有心智理論,他就必須要看到對應人類心智理論的潛在認知過程證據,而不只是機器的輸出和人類的答案一樣。
要搞清楚LLM的長處和短處,就需要更全面更嚴格的評估,AI研究者說。這套彩色的邏輯謎題可能就是其中一項。
新鮮的謎題
2019年,LLM閃亮登場之前,Chollet已在網上發布了一套給AI系統用的全新邏輯測試,叫做抽象與推理語料庫(ARC)[6]。解答者需要看過幾組一個網格圖變成另一個網格圖的示例,然后說明下一組圖會變成什么樣,來證明他們已經掌握了規則。“設計這套題目是為了測試適應沒見過的東西的能力?!盋hollet說,她認為這正是智力的本質。
ARC捕捉到了“人類智力的特征”,Lake說——即對日常知識進行抽象,并應用到此前未見過的問題上的能力。
Chollet于2020年組織了一屆ARC比賽,那時LLM還沒火起來。獲勝的機器人是專門訓練來解ARC類題目的,不過不像LLM有廣泛的應用場景。它只做對了21%的題目。與之對照的是人類能做出80%的ARC題目[7]。一些團隊現在在使用ARC來測試LLM的能力;每一個都比人類差遠了。
Mitchell和她的同事們新做了一套受ARC啟發的題目(叫做ConceptARC),但有兩個關鍵不同[1]。ConceptARC測試更簡單:Mitchell的團隊希望保證這套題目能捕捉到機器能力上的微小進步。另一個不同點是團隊選擇了特定的概念來測試,然后為每個概念設計了一組同一主題變體的謎題。
例如,為了測試“相同”這個概念,一個謎題要求解答者保留所有形狀相同的物體;另一個題目則要求保留沿著同一根軸排列的物體。設計目的就是減少AI系統沒把握概念就猜對題目的可能性(見“擊敗機器的抽象思考測試”)。
低分說明什么
研究者們把ConceptARC的題出給了GPT-4和網上的400個人。人類平均在所有概念組里得到了91分(最高一組得了97分)。GPT-4最高組得了33分,其他組都不到30分。
“我們證明了機器還遠達不到接近人類的程度?!盡itchell說,“它能解出里面一些問題就已經很了不起了,因為它從沒專門訓練過。”她補充說。
團隊還測試了Chollet的比賽中獲勝的那些機器人,它們不是像LLM那樣的泛用系統,但專門設計來解ARC這樣的視覺題目。總體上說,它們比GPT-4表現好,但比人類表現差,最好的一項得了77分,大多數不到60[1]。
但是,Bowman說GPT-4不會做ConceptARC不能證明它缺乏抽象推理的能力。他說ConceptARC對GPT-4不利——不提別的,它可是個圖形測試。“即使這些模型非常擅長這類推理,我覺得你也不能期待這組實驗能成功。”他說。
測試的形式限制也給GPT-4加大了難度。公開發布的LLM只能接受文字輸入,所以研究者們給GPT-4輸入了一個數組來表達圖像(比如空白像素可能是0,不同顏色塊就是不同的數字)。與之相比,人類參加者直接就能看到圖片?!拔覀冊谀弥挥姓Z言的系統和人類比,人類的視覺系統可高級多了?!盡itchell說,“所以這個比較可能不完全公平?!?/p>
OpenAI給GPT-4開發了一套“多模式”版本,可以接受圖像輸入。Mitchell和她的團隊在等這個版本可以公開使用,這樣他們就能用ConceptARC來測試一遍了。不過她覺得多模式的GPT-4也不會進步很多?!拔也徽J為這些系統會有和人類一樣的抽象概念和推理能力?!彼f。
麻省理工大學的計算認知科學家Sam Acquaviva也同意?!安蝗晃視蟪砸惑@?!彼f。他提到有另外一支團隊使用一套叫1D-ARC的題目測試了GPT-4,其中模式都局限在了一維數列上,而不是二維的網格圖[8]。這就能消除一部分不公平了,他說。雖然GPT-4的表現有所改進,但還是不足以證明LLM可以穩定地理解底層規則并進行推理,Acquaviva說。
推理的證據
Bowman提到了其他實驗,他認為那些實驗綜合起來理解,能說明LLM獲得了至少是初步的抽象推理能力。一個例子是哈佛大學的計算機科學家Kenneth Li和他的同事做的,使用了一套電子版的黑白棋。兩個玩家輪流在8*8的棋盤上下黑棋和白棋。他們的目的是檢測LLM是不是基于記憶中語言的表面統計規律來生成文字,還是有可能和人類一樣構建了對世界的內蘊解釋。
當他們使用玩家的棋譜訓練LLM之后,模型變得更擅長生成合法的走子位置了。研究者們認為他們有了證據證明LLM有在記錄盤面的狀態——并且它是用這個表征來走下一步,而不僅僅是根據文字[9]。
Bowman承認,LLM的推理能力總體上說還是“有好有壞”,比人類受限很多——但他說推理能力已經存在了,并且隨著模型大小而增長,因此他認為未來的LLM可能會更好。“這些系統明顯還遠沒有我們想要的那么可靠或泛用,也可能有些抽象推理能力它們還完全不行。”他說,“但我覺得基礎能力已經存在了?!?/p>
Bowman、Mitchell和其他人都同意的一件事是,測試LLM的抽象推理能力和其他智力形式的最好方案還是個未解決的空白。斯坦福大學的認知科學家Michael Frank認為不會有一套全方位的測試來替代圖靈測試?!皼]有什么界河,沒有單線圖。”他說。相反,研究者們會需要很多測試來量化不同系統的強項和弱項。“這些AI很棒,但它們出問題的情況也非常非常多,系統性地檢驗絕對重要?!彼f。
Wortham建議任何想要嘗試理解AI系統的人:避開“擬人詛咒”。“我們會把所有看起來有智力的東西擬人化?!彼f。
“這是個詛咒,因為我們沒法想象任何表現出目的導向行為的東西,只能拿人類當模板?!彼f,“而我們會想象說,它們這么做是因為它們在底層思考上和我們一樣?!?/p>
參考文獻:
1.Moskvichev, A., Odouard, V. V. & Mitchell, M. Preprint at https://arxiv.org/abs/2305.07141 (2023).
2. Turing, A. M. Mind LIX, 433–460 (1950).
3. Jannai, D., Meron, A., Lenz, B., Levine, Y. & Shoham, Y. Preprint at https://arxiv.org/abs/2305.20010 (2023).
4. OpenAI. Preprint at https://arxiv.org/abs/2303.08774 (2023).
5. Bubeck, S. et al. Preprint at https://arxiv.org/abs/2303.12712 (2023).
6. Chollet, F. Preprint at https://arxiv.org/abs/1911.01547 (2019).
7. Johnson, A., Vong, W. K., Lake, B. M. & Gureckis, T. M. Preprint at https://arxiv.org/abs/2103.05823 (2021).
8. Xu, Y., Li, W., Vaezipoor, P., Sanner. S. & Khalil, E. B. Preprint at https://arxiv.org/abs/2305.18354 (2023).
9. Li, K. et al. Proc. Eleventh Int. Conf. Learn. Represent. https://openreview.net/forum?id=DeG07_TcZvT (2023).
原文以ChatGPT broke the Turing test — the race is on for new ways to assess AI標題發表在2023年7月25日《自然》的新聞特寫版塊上
? nature
doi: 10.1038/d41586-023-02361-7