現在的大模型論文簡直像是在比長度,動不動就上百頁!記得前陣子小編瞅見那份90頁的Gemini技術報告,頓時腦袋嗡嗡作響。那會兒就幻想著:要是有個AI大腦來啃下這些'學術巨無霸',那豈不是爽歪歪?
沒想到過了幾個月,這個幻想竟然實現了!如今大語言模型正在挑戰這一難題,試圖成為我們閱讀長文本的得力助手。但問題是,這些AI助手自己對付長文本的能力如何呢?
近日,上海AI實驗室推出了一個名為NeedleBench的評測框架,對36個主流大模型展開了一場別開生面的'長文本大比拼'。這項研究不僅測試了模型們在不同長度文本上的表現,還設計了一系列漸進式的挑戰任務,就像是給LLMs出了一道道難度遞增的閱讀理解題。
有趣的是,在這場比拼中被譽為'LLM界的高考狀元'的GPT-4竟然只拿到了第二名!反倒是Claude-3-Opus后來者居上,一舉奪魁。這個結果讓不少人大跌眼鏡,也引發了業界對大模型長文本能力的新思考。
研究還發現,雖然這些AI模型在找出單一關鍵信息方面表現不錯,就像能準確回答'課文第三段第二句說了什么',但在需要綜合分析、邏輯推理的復雜問題上,它們卻顯得有些力不從心。這就好比,LLMs能輕松找出文中的重點句,卻在寫讀后感時犯了難。
系好安全帶!咱們馬上就要深入剖析這項研究的'秘笈',看看AI大腦是如何對付這些'學術巨無霸'的。順便也暢想一下,未來的AI說不定能一口氣吞下整本百科全書呢!
論文標題:
NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?
論文鏈接:
https://arxiv.org/pdf/2407.11963
大語言模型(LLM)在處理短文本方面已經表現出色,但長文本處理仍是一個重要挑戰。想象一下,如果LLM能輕松理解冗長的法律文件或學術論文,這將為我們的工作和學習帶來巨大便利。
近期,各大AI公司在這一領域紛紛展示了自己的實力。OpenAI的GPT-4 Turbo可處理128K個詞元,Anthropic的Claude 3系列聲稱能處理超過100萬詞元,Google的Gemini 1.5更是宣稱支持數百萬詞元的處理能力。開源模型如GLM4-9B-Chat和InternLM2.5-7B-Chat也加入了這場競爭。
然而,僅僅能處理長文本是不夠的,關鍵在于是否真正理解內容。為此,上海AI實驗室推出了NeedleBench評測框架。這個框架不僅測試模型的長文本處理能力,還考察它們的信息檢索和邏輯推理能力。
NeedleBench的核心是在長文本中植入關鍵信息,然后測試AI是否能準確找出這些信息并進行復雜推理。特別值得一提的是'祖先追蹤挑戰'(ATC)任務,它模擬了現實世界中復雜的邏輯推理問題。
研究結果顯示,當文本長度增加到約1120個詞元時,大多數開源模型在處理復雜邏輯問題時的準確率顯著下降。這表明,即使是最先進的AI模型,在長文本的深度理解上仍面臨挑戰。
下圖呈現了三個頂級模型(GPT4-Turbo、Claude-3-Opus和GLM-4)在ATC測試中的表現。從圖中可以看出,隨著上下文長度和復雜度的增加,即使是這些頂級模型的表現也呈現出明顯的下降趨勢。特別是當上下文長度達到1988個詞元,包含77個需要追蹤的信息點時,所有模型的得分都大幅下降。這一結果凸顯了長文本處理,尤其是涉及復雜邏輯推理時,對AI模型的巨大挑戰。
通過NeedleBench,我們看到AI在單一信息檢索方面表現出色,但在需要深度理解和復雜推理的任務中仍有提升空間。在我們使用LLM時需要合理評估LLM的能力邊界。
NeedleBench評測框架設計了一系列任務,全面考驗AI的信息檢索和邏輯推理能力。這個框架包括三個主要任務:單針檢索任務(S-RT)、多針檢索任務(M-RT)和多針推理任務(M-RS)。
下圖展示了NeedleBench的框架結構。左側展示了單針和多針檢索任務,中間部分展示了多針推理任務,右側則呈現了祖先追蹤挑戰(ATC)的不同拓撲結構。這張圖直觀地展示了從簡單的信息檢索到復雜的邏輯推理,NeedleBench如何逐步增加任務難度。
在多針推理任務中,研究團隊利用了 數據集。下圖展示了這個數據集中推理步驟的分布情況。從圖中我們可以看出,大多數推理問題涉及兩到三個步驟,少數問題需要四步或更多步驟來解決。
祖先追蹤挑戰(ATC)是NeedleBench的終極挑戰。這個任務要求AI在長文本中追溯復雜的家族關系。研究團隊設計了不同拓撲結構的家族關系,包括鏈狀、樹狀和圖狀。
研究人員展示了關鍵信息('針')放置在文本開頭、中間和結尾的情況,直觀地說明了任務的設計方式。下圖展示了在文本開頭的例子。
下圖則展示了多針檢索任務的樣例,其中包含了五個需要AI模型同時檢索的信息點。
除此之外,文中還展示了多針推理任務的樣例,要求模型不僅要找到相關信息,還需要基于這些信息進行推理。
祖先追蹤挑戰(ATC)任務的設計通過一系列示例和最終挑戰問題來測試AI模型的復雜邏輯推理能力。這個任務包括四個引導示例和一個終極挑戰問題,旨在全面評估模型的深度理解能力。特別值得注意的是,帶有推理路徑的示例清晰地展示了如何評估模型的邏輯推理過程,不僅關注最終答案,還重視模型如何一步步得出結論。這種設計方法有效地測試了AI是否真正理解了復雜的家族關系,以及是否能夠基于給定信息進行多步推理。
評分系統采用Levenshtein距離來衡量AI回答與標準答案的相似度,同時考慮關鍵詞的出現情況。這種評分方法不僅看重整體表達,還關注核心要點的把握。
通過這一系列精心設計的任務和評估方法,NeedleBench全方位地考察了AI的長文本處理能力,從簡單的信息檢索到復雜的邏輯推理。
NeedleBench評測框架為36個主流大模型提供了一份全面的'閱讀成績單',涵蓋了從4K到1000K token的多個文本長度區間。這些模型包括了Claude-3-Opus、GPT4-Turbo等頂級商業API模型,以及眾多開源模型如InternLM、Qwen和Baichuan系列等。
在NeedleBench評測框架中,研究團隊采用了一種復雜而全面的評分機制來衡量AI模型的表現。這個評分系統的核心是一個基于Levenshtein距離的公式,用于計算模型預測與參考答案之間的相似度。
具體來說,評分公式如下:
其中, 和 分別代表模型的預測和參考答案; 是與每個 相關的核心關鍵詞集合; 是 和 之間的Levenshtein距離; 和 分別是 和 的長度; 是一個懲罰因子,設定為0.2。
評測結果呈現了一幅復雜的AI能力圖譜。在32K token的測試中,Mixtral-8x7B Instruct v0.1模型以89.38的總分位居榜首,展現了優秀的綜合能力。緊隨其后的是Qwen-1.5-72B-vLLM和ChatGLM3-6B-32K,分別以82.36和82.86的總分展示了強勁實力。這些結果表明,即使是參數量較小的模型,通過精細調優也能在特定任務上與大模型比肩。
當文本長度延伸至200K token時,能夠支持如此長文本的開源模型數量顯著減少。在這一挑戰中,InternLM2-7B-200K模型表現出色,尤其是在單針檢索任務中幾乎達到了完美表現。然而,同一模型在多針檢索任務中表現不佳,暴露出在指令遵循方面的不足。
文章中還對不同模型在200K token內的結果進行可視化,隨著文本長度的增加,模型效果普遍下降。
更具挑戰性的是1000K token測試。在這一極限測試中,僅有InternLM2.5-7B-Chat-1M和GLM4-9B-Chat-1M兩個模型參與。結果顯示,InternLM2.5-7B-Chat-1M在大多數任務中表現優于GLM4-9B-Chat-1M。特別值得注意的是,通過調整提示策略,GLM4-9B-Chat-1M的性能得到顯著提升,這凸顯了提示工程在發揮模型潛力中的重要作用。
祖先追蹤挑戰(ATC)任務的結果尤為引人注目。API模型在這項任務中展現出明顯優勢,Claude-3-Opus以57.61的總分領先,其次是GPT4-Turbo(48.29分)和GLM-4(42.99分)。在開源模型中,DeepSeek-67B表現最為出色,總分達到44.03,接近頂級API模型的水平。這一結果顯示了開源模型在縮小與商業API模型差距方面的潛力。
ATC測試還揭示了一個普遍趨勢:隨著上下文長度和復雜度的增加,幾乎所有模型的表現都呈現下降趨勢。特別是當推理步驟達到16步左右時,大多數開源模型的準確率降至10%以下,即使是在僅有約1120個詞元的情況下。這一發現凸顯了AI在處理復雜邏輯關系時面臨的巨大挑戰。
研究還發現,模型規模與性能之間并非簡單的線性關系。例如,在Qwen系列中,72B參數版本在某些任務上的表現不如參數較少的版本。這一發現強調了模型優化策略的重要性,而不僅僅是增加參數量。
此外,實驗結果還揭示了模型在指令遵循方面的有趣現象。一些模型在被要求回憶更多信息點時,反而提高了對第一個信息點的回憶準確率。這種看似矛盾的現象為未來的模型優化提供了新的思路。
總的來說,NeedleBench的評測結果不僅展示了當前AI模型在長文本處理方面的進展,也揭示了它們在復雜推理任務中面臨的挑戰。同時,實驗也展示了一些意外發現,如某些模型在多信息點檢索時表現出的非線性改善,以及模型規模與性能之間的復雜關系。
上海AI實驗室推出的NeedleBench評測框架為我們呈現了一場精彩的長文本處理能力大賽。在這場由36個大模型參與的角逐中,我們看到了令人意外的結果:被譽為AI界頂尖選手的GPT-4僅排第二,而Claude-3-Opus摘得桂冠。這一結果不僅展示了AI技術的飛速進步,也反映了長文本處理領域的激烈競爭。
NeedleBench的評測結果揭示了當前AI模型在長文本處理方面的優勢與挑戰。雖然在單一信息檢索任務中表現出色,但在涉及復雜邏輯推理的長文本任務中,即使是最先進的模型也面臨顯著困難。特別是在祖先追蹤挑戰(ATC)中,隨著推理步驟的增加,幾乎所有模型的性能都出現了明顯下降。
這些發現為AI技術的未來發展指明了方向。首先,提升模型的長文本理解和復雜邏輯推理能力仍是一個重要課題。其次,模型規模與性能之間的非線性關系提醒我們,未來的研究不應僅僅關注增加參數量,還要著重優化模型結構和訓練策略。最后,某些模型在多信息點檢索時表現出的非預期改善,為我們提供了新的研究思路。
未來,我們期待看到更多針對長文本處理和復雜推理能力的創新。這不僅將推動LLM在學術研究、法律分析、商業智能等領域的應用,還可能帶來AI理解和處理信息方式的根本性變革。