每月慣例,月初繼續盤點上月的爆款論文,本次共計12篇。主要涉及Transformer改進,模型推理能力提升(BSM)、混合思維鏈(Meta-CoT)、大模型剪枝、跨文檔建模、代碼擴散模型(Code Fusion)、大模型推理評估、圖文對齊GraphGPT等。
所有pdf論文獲取回復:2310論文總結
Transformer的內存需求限制了其處理長序列的能力,當面對長序列依賴任務時具有一定的挑戰性。
為此,作者提出以分塊方式執行自注意力和前饋網絡計算,跨多個主機設備分布序列維度,從而實現并發計算和通信,由于該方法將環中主機設備之間的鍵值塊通信與塊計算重疊,因此將其命名:環注意(Ring Attention)。
該方法在主機設備之間構建注意力計算塊的外循環,每個主機設備具有一個查詢塊,并通過鍵值塊遍歷主機設備環,以逐塊的方式進行注意力和前饋網絡計算。當計算注意力時,每個主機將鍵值塊發送到下一個主機,同時從前一個主機接收鍵值塊。這里作者使用與原始 Transformer 相同的模型架構,但重新組織了計算。具體如下圖所示:
Code:https://github.com/vllm-project/vllm
雖然大型語言模型(LLM)的性能表現足夠驚艷,但每次接收用戶請求時都需要耗費大量顯存和計算資源,一旦請求數量超出預期,就極有可能面臨ChatGPT剛發布時的宕機、排隊、高延遲等窘境。
想要打造一個高吞吐量的LLM服務,就需要模型在一個批次內處理盡可能多的請求,不過現有的系統大多在每次處理請求時申請大量的key-value(KV)緩存,如果管理效率不高,大量內存都會在碎片和冗余復制中被浪費掉,限制了batch size的增長。
Code:https://github.com/princeton-nlp/LLM-Shearing
自大型語言模型(LLM)出現以來,它們便在各種自然語言任務上取得了顯著的效果。不過,大型語言模型需要海量的計算資源來訓練。因此,業界對構建同樣強大的中型規模模型越來越感興趣,出現了 LLaMA、MPT 和 Falcon,實現了高效的推理和微調。
這些規模不等的 LLM 適用于不同的用例,但從頭開始訓練每個單獨的模型(即使是 10 億參數小模型)還是需要大量計算資源,這對于大多數科研機構而言仍是很大的負擔。
為此,普林斯頓大學提出了一種名為 LLM-Shearing 的大模型剪枝法,可以用很小的計算量和成本實現優于同等規模模型的性能。
Code:https://github.com/Anni-Zou/Meta-CoT
思維鏈(CoT)提示可以大大提升大型語言模型(LLMs)的推理能力。然而,當前CoT方法要么采用簡單的通用提示,例如“讓我們一步一步思考”,要么嚴重依賴手工制作的特定任務Demo來獲得更好的性能,這使其在性能和泛化之間產生了不可避免的差距。
Paper:https://arxiv.org/pdf/2310.10638.pdf
語言模型有時很難理解比較復雜的上下文,它們可能無法準確遵循指令并難以對文檔進行推理,從而導致模型在上下文學習中表現出很大的差異。
具體地,作者引入了兩種新的近似算法,更改文檔順序來進行上下文預訓練,使得每個上下文都包含相關文檔,顯著增強了對整個上下文的理解和推理,并且它可以直接應用現有的預訓練管道。
Paper:https://arxiv.org/abs/2310.05470
Code:https://gair-nlp.github.io/auto-j
隨著生成式人工智能技術的快速發展,確保大模型與人類價值(意圖)對齊(Alignment)已經成為行業的重要挑戰。
雖然模型的對齊至關重要,但目前的評估方法往往存在局限性,這也讓開發者往往困惑:大模型對齊程度如何?這不僅制約了對齊技術的進一步發展,也引發了公眾對技術可靠性的擔憂。
為此,上海交通大學生成式人工智能實驗室迅速響應,推出了一款全新的價值對齊評估工具:Auto-J,旨在為行業和公眾提供更加透明、準確的模型價值對齊評估。
當前,大型語言模型(LLMs)經常被應用于各種語言生成和評估任務,對于具體任務往往需要考慮各種約束和評估標準。但是,由于模型無法規劃分解問題,缺乏連貫性,它們的性能可能會達不到要求。
Paper:https://arxiv.org/pdf/2310.14820.pdf
Code:https://github.com/Arvid-pku/ALCUNA
在這個不斷變化的世界,當大型語言模型(LLM)遇到新知識還能給出正確答案嗎?如何評估LLM應對新知識的能力呢?
為此,本文作者提出了KnowGen方法,它通過改變現有實體屬性和關系來生成新知識,從而產生與現實世界實體不同的人造實體。基于KnowGen,作者引入了ALCUNA基準來評估LLM在知識理解(KU)、區分(KD)和關聯(KA)方面的能力。實驗結果發現,當面對新知識時,Alpaca、Vicuna、ChatGLM等主流大模型的表現不盡人意。
Paper:https://arxiv.org/abs/2310.13023
Code:https://github.com/HKUDS/GraphGPT
GraphGPT框架將圖結構模型和大語言模型進行參數對齊,利用雙階段圖指令微調范式提高模型對圖結構的理解能力和適應性,再整合ChatGPT提高逐步推理能力,實現了更快的推理速度和更高的圖任務預測準確率。
Paper:https://arxiv.org/abs/2310.12109
Code:https://github.com/HazyResearch/m2
從 BERT、GPT 和 Flan-T5 等語言模型到 SAM 和 Stable Diffusion 等圖像模型,Transformer 正以銳不可當之勢席卷這個世界,但人們也不禁會問:Transformer 是唯一選擇嗎?
斯坦福大學和紐約州立大學布法羅分校的一個研究團隊不僅為這一問題給出了否定答案,而且還提出了一種新的替代技術:Monarch Mixer。它是一種在序列長度和模型維度上都是次二次的新架構,并且在現代加速器上具有很高的硬件效率。
Paper:https://arxiv.org/pdf/2310.14820.pdf
Code:https://github.com/microsoft/prose-benchmarks/tree/main/CodeFusion
隨著擴散模型(Diffusion Models)在圖像生成方面表現出了卓越的性能,最近研究人員們正逐步將其應用到文本生成領域。
這種新方法不僅改進了多步推理,還具有可解釋、可遷移等優勢。對數值推理和關系推理問題的實驗表明,HtT 改進了現有的 prompt 方法,準確率提升了 11-27%。學到的規則也可以遷移到不同的模型或同一問題的不同形式。