精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
大模型(LLM)最新學術進展!2023年10月 爆款論文總結,共計12篇
更多干貨,第一時間送達

引言

每月慣例,月初繼續盤點上月的爆款論文,本次共計12篇。主要涉及Transformer改進,模型推理能力提升(BSM)、混合思維鏈(Meta-CoT)、大模型剪枝、跨文檔建模、代碼擴散模型(Code Fusion)、大模型推理評估、圖文對齊GraphGPT等。

所有pdf論文獲取回復:2310論文總結

環注意力(Ring Attention)

Paper:https://browse.arxiv.org/pdf/2310.01889.pdf

Transformer的內存需求限制了其處理長序列的能力,當面對長序列依賴任務時具有一定的挑戰性。

為此,作者提出以分塊方式執行自注意力和前饋網絡計算,跨多個主機設備分布序列維度,從而實現并發計算和通信,由于該方法將環中主機設備之間的鍵值塊通信與塊計算重疊,因此將其命名:環注意(Ring Attention)。

該方法在主機設備之間構建注意力計算塊的外循環,每個主機設備具有一個查詢塊,并通過鍵值塊遍歷主機設備環,以逐塊的方式進行注意力和前饋網絡計算。當計算注意力時,每個主機將鍵值塊發送到下一個主機,同時從前一個主機接收鍵值塊。這里作者使用與原始 Transformer 相同的模型架構,但重新組織了計算。具體如下圖所示:

分頁注意力(PagedAttention)

Paper:https://arxiv.org/pdf/2309.06180.pdf

Code:https://github.com/vllm-project/vllm

雖然大型語言模型(LLM)的性能表現足夠驚艷,但每次接收用戶請求時都需要耗費大量顯存和計算資源,一旦請求數量超出預期,就極有可能面臨ChatGPT剛發布時的宕機、排隊、高延遲等窘境。

想要打造一個高吞吐量的LLM服務,就需要模型在一個批次內處理盡可能多的請求,不過現有的系統大多在每次處理請求時申請大量的key-value(KV)緩存,如果管理效率不高,大量內存都會在碎片和冗余復制中被浪費掉,限制了batch size的增長。

最近,來自加州大學伯克利分校、斯坦福大學、加州大學圣迭戈分校的研究人員基于操作系統中經典的虛擬內存和分頁技術,提出了一個新的注意力算法PagedAttention,并打造了一個LLM服務系統vLLM,如上圖所示。

Llama2剪枝(LLM-Shearing)

Paper:https://arxiv.org/abs/2310.06694

Code:https://github.com/princeton-nlp/LLM-Shearing

自大型語言模型(LLM)出現以來,它們便在各種自然語言任務上取得了顯著的效果。不過,大型語言模型需要海量的計算資源來訓練。因此,業界對構建同樣強大的中型規模模型越來越感興趣,出現了 LLaMA、MPT 和 Falcon,實現了高效的推理和微調。

這些規模不等的 LLM 適用于不同的用例,但從頭開始訓練每個單獨的模型(即使是 10 億參數小模型)還是需要大量計算資源,這對于大多數科研機構而言仍是很大的負擔。

為此,普林斯頓大學提出了一種名為 LLM-Shearing 的大模型剪枝法,可以用很小的計算量和成本實現優于同等規模模型的性能。

Meta-CoT思維鏈

Paper:https://arxiv.org/pdf/2310.06692.pdf

Code:https://github.com/Anni-Zou/Meta-CoT

思維鏈(CoT)提示可以大大提升大型語言模型(LLMs)的推理能力。然而,當前CoT方法要么采用簡單的通用提示,例如“讓我們一步一步思考”,要么嚴重依賴手工制作的特定任務Demo來獲得更好的性能,這使其在性能和泛化之間產生了不可避免的差距。

為此,上交大本文提出:Meta-CoT,它是一種在輸入問題類型未知的混合任務場景中通用的CoT提示方法,彌合了性能和泛化之間的差距。在總共15個分布內/外數據集上都獲得了優秀的表現,且在SVAMP上測試結果達到了SOTA(93.7%)。

跨文檔的語言建模

Paper:https://arxiv.org/pdf/2310.10638.pdf

語言模型有時很難理解比較復雜的上下文,它們可能無法準確遵循指令并難以對文檔進行推理,從而導致模型在上下文學習中表現出很大的差異。

為此,本文作者提出一種新的方法:上下文預訓練(IN-CONTEXT PRETRAINING),其中語言模型在一系列相關文檔上進行預訓練,從而引導模型進行跨文檔邊界閱讀和推理。

具體地,作者引入了兩種新的近似算法,更改文檔順序來進行上下文預訓練,使得每個上下文都包含相關文檔,顯著增強了對整個上下文的理解和推理,并且它可以直接應用現有的預訓練管道。

評估大模型(Auto-J)

Paper:https://arxiv.org/abs/2310.05470

Code:https://gair-nlp.github.io/auto-j

隨著生成式人工智能技術的快速發展,確保大模型與人類價值(意圖)對齊(Alignment)已經成為行業的重要挑戰。

雖然模型的對齊至關重要,但目前的評估方法往往存在局限性,這也讓開發者往往困惑:大模型對齊程度如何?這不僅制約了對齊技術的進一步發展,也引發了公眾對技術可靠性的擔憂。

為此,上海交通大學生成式人工智能實驗室迅速響應,推出了一款全新的價值對齊評估工具:Auto-J,旨在為行業和公眾提供更加透明、準確的模型價值對齊評估。

大模型任務分解(BSM)

Paper:https://arxiv.org/pdf/2310.15123.pdf

當前,大型語言模型(LLMs)經常被應用于各種語言生成和評估任務,對于具體任務往往需要考慮各種約束和評估標準。但是,由于模型無法規劃分解問題,缺乏連貫性,它們的性能可能會達不到要求。

為此,本文作者提出了Branch-Solve-Merge (BSM),它分支、求解和合并模塊組成,利用這三個模塊將任務分解為多個并行的子任務,獨立地解決它們,并將解決方案融合到子任務中。實驗結果顯示,該方法可以讓Llama 70B chat達到GPT-4的效果,讓GPT-4的性能進一步升級3%。

大模型應對新知識

Paper:https://arxiv.org/pdf/2310.14820.pdf

Code:https://github.com/Arvid-pku/ALCUNA

在這個不斷變化的世界,當大型語言模型(LLM)遇到新知識還能給出正確答案嗎?如何評估LLM應對新知識的能力呢?

為此,本文作者提出了KnowGen方法,它通過改變現有實體屬性和關系來生成新知識,從而產生與現實世界實體不同的人造實體。基于KnowGen,作者引入了ALCUNA基準來評估LLM在知識理解(KU)、區分(KD)和關聯(KA)方面的能力。實驗結果發現,當面對新知識時,Alpaca、Vicuna、ChatGLM等主流大模型的表現不盡人意。

GraphGPT對齊圖文

Paper:https://arxiv.org/abs/2310.13023

Code:https://github.com/HKUDS/GraphGPT

GraphGPT框架將圖結構模型和大語言模型進行參數對齊,利用雙階段圖指令微調范式提高模型對圖結構的理解能力和適應性,再整合ChatGPT提高逐步推理能力,實現了更快的推理速度和更高的圖任務預測準確率。

實驗評估了GraphGPT在有監督和零樣本圖學習任務上的表現。通過與最先進的基線進行比較,GraphGPT展現出在各種設置中優越的泛化能力。

替代Transformer

Paper:https://arxiv.org/abs/2310.12109

Code:https://github.com/HazyResearch/m2

從 BERT、GPT 和 Flan-T5 等語言模型到 SAM 和 Stable Diffusion 等圖像模型,Transformer 正以銳不可當之勢席卷這個世界,但人們也不禁會問:Transformer 是唯一選擇嗎?

斯坦福大學和紐約州立大學布法羅分校的一個研究團隊不僅為這一問題給出了否定答案,而且還提出了一種新的替代技術:Monarch Mixer。它是一種在序列長度和模型維度上都是次二次的新架構,并且在現代加速器上具有很高的硬件效率。

擴散文本生成大模型

Paper:https://arxiv.org/pdf/2310.14820.pdf

Code:https://github.com/microsoft/prose-benchmarks/tree/main/CodeFusion

隨著擴散模型(Diffusion Models)在圖像生成方面表現出了卓越的性能,最近研究人員們正逐步將其應用到文本生成領域。

本篇文章中,微軟研究人員就將擴散模型(Diffusion Models)應用到了代碼生成領域,提出了CODEFUSION架構,實驗結果表明CODEFUSION-75M效果超過了ChatGPT、StarCoder、GPT-3等眾多百億、千億級參數的模型。

讓LLM學習推理規則

Paper:https://arxiv.org/abs/2310.07064
當前,大型語言模型(LLM)在推理任務上表現出令人驚艷的能力,特別是在給出一些樣例和中間步驟時。然而,prompt 方法往往依賴于 LLM 中的隱性知識,當隱性知識存在錯誤或者與任務不一致時,LLM 就會給出錯誤的回答。

現在,來自谷歌等研究機構的研究者聯合探索了一種新方法——讓LLM學習推理規則,并提出一種名為假設到理論(Hypotheses-to-Theories,HtT)的新框架。

這種新方法不僅改進了多步推理,還具有可解釋、可遷移等優勢。對數值推理和關系推理問題的實驗表明,HtT 改進了現有的 prompt 方法,準確率提升了 11-27%。學到的規則也可以遷移到不同的模型或同一問題的不同形式。

本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
大模型幻覺問題專欄
綜述 | 開源多模態大模型哪家強?
推薦|沒看過這5個模型,不要說你玩過CNN!
ChatGPT出來后,我們是否真的面臨范式轉變?
Transformer一作來卷多模態!學術圖表也能看懂,100毫秒極速響應|免費試玩
ChatGPT突破圖靈測試:在“像人”和“不像人”方面都很行 |《自然》長文
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 高唐县| 铜山县| 台北市| 大安市| 景谷| 儋州市| 望谟县| 青岛市| 玉门市| 明光市| 根河市| 荆州市| 措美县| 清水河县| 新野县| 合水县| 海原县| 扶绥县| 屏东县| 阿巴嘎旗| 淮阳县| 晴隆县| 甘洛县| 连南| 达拉特旗| 平定县| 乌拉特中旗| 绍兴市| 宁化县| 洛宁县| 汉川市| 永安市| 乌拉特中旗| 濮阳市| 易门县| 济南市| 颍上县| 化德县| 竹北市| 镇雄县| 东阿县|