精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
54百億參數大模型進化樹重磅更新!85頁盤點LLM發展史,附最詳細prompt技巧


  新智元報道  

編輯:Aeneas 好困
【新智元導讀】4月底火爆開發者社區的最全LLM綜述又更新了!這次,LLM的進化樹末端已經從GPT-4和Bard更新到了Vicuna和Falcon。

在4月一經推出就火爆開發者社區的大語言模型綜述更新了!
此前,人大等學校的多位研究者回顧了大語言模型在背景知識、關鍵發現和主流技術等方面的進展,尤其強調了大語言模型的預訓練、自適應調優、使用和能力評估。
最近,研究者對于這些研究進行了更新。在這次更新中,添加了34多個新頁面,200多個新參考。包括:- 新論文(LLaMA系列) - 新章節(例如,LLMs的復雜任務規劃) - 26個有用的prompt技巧 - 對LLM的8種完成特定任務的能力進行實證評估

論文地址:https://arxiv.org/abs/2303.18223

LLM大事記

下圖是近年來大于100億的大語言模型的時間軸。
其中,時間軸主要根據模型的技術論文發布日期來建立。
為了便于閱讀,團隊還通過LLM和人工校對,制作了中文版的調查報告(v4)。

作者注:本文未經許可,不得以任何形式進行轉發,或者拷貝使用相關內容

LLM發展概述(arXiv上LLM相關論文數量的趨勢)

這次更新的有arXiv上LLM相關論文數量趨勢。
以下分別是包含關鍵詞「語言模型」(自2018年6月以來)和「大語言模型」(自2019年10月以來)的arXiv論文數量趨勢。
統計數據是通過按月份查詢標題或摘要中的關鍵詞的精確匹配來計算的。
由于學界很早就開始探索語言模型了,因此研究者為這兩個關鍵詞設置了不同的X軸范圍。
我們在圖中標注了與LLMs研究進展中重要里程碑相對應的點。
在ChatGPT發布后,論文數量急劇增加:每天平均發布的包含「大語言模型」關鍵詞的arXiv論文從0.40篇增至8.58篇。

LM研究發展階段

LM旨在對單詞序列的生成可能性進行建模,從而預測未來(或缺失)token的概率。
LM的研究可以分為四個主要的發展階段:
-統計語言模型(SLM)
SLM基于20實際90年代興起的統計學習方法開發。基本思想是建立基于馬爾可夫假設的單詞預測模型,例如,根據最近的上下文預測下一個單詞。
具有固定上下文長度n的SLM也也被稱為n元語言模型,比如二元語言模型和三元語言模型。
SLM在信息檢索(IR)和自然語言處理(NLP)中被廣泛應用于提高任務性能。然而,它們往往會遭受維數詛咒:由于需要估計指數級數量的轉移概率,因此很難準確估計高階語言模型。
-神經語言模型(NLM)
NLM通過神經網絡(如循環神經網絡RNN)來表征單詞序列的概率,NLM最顯著的貢獻是引入了單詞的分布式表征的概念,并構建了以分布式詞向量為條件的單詞預測函數。
為了構建一個簡化的淺層神經網絡來學習分布式的單詞表征,word2vec被提出,并且被證明是非常有效的。
-預訓練模型(PLM)
ELMo是通過預訓練一個雙向LSTM網絡,然后根據特定的下游任務對這個網絡進行微調。
此外,BERT是基于具有自注意機制的高度并行化Transformer架構被提出。它們很大程度上提高了NLP任務的性能標準。
-大語言模型(LLM)
許多研究通過訓練更大的PLM(如175B參數的GPT-3和540B參數的PaLM來探索性能極限,它們在解決一系列復雜任務時涌現出驚人的能力。
例如,GPT-3可以通過上下文學習解決few-shot任務,而GPT-2做得并不好。
而GPT-4已經被認為是AGI的早期版本。

LLM涌現的能力

LLM的涌現能力被定義為:在小模型中不存在但在大模型中出現的能力。這是LLM區別于以往PLM的最顯著特征之一。
具體包括——
-上下文學習
GPT-3 正式引入了上下文學習能力:假設語言模型已經提供了自然語言指令和多個任務描述,它可以通過完成輸入文本的詞序列來生成測試實例的預期輸出,而不需要額外的訓練或梯度更新。
175B型GPT-3總體表現出較強的上下文學習能力,而GPT-1和GPT-2表現不佳。
-指令跟隨
通過對自然語言描述格式化的多任務數據集的混合進行微調(被稱為指令調優),即使在以指令形式描述的未見任務上,LLM也表現良好。
LLM可以在不使用顯示樣本的情況下遵循新任務的指令,從而提高泛化能力。
-一步一步的推理
對于小型語言模型,通常很難解決涉及多個推理步驟的復雜任務,例如數學單詞問題。
相比之下,通過思維鏈(CoT)提示策略,LLM 可以通過使用包含中間推理步驟的prompt機制推導最終答案,來解決這類任務。
據推測,這種能力可能是通過訓練代碼而獲得的。

LLM的關鍵技術

以下是幾個(潛在)導致LLM成功的重要技術。
-縮放
Transformer語言模型中存在明顯的擴展效應:更大的模型/數據規模和更多的訓練會導致模型容量的提高。
GPT-3將模型參數增至1750億,PaLM將模型參數增至5400億,都探索了縮放的極限。
利用縮放定律,可以進行更有效的計算資源分配。
-訓練
由于規模巨大,需要分布式訓練算法來學習LLM的網絡參數,聯合使用各種并行策略。
為了支持分布式訓練,DeepSpeed和Megatron-LM等優化框架已經發布,用來促進并行算法的實現和部署。
-能力激發
在大規模語料庫上經過預訓練后,LLM被賦予了解決通用任務的潛在能力。
但是執行某個特定任務時,這些能力未必會表現出來。
因此需要設計適合的任務指令或特定的上下文學習策略,來激發出LLM的這些能力,比如思維鏈prompt。
-對齊微調
由于訓練LLM的語料質量參差不齊,它們很可能生成對人類有毒、有偏見甚至有害的文本內容。
為了讓它們與人類價值觀保持一致,InstructGPT設計了一種利用強化學習和人類反饋的高效調優方法,使得LLM 能夠遵循預期指令。
ChatGPT即是在類似技術上開發的。
-工具利用
LLM在數值計算任務上表現不佳,且受限于預訓練數據。
因此,它們需要外部工具來彌補,比如計算器、搜索引擎、外部插件等。

GPT系列模型的技術演進

研究者主要根據OpenAI的論文、博客文章和官方API重新繪制了這個GPT系列模型的技術演進圖。
在圖中,實線表示兩個模型之間存在明確的證據(例如,官方聲明新模型是基于基礎模型開發的)的演進路徑,而虛線表示相對較弱的演進關系。
研究者討論了GPT系列模型的技術演變,總結了它們在過去幾年的進展。
下表是近年來大語言模型(大于10B)的統計,包括容量評估、預訓練數據規模(token數量或存儲大小)和硬件資源成本。只包括有公開技術細節論文的LLM。

LLaMA家族進化圖

這次更新的還有LLaMA研究工作的演化圖。
由于數量龐大,這個圖中這個圖中包含所有的LLaMA變種,盡管其中有很多優秀的工作。
LLaMA模型是Meta AI在2023年2月推出的,包括7B、13B、30B和65B四個尺寸。
自發布以來,LLaMA以前你了學界和工業界的廣泛關注。它們在各種開放基準測試中取得了優異性能,成為如今最流行的開源語言模型。
由于計算成本較低,結構調優LLaMA已經成為開發定制或專有模型的主要方法。
LLaMA家族包括Stanford Alpaca、Koala、BELLE。
而基于另一種流行的LLaMA變體Vicuna,出現了LLaVA、MiniGPT-4、InstructBLIP、PandaGPT等。
總之,LLaMA的發布極大推動了LLM的研究進展。

提示

團隊從在線筆記和作者的經驗中,收集了一些有關設計提示的有用建議,并展示了相關的要素和原則。
四個原則分別是——
1:清晰表達任務目標;
2:將任務分解為易于理解的詳細子任務;
3:提供少樣本示例;
4:使用適合模型的格式。
任務描述
T1. 盡可能詳細地描述提示,例如,「用50個字以內總結這篇文章。包括主要情節和結論,可以省略不重要的細節。」  (1)
T2. 用一個預設的提示讓LLM知道自己是一個專家,例如,「你是一個計算機科學領域的資深專家。」   (1)
T3. 告訴模型更多應該做什么的信息,而不是不應該做什么。(1)
T4. 為了避免LLM生成過長的輸出,可以只使用提示:「問題:簡短回答:」。此外,還可以使用以下后綴:「用幾個詞或一兩句話回答」。(1)
輸入數據
I1. 對于需要事實知識的問題,先通過搜索引擎檢索相關文檔,然后將它們插入到提示中作為參考。(4)
I2. 為了突出提示中的一些重要部分,請使用特殊標記,例如引號('')和換行符(\n)。也可以同時使用它們進行強調。(4)
上下文信息
C1. 對于復雜的任務,可以清楚地描述完成任務所需的中間步驟,例如,「請一步一步地回答問題,步驟一:將問題分解為幾個子問題...」。(2)
C2. 如果想讓LLM對文本進行打分,則需要提供有關評分標準的詳細說明,并提供示例作為參考。(1)
C3. 當LLM根據某個上下文生成文本時(例如根據購買歷史進行推薦),通過解釋與生成結果有關的上下文,可以提高生成文本的質量。(2)
少樣本示例
D1. 格式準確的上下文示例可以幫助指導LLM,特別是對于那些格式復雜的輸出來說。(3)
D2. 對于少樣本思維鏈提示,可以使用「讓我們一步一步思考」,少樣本示例應該用「\n」分隔而不是用句號。(1)(3)
D3. 可以檢索上下文中的類似示例,為LLM提供有用的任務特定知識。為了檢索更多相關示例,先獲得問題的答案,然后將其與問題連接起來進行檢索。(3)(4)
D4. 上下文示例的多樣性也很有用。如果很難獲得多樣性問題,可以嘗試保持問題的解決方案的多樣性。(3)
D5. 在使用基于對話的LLM時,可以將上下文示例分解為多輪對話消息,以更好地匹配人類與機器人的對話格式。同樣,可以將示例的推理過程分解為多輪對話。(3)
D6. 復雜且信息豐富的上下文示例有助于LLM回答復雜問題。(3)
D7. 由于符號序列通常可以分為多個段落(例如i1、i2、i3 → i1、i2和i2、i3),可以將之前的段落用作上下文示例,引導LLM預測后續段落,同時提供歷史信息。(2)(3)
D8. 上下文示例和提示組件的順序很重要。對于非常長的輸入數據,問題的位置(第一個或最后一個)也可能影響性能。(3)
D9. 如果無法從現有數據集獲取上下文示例,另一種替代方法是使用LLM自己生成的零樣本示例。(3)
其他
O1. 在得出結論之前,讓LLM檢查其生成的結果,例如,「檢查上述解決方案是否正確」。(2)
O2. 如果LLM無法很好地解決任務,可以通過提示LLM使用外部工具進行幫助。這時,工具應該封裝為可調用的API,并提供關于其功能的詳細描述,以更好地指導LLM利用工具。(4)
O3. 提示應該是自包含的,并且最好不要包含上下文中的代詞信息(例如它和它們)。(1)
O4. 在使用LLM進行比較兩個或更多示例的任務時,順序對性能影響很大。(1)
O5. 在提示之前,為LLM分配一個角色有助于它更好地完成后續任務指導,例如,「我希望你扮演一名律師」。(1)
O6. OpenAI模型在英語方面的任務表現比其他語言更好。因此,將輸入首先翻譯成英語,然后再輸入LLM會很有幫助。(4)
O7. 對于多選題,可以限制LLM的輸出空間。比如,使用更詳細的說明或僅對邏輯回歸添加約束。(1)
O8. 對于基于排序的任務(例如推薦),不直接輸出排序后的每個項目的完整文本,而是給未排序的項目分配代號(例如ABCD),并指示LLM直接輸出排序后的代號。(1)
另外,研究者還提供了解決許多常見任務的prompt的具體示例。
這些任務prompt大多來自現有的論文,實驗使用基于ChatGPT的提示。

復雜任務規劃

「復雜任務規劃」可以被總結為三個組件:任務計劃器、計劃執行程序和環境。這種范式可以從三個方面來解釋:
>計劃生成 >反饋采集 >計劃細化

實驗

指令微調

團隊探討了在微調LLM中不同類型指令的影響,并測試了一些指令改進策略的有效性。
以下是基于LLaMA-7B模型在聊天和問答設置下進行的指令調整實驗的結果(所有實驗均為單輪對話)。
其中,采用的是Self-Instruct-52K數據集中,四種指令的改進策略,即增加復雜性(使用復雜性策略)、增加多樣性(使用多樣性策略)、平衡難度(使用難度策略)和增加指令數量(使用縮放策略)。

能力評估

團隊針對LLM的8種能力,進行了細致的評估。
其中,橙色和藍色字體的色階分別表示閉源模型和開源模型的結果性能順序。
本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
首個大規模使用工具的大模型來了:伯克利發布Gorilla
OpenAI大神Andrej爆火演講,官方第一次揭秘大模型原理和訓練過程!
Paper:《Instruction Tuning for Large Language Models: A Survey—大型語言模型的指令調優的綜述》翻譯與解讀
一文理解“上下文學習”----大語言模型突現能力
什么是LLM大語言模型?Large Language Model,從量變到質變
最新最全最火的Prompt指南來了!
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 泸溪县| 富锦市| 赤城县| 西乌珠穆沁旗| 两当县| 阳高县| 汉寿县| 承德县| 辽阳市| 武宣县| 科技| 沂水县| 昌江| 宜春市| 乐至县| 乌海市| 昭平县| 平南县| 渑池县| 丹棱县| 荣成市| 城口县| 利津县| 德令哈市| 遂川县| 赫章县| 张家川| 林西县| 临洮县| 毕节市| 郧西县| 连平县| 四川省| 和平县| 无锡市| 吴江市| 武乡县| 综艺| 湟源县| 清水县| 会理县|