指令:'Write a limerick about a pelican.'輸出:'There once was a pelican so fine...'
模型將指令文本(Write a limerick about a pelican)作為輸入,執(zhí)行下一 token 預測獲得輸出文本(There once was a pelican so fine...)。 盡管預測下一 token 這個訓練目標是相似的,但監(jiān)督式微調使用的數(shù)據(jù)集通常比預訓練所用的小得多。這是因為它需要的是指令 - 輸出對,而不只是原始文本。為了構建這樣一個數(shù)據(jù)集,必需有一個人類(或另一個高質量 LLM)來根據(jù)給定指令寫出所需輸出 —— 創(chuàng)建這樣一個數(shù)據(jù)集非常費力。在這個監(jiān)督式微調階段之后,還有另一個微調階段,該階段通常被稱為「對齊」步驟,其主要目標是將 LLM 與人類偏好對齊。這就是 RLHF 的用武之地。
但是,有很多研究關注的重點是開發(fā)更高效的替代技術。其中最有趣的方法總結如下。論文 1:《Constitutional AI: Harmlessness from AI Feedback》
論文地址:https://arxiv.org/abs/2212.08073在這篇 Constitutional AI 論文中,作者提出了一種自訓練機制,其基于人類提供的規(guī)則列表。類似于之前提到的 InstructGPT 論文,這里提出的方法也使用了一種強化學習。
來自 Constitutional AI 論文上圖中的「red teaming(紅隊)」這一術語指的是一種源于冷戰(zhàn)軍事演習的測試方法,原本是指扮演蘇聯(lián)角色的演習隊伍,用于測試美國的戰(zhàn)略和防御能力。在 AI 研究的網絡安全語境中,紅隊現(xiàn)在描述的是這樣一個過程:外部或內部的專家模仿潛在的對手,通過模仿真實世界攻擊者的戰(zhàn)術、技術和工作流程來挑戰(zhàn)、測試并最終提升給定的相關系統(tǒng)。論文 2:《The Wisdom of Hindsight Makes Language Models Better Instruction Followers》
來自上述論文的方法及實驗結果比較注意這項研究不能直接與 InstructGPT 中的 RLHF 工作進行比較,因為它似乎使用啟發(fā)式方法(「但是,由于大多數(shù)人類反饋數(shù)據(jù)都難以收集,所以我們采用了一個腳本化的反饋函數(shù)……」)不過 HIR 的事后高見方法的結果依然非常引人注目。論文 3:《Direct Preference Optimization:Your Language Model is Secretly a Reward Model》