近年來,人工智能(AI)領域發展迅猛,大語言模型(LLMs)為通用人工智能(AGI)的發展開辟了道路。OpenAI 的 o1 模型表現非凡,它引入的創新性推理時縮放技術顯著提升了推理能力,不過該模型是閉源的。
DeepSeek-R1 paper title (論文下載鏈接見文末)
今天,我們深入探討由 DeepSeek 發布的突破性研究論文,該論文介紹了 DeepSeek-R1。這篇題為《DeepSeek-R1:通過強化學習激發大語言模型的推理能力》的論文,展示了一種前沿的開源推理模型,以及使用大規模強化學習技術訓練此類模型的詳細方法。
在深入探討這篇論文之前,讓我們簡要回顧一下大語言模型的訓練過程。通常,大語言模型要經過三個主要訓練階段:
Training DeepSeek-R1-Zero using only RL in post-training, without SFT
本文所探討的研究省略或部分省略了監督微調階段。具體來說,為了訓練論文中提出的首個模型 DeepSeek-R1-Zero,我們從一個名為 DeepSeek-V3-Base 的預訓練模型開始,它有 6710 億個參數。監督微調階段被完全省略。為了大規模進行強化學習,研究采用了一種基于規則的強化學習方法,而非標準的依靠人類或人工智能反饋的強化學習方式。
GRPO samples multiple outputs for a given output, and instructs the model to prefer the best one, using reward
所使用的強化學習方法稱為組相對策略優化(GRPO),由 DeepSeek 內部開發。
給定一個待訓練的模型和一個輸入問題,將輸入送入模型,會采樣得到一組輸出。每個輸出都包含推理過程和答案。GRPO 方法觀察這些采樣輸出,并通過使用預定義規則為每個輸出計算獎勵,來訓練模型生成更優的選項:
The model is instructed to adhere to a certain format, generating its reasoning process within think tags
這種基于規則的機制不使用神經模型生成獎勵,簡化并降低了訓練過程的成本,使其大規模應用成為可能。此外,研究人員發現獎勵模型可能會受到獎勵作弊問題的影響,即模型找到一種漏洞或意外方式來最大化獎勵,但這與預期目標并不相符。
現在,讓我們來探究一下 DeepSeek-R1-Zero 模型的一些性能表現。
DeepSeek-R1-Zero performance comparison with OpenAI o1
在論文中的上表里,我們看到了 DeepSeek-R1-Zero 與 OpenAI 的 o1 在推理相關基準測試中的比較。令人印象深刻的是,DeepSeek-R1-Zero 與 o1 相當,在某些情況下甚至超越了它。論文中下面這張有趣的圖展示了在 AIME 數據集上訓練期間的改進過程。值得注意的是,AIME 上的平均一次通過率大幅提升,從最初的 15.6% 躍升至令人驚嘆的 71.0%,達到了與 OpenAI 的 o1 相當的水平!
Self-Evolution Process of DeepSeek-R1-Zero
論文的一個關鍵發現是模型的自我進化過程,如上圖所示。x 軸表示訓練步數,y 軸表明隨著訓練的進行,模型的響應長度增加。通過強化學習,模型在解決推理任務時自然學會分配更多思考時間。令人驚奇的是,這一過程無需任何外部調整。
如果上述內容還不夠令人稱奇,論文中還提到了 DeepSeek-R1-Zero 的另一個有趣現象 ——“頓悟時刻”。論文中的以下示例展示了這一現象。給定一道數學題,模型開始推理過程。然而,在某個時刻,模型開始重新評估其解決方案。模型學會重新評估其初始方法,并在必要時進行自我糾正。這種非凡的能力在強化學習訓練過程中自然顯現。
The aha moment where the models learn to reevaluate its reasoning
現在,我們來討論第二個模型 DeepSeek-R1 的訓練過程。但首先,既然我們剛剛看到了 DeepSeek-R1-Zero 卓越的能力,為什么還需要第二個模型呢?
主要有兩個原因:
上述問題使得 DeepSeek-R1-Zero 的用戶體驗欠佳。有趣的是,一項消融研究表明,引導模型使用單一語言會略微損害其性能。與通常使用單一語言的人類不同,該模型通過使用多種語言能更好地表達自己,這一點令人著迷。
為了解決這些問題,DeepSeek-R1 采用四階段流程進行訓練:
此外,利用階段 3 構建的數據集對各種較小的開源模型進行了提煉,提供了具有高推理能力的較小規模替代模型。
在本文結尾,我們著重介紹一下免費可用的 DeepSeek-R1 與 OpenAI 的 o1 模型相比取得的顯著成果。論文中的上圖顯示,DeepSeek-R1 不僅與 o1 相當,在某些基準測試中還超越了它。
此外,經過提煉的 320 億參數模型也展現出了令人矚目的性能,使其成為具有高推理能力的可行較小規模替代模型。