精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
DeepSeek

近年來,人工智能(AI)領域發展迅猛,大語言模型(LLMs)為通用人工智能(AGI)的發展開辟了道路。OpenAI 的 o1 模型表現非凡,它引入的創新性推理時縮放技術顯著提升了推理能力,不過該模型是閉源的。

DeepSeek-R1 paper title (論文下載鏈接見文末)

今天,我們深入探討由 DeepSeek 發布的突破性研究論文,該論文介紹了 DeepSeek-R1。這篇題為《DeepSeek-R1:通過強化學習激發大語言模型的推理能力》的論文,展示了一種前沿的開源推理模型,以及使用大規模強化學習技術訓練此類模型的詳細方法。

回顧:大語言模型訓練過程

在深入探討這篇論文之前,讓我們簡要回顧一下大語言模型的訓練過程。通常,大語言模型要經過三個主要訓練階段:

  • 預訓練:在這個階段,大語言模型在大量文本和代碼上進行預訓練,以學習通用知識。這一步有助于模型熟練預測序列中的下一個標記。例如,給定 “write a bedtime _” 這樣的輸入,模型可以用 “story” 等合理的詞補全。然而,預訓練后,模型在遵循人類指令方面仍存在困難,下一階段將解決這個問題。
  • 監督微調:在這個階段,模型在指令數據集上進行微調。數據集中的每個樣本都有一個指令 - 響應配對組成,其中響應作為標簽。經過這個階段,模型在遵循指令方面會表現得更好。
  • 強化學習:大語言模型利用反饋進一步優化。一種有效的方法是人類反饋強化學習(RLHF),即根據人類反饋訓練模型。但收集大規模、高質量的人類反饋,尤其是針對復雜任務,頗具挑戰。因此,另一種常用方法是人工智能反饋強化學習(RLAIF),由人工智能模型提供反饋。要使 RLAIF 有效工作,需要一個能力強大的模型來提供準確反饋。

引入 DeepSeek-R1-Zero 模型

Training DeepSeek-R1-Zero using only RL in post-training, without SFT

本文所探討的研究省略或部分省略了監督微調階段。具體來說,為了訓練論文中提出的首個模型 DeepSeek-R1-Zero,我們從一個名為 DeepSeek-V3-Base 的預訓練模型開始,它有 6710 億個參數。監督微調階段被完全省略。為了大規模進行強化學習,研究采用了一種基于規則的強化學習方法,而非標準的依靠人類或人工智能反饋的強化學習方式。

基于規則的強化學習

GRPO samples multiple outputs for a given output, and instructs the model to prefer the best one, using reward

所使用的強化學習方法稱為組相對策略優化(GRPO),由 DeepSeek 內部開發。

給定一個待訓練的模型和一個輸入問題,將輸入送入模型,會采樣得到一組輸出。每個輸出都包含推理過程和答案。GRPO 方法觀察這些采樣輸出,并通過使用預定義規則為每個輸出計算獎勵,來訓練模型生成更優的選項:

  • 準確性:一組規則用于計算準確性獎勵。例如,對于有確定答案的數學問題,我們可以確切檢查模型給出的最終答案是否正確。對于有預定義測試用例的代碼問題,編譯器會根據測試用例生成反饋。
  • 格式:另一類規則用于創建格式獎勵。在論文中的下圖里,我們可以看到模型被要求如何響應,其推理過程在<think>標簽內,答案在<answer>標簽內。格式獎勵確保模型遵循這種格式。

The model is instructed to adhere to a certain format, generating its reasoning process within think tags

這種基于規則的機制不使用神經模型生成獎勵,簡化并降低了訓練過程的成本,使其大規模應用成為可能。此外,研究人員發現獎勵模型可能會受到獎勵作弊問題的影響,即模型找到一種漏洞或意外方式來最大化獎勵,但這與預期目標并不相符。

DeepSeek-R1-Zero 性能洞察

現在,讓我們來探究一下 DeepSeek-R1-Zero 模型的一些性能表現。

DeepSeek-R1-Zero performance comparison with OpenAI o1

在論文中的上表里,我們看到了 DeepSeek-R1-Zero 與 OpenAI 的 o1 在推理相關基準測試中的比較。令人印象深刻的是,DeepSeek-R1-Zero 與 o1 相當,在某些情況下甚至超越了它。論文中下面這張有趣的圖展示了在 AIME 數據集上訓練期間的改進過程。值得注意的是,AIME 上的平均一次通過率大幅提升,從最初的 15.6% 躍升至令人驚嘆的 71.0%,達到了與 OpenAI 的 o1 相當的水平!

DeepSeek-R1-Zero 的自我進化過程

Self-Evolution Process of DeepSeek-R1-Zero

論文的一個關鍵發現是模型的自我進化過程,如上圖所示。x 軸表示訓練步數,y 軸表明隨著訓練的進行,模型的響應長度增加。通過強化學習,模型在解決推理任務時自然學會分配更多思考時間。令人驚奇的是,這一過程無需任何外部調整。

“頓悟時刻” 現象—— Aha Moment

如果上述內容還不夠令人稱奇,論文中還提到了 DeepSeek-R1-Zero 的另一個有趣現象 ——“頓悟時刻”。論文中的以下示例展示了這一現象。給定一道數學題,模型開始推理過程。然而,在某個時刻,模型開始重新評估其解決方案。模型學會重新評估其初始方法,并在必要時進行自我糾正。這種非凡的能力在強化學習訓練過程中自然顯現。

The aha moment where the models learn to reevaluate its reasoning

DeepSeek-R1 模型的訓練過程

現在,我們來討論第二個模型 DeepSeek-R1 的訓練過程。但首先,既然我們剛剛看到了 DeepSeek-R1-Zero 卓越的能力,為什么還需要第二個模型呢?

為什么需要 DeepSeek-R1?

主要有兩個原因:

  • 可讀性問題:DeepSeek-R1-Zero 的輸出往往可讀性較差。
  • 語言一致性問題:它經常在單個回答中混合多種語言。

上述問題使得 DeepSeek-R1-Zero 的用戶體驗欠佳。有趣的是,一項消融研究表明,引導模型使用單一語言會略微損害其性能。與通常使用單一語言的人類不同,該模型通過使用多種語言能更好地表達自己,這一點令人著迷。

DeepSeek-R1 的訓練流程

為了解決這些問題,DeepSeek-R1 采用四階段流程進行訓練:

  • 冷啟動(階段 1):從預訓練模型 DeepSeek-V3-Base 開始,模型在從 DeepSeek-R1-Zero 收集的少量結果數據集上進行監督微調。這些結果經過驗證,質量高且可讀性強。這個數據集包含數千個樣本,規模相對較小。在這個小規模高質量數據集上進行監督微調,有助于 DeepSeek-R1 緩解初始模型中存在的可讀性問題。
  • 推理強化學習(階段 2):這個階段應用與前一個模型相同的大規模強化學習方法,以提升模型的推理能力。具體來說,在編程、數學、科學和邏輯推理等任務中,這些任務有明確的解決方案,可為強化學習過程定義獎勵規則。
  • 拒絕采樣和監督微調(階段 3):在這個階段,使用階段 2 的模型檢查點生成大量樣本。通過拒絕采樣,只保留正確且可讀的樣本。此外,使用生成式獎勵模型 DeepSeek-V3 來決定保留哪些樣本。這個階段還包含了部分 DeepSeek-V3 的訓練數據。然后,模型在這個數據集上進行監督微調。這個數據集不僅包含推理相關的問題,還提升了模型在更多領域的能力。
  • 多樣化強化學習階段(階段 4):這是最后一個階段,包含多樣化的任務。對于像數學這樣適用的任務,使用基于規則的獎勵。對于其他任務,由大語言模型提供反饋,使模型符合人類偏好。

此外,利用階段 3 構建的數據集對各種較小的開源模型進行了提煉,提供了具有高推理能力的較小規模替代模型。

DeepSeek-R1 的顯著成果

在本文結尾,我們著重介紹一下免費可用的 DeepSeek-R1 與 OpenAI 的 o1 模型相比取得的顯著成果。論文中的上圖顯示,DeepSeek-R1 不僅與 o1 相當,在某些基準測試中還超越了它。

此外,經過提煉的 320 億參數模型也展現出了令人矚目的性能,使其成為具有高推理能力的可行較小規模替代模型。

參考文獻和鏈接

本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
DeepSeekR1創新點解讀(附概念股)
全球掀DeepSeek復現狂潮!硅谷巨頭神話崩塌,30刀見證啊哈時刻
談談對DeepSeek-R1的一些理解
中國的OpenAI有了,可能還不止一個!Kimi、DeepSeek新模型如何媲美o1?
華人博士萬字長文深度解析ChatGPT各項能力的起源
需要多少GPU顯存才能運行預訓練大語言模型?LLM顯存估算方法~
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 西林县| 德令哈市| 莱州市| 兰西县| 宁安市| 西乌| 东方市| 松原市| 大余县| 青阳县| 西和县| 盘山县| 江油市| 白河县| 浦东新区| 蓬溪县| 都匀市| 读书| 南平市| 北碚区| 竹北市| 阜新市| 自治县| 囊谦县| 乐都县| 民勤县| 怀安县| 庄河市| 顺昌县| 句容市| 开封县| 海阳市| 永城市| 西华县| 平顶山市| 涪陵区| 卢氏县| 洪江市| 石渠县| 峨眉山市| 灵台县|