精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
為什么說(shuō)DeepSeek的R1-Zero比R1更值得關(guān)注?
選自ARC Prize博客

作者:Mike Knoop

機(jī)器之心編譯

R1-Zero 等模型正在打破人類(lèi)數(shù)據(jù)瓶頸,開(kāi)啟 AI 自我進(jìn)化新范式?
「比起 R1,DeepSeek 同一時(shí)間發(fā)布的 R1-Zero 更值得關(guān)注。」這是 ARC Prize 聯(lián)合創(chuàng)始人 Mike Knoop 在一篇新博客中發(fā)表的觀點(diǎn)。


他認(rèn)為,R1-Zero 之所以比 R1 更值得分析,是因?yàn)樗耆蕾?lài)強(qiáng)化學(xué)習(xí)(RL),而不使用人類(lèi)專(zhuān)家標(biāo)注的監(jiān)督微調(diào)(SFT),這表明在某些任務(wù)中,人類(lèi)標(biāo)注并非必要,且未來(lái)可能通過(guò)純 RL 方法實(shí)現(xiàn)更廣泛的推理能力。

此外,R1 和 R1-Zero 的成功還能讓我們讀出一些信息,比如:

  • 通過(guò)投入更多計(jì)算資源,AI 系統(tǒng)的準(zhǔn)確性和可靠性可以顯著提升,這將增強(qiáng)用戶對(duì) AI 的信任,推動(dòng)商業(yè)化應(yīng)用。

  • 推理過(guò)程正在生成大量高質(zhì)量的訓(xùn)練數(shù)據(jù),且這些數(shù)據(jù)由用戶付費(fèi)產(chǎn)生,這種「推理即訓(xùn)練」的新范式可能徹底改變 AI 數(shù)據(jù)經(jīng)濟(jì)的運(yùn)作方式,形成自我強(qiáng)化的循環(huán)。


以下是博客內(nèi)容:  

R1-Zero 比 R1 更值得分析

上周,DeepSeek 發(fā)布了他們新的「推理」系統(tǒng) R1-Zero 和 R1,兩個(gè)模型在 ARC-AGI-1 上的得分與 OpenAI 的 o1 系統(tǒng)低計(jì)算量版本相當(dāng)。R1-Zero、R1 和 o1(低計(jì)算量模式)的得分都在 15-20% 左右。相比之下,純 LLM scaling 多年積累的頂點(diǎn) GPT-4o 僅為 5%。根據(jù)本周美國(guó)市場(chǎng)反應(yīng),公眾也開(kāi)始理解純 LLM scaling 的局限性。然而,對(duì)即將到來(lái)的推理需求,公眾仍普遍認(rèn)識(shí)不足。

2024 年 12 月,OpenAI 宣布了一個(gè)經(jīng)過(guò)驗(yàn)證的新突破性系統(tǒng) o3。該系統(tǒng)在低計(jì)算量模式下得分為 76%,在高計(jì)算量模式下得分為 88%。o3 系統(tǒng)展示了計(jì)算機(jī)適應(yīng)新穎未見(jiàn)問(wèn)題的首個(gè)實(shí)用、通用實(shí)現(xiàn)(參見(jiàn)《剛剛,OpenAI 放出最后大驚喜 o3,高計(jì)算模式每任務(wù)花費(fèi)數(shù)千美元》)。


盡管 o3 在 ARC-AGI-1 上取得勝利是重大科技新聞,但主流媒體幾乎未予報(bào)道。

這是 AI 領(lǐng)域和計(jì)算機(jī)科學(xué)的一個(gè)極其重要的時(shí)刻,這些系統(tǒng)值得研究。但由于 o1/o3 的封閉性質(zhì),只能依靠推測(cè)。得益于 ARC-AGI-1 和現(xiàn)在(幾乎)開(kāi)源的 R1-Zero 和 R1,我們可以增進(jìn)對(duì)此的理解(說(shuō)「幾乎」是因?yàn)?DeepSeek 沒(méi)有發(fā)布一個(gè)可復(fù)現(xiàn)的方式來(lái)從頭開(kāi)始生成他們的模型權(quán)重)。特別是,R1-Zero 比 R1 重要得多。

在對(duì) o1 和 o3 的分析中,ARC Prize 團(tuán)隊(duì)針對(duì)這些推理系統(tǒng)的工作原理進(jìn)行了推測(cè)。他們認(rèn)為,這些模型的關(guān)鍵思路可能是:

  1. 為問(wèn)題域生成思維鏈(CoT)。

  2. 使用人類(lèi)專(zhuān)家(「監(jiān)督微調(diào)」或 SFT)和自動(dòng)化機(jī)器(強(qiáng)化學(xué)習(xí)(RL))的組合來(lái)標(biāo)注中間 CoT 步驟。

  3. 使用(2)得到的數(shù)據(jù)訓(xùn)練基礎(chǔ)模型。

  4. 在測(cè)試時(shí),從過(guò)程模型中進(jìn)行迭代推理。


下圖回顧了各模型迭代采樣所使用的技術(shù)及其在 ARC-AGI-1 上的得分:

圖上顯示的是 ARC-AGI-1 半私有分?jǐn)?shù)。

有了 DeepSeek 新發(fā)表的研究,ARC Prize 團(tuán)隊(duì)可以更好地為自己的猜測(cè)提供信息。這里的關(guān)鍵見(jiàn)解是,LLM 推理系統(tǒng)實(shí)現(xiàn)更高程度地適應(yīng)新任務(wù)的能力(和可靠性)是通過(guò)三個(gè)維度實(shí)現(xiàn)的:

  1. 在 CoT 過(guò)程模型訓(xùn)練中添加人類(lèi)標(biāo)簽(即 SFT);

  2. 使用 CoT 搜索而不是線性推理(并行逐步 CoT 推理);

  3. 整體 CoT 采樣(并行軌跡推理)。


維度 1 受限于人類(lèi)數(shù)據(jù)生成,并限制了這些推理系統(tǒng)在哪些領(lǐng)域收益最大。例如,o1 在 MMLU 專(zhuān)業(yè)法律類(lèi)別上的表現(xiàn)出人意料地比數(shù)學(xué)和邏輯要低得多。

維度 2、3 受限于效率。o1 和 o3 在測(cè)試時(shí)都顯示了隨著推理計(jì)算量的增加,在 ARC-AGI-1 上的基準(zhǔn)準(zhǔn)確率呈對(duì)數(shù)增長(zhǎng),而不同的計(jì)算資源分配策略會(huì)影響達(dá)到同樣性能水平所需要的具體計(jì)算量。

在該團(tuán)隊(duì)看來(lái),DeepSeek 最有趣的做法是單獨(dú)發(fā)布 R1-Zero。R1-Zero 是一個(gè)不使用 SFT(維度 1)的模型,而是完全依賴(lài)于強(qiáng)化學(xué)習(xí)。

R1-Zero 和 R1 在 ARC-AGI-1 上的得分高度一致,分別為 14% 和 15.8%。DeepSeek 自己報(bào)告的基準(zhǔn)測(cè)試分?jǐn)?shù)也顯示 R1-Zero 和 R1 高度一致,例如在 MATH AIME 2024 上的得分分別為 71% 和 76%(相比基礎(chǔ) DeepSeek V3 的約 40% 有所提升)。

在論文中,R1-Zero 的作者提到「DeepSeek-R1-Zero 面臨可讀性差、語(yǔ)言混雜等挑戰(zhàn)」,這一點(diǎn)已在網(wǎng)上得到證實(shí)。然而在測(cè)試中,ARC Prize 團(tuán)隊(duì)在測(cè)試 R1-Zero 在 ARC-AGI-1 上的表現(xiàn)時(shí)幾乎沒(méi)有發(fā)現(xiàn)不連貫的證據(jù),這與系統(tǒng)經(jīng)過(guò) RL 訓(xùn)練的數(shù)學(xué)和代碼領(lǐng)域相似。

綜合這些發(fā)現(xiàn),ARC Prize 團(tuán)隊(duì)得出結(jié)論:

  • 在那些能夠清晰判斷對(duì)錯(cuò)的領(lǐng)域中 ,SFT(如人類(lèi)專(zhuān)家標(biāo)注)對(duì)于準(zhǔn)確和易讀的 CoT 推理并非必需。

  • R1-Zero 訓(xùn)練過(guò)程能夠通過(guò) RL 優(yōu)化在 token 空間中創(chuàng)建自己的內(nèi)部領(lǐng)域特定語(yǔ)言(DSL)。

  • SFT 是提高 CoT 推理領(lǐng)域泛化性的必要條件。


這很符合直覺(jué),因?yàn)檎Z(yǔ)言本身實(shí)際上就是一個(gè)推理 DSL。完全相同的「詞語(yǔ)」可以在一個(gè)領(lǐng)域中學(xué)習(xí)并應(yīng)用到另一個(gè)領(lǐng)域,就像程序一樣。純 RL 方法還不能發(fā)現(xiàn)廣泛共享的詞匯表,預(yù)計(jì)這將成為未來(lái)研究的重點(diǎn)。

最終,R1-Zero 展示了一個(gè)潛在 scaling 機(jī)制的原型,該機(jī)制完全沒(méi)有人類(lèi)瓶頸 —— 甚至在訓(xùn)練數(shù)據(jù)獲取本身也是如此。

幾乎可以肯定的是,DeepSeek 已將目標(biāo)對(duì)準(zhǔn)了 OpenAI 的 o3 系統(tǒng)。重要的是要關(guān)注 SFT 是否最終會(huì)成為添加 CoT 搜索和采樣的必要條件,或者假設(shè)的「R2-Zero」是否可能沿著相同的對(duì)數(shù)準(zhǔn)確率與推理 scaling 曲線存在。基于 R1-Zero 的結(jié)果,ARC Prize 團(tuán)隊(duì)認(rèn)為在這個(gè)假設(shè)的 scaled up 版本中,要在 ARC-AGI-1 上挑戰(zhàn)成功并不需要 SFT。

燒錢(qián)換信任:AI 可靠性被標(biāo)價(jià)

從經(jīng)濟(jì)角度來(lái)看,AI 領(lǐng)域正在發(fā)生兩個(gè)重大轉(zhuǎn)變:

  • 現(xiàn)在可以花更多錢(qián)來(lái)獲得更高的準(zhǔn)確性和可靠性;

  • 訓(xùn)練成本正在轉(zhuǎn)向推理成本。


這兩者都將推動(dòng)對(duì)推理的大量需求,而且都不會(huì)抑制對(duì)更多計(jì)算能力的需求。實(shí)際上,它們將增加對(duì)計(jì)算能力的需求。

AI 推理系統(tǒng)帶來(lái)的價(jià)值遠(yuǎn)不止提高基準(zhǔn)測(cè)試的分?jǐn)?shù)那么簡(jiǎn)單。阻礙更多 AI 自動(dòng)化使用(例如推理需求)的首要問(wèn)題是可靠性。ARC Prize 團(tuán)隊(duì)與數(shù)百位試圖在業(yè)務(wù)中部署 AI 智能體的 Zapier 客戶交談,反饋高度一致:「我還不信任它們,因?yàn)樗鼈児ぷ鞑豢煽俊埂?/span>

此前 ARC Prize 團(tuán)隊(duì)認(rèn)為,模型在 ARC-AGI 方面的進(jìn)展將提高可靠性。LLM 智能體的挑戰(zhàn)在于它們需要強(qiáng)大的本地領(lǐng)域引導(dǎo)才能可靠工作。更強(qiáng)的泛化能力需要適應(yīng)未見(jiàn)情況的能力。現(xiàn)在有證據(jù)表明 ARC Prize 團(tuán)隊(duì)的觀點(diǎn)是正確的。因此,多家公司(Anthropic、OpenAI、Apple 等)現(xiàn)在推出智能體也就不足為奇了。


出于可靠性需求,智能體將推動(dòng)近期推理需求的顯著增長(zhǎng)。更廣泛地說(shuō),開(kāi)發(fā)者可以選擇花費(fèi)更多計(jì)算來(lái)增加用戶對(duì)系統(tǒng)的信任。提高可靠性并不代表能做到百分百正確,但至少能保證即使犯錯(cuò),也是以一種可預(yù)期的方式犯錯(cuò)。這沒(méi)有問(wèn)題,因?yàn)楫?dāng)準(zhǔn)確率低時(shí),用戶和開(kāi)發(fā)者現(xiàn)在可以通過(guò)提示更自信地引導(dǎo)行為。

以前計(jì)算機(jī)無(wú)法解決的問(wèn)題現(xiàn)在都有了對(duì)應(yīng)的價(jià)格標(biāo)簽。隨著效率的提高,這些價(jià)格會(huì)降低。

推理即訓(xùn)練:推理將成 AI 模型的「數(shù)據(jù)永動(dòng)機(jī)」?  

另一個(gè)正在發(fā)生的重大轉(zhuǎn)變是進(jìn)入 LLM 系統(tǒng)預(yù)訓(xùn)練的數(shù)據(jù)來(lái)源。此前,大多數(shù)數(shù)據(jù)要么是購(gòu)買(mǎi)的,要么是抓取的,要么是從現(xiàn)有 LLM 合成生成的(例如蒸餾或增強(qiáng))。

這些推理系統(tǒng)提供了一個(gè)新選擇,即生成「真實(shí)」數(shù)據(jù)而不是「合成」數(shù)據(jù)。AI 行業(yè)使用「合成」一詞來(lái)指代通常通過(guò) LLM 循環(huán)來(lái)增加整體訓(xùn)練數(shù)據(jù)量的低質(zhì)量數(shù)據(jù),但收益遞減。

 但現(xiàn)在,通過(guò)推理系統(tǒng)和驗(yàn)證器,我們可以創(chuàng)造全新的、有價(jià)值的訓(xùn)練數(shù)據(jù)。這種數(shù)據(jù)的產(chǎn)生有兩種方式:要么是開(kāi)發(fā)者提前付費(fèi)生成,要么是在用戶實(shí)際使用系統(tǒng)時(shí)由用戶付費(fèi)生成! 

這是一個(gè)引人深思的經(jīng)濟(jì)模式轉(zhuǎn)變,暗示著擁有最多付費(fèi)用戶的 AI 系統(tǒng)開(kāi)發(fā)商可能會(huì)擁有一個(gè)實(shí)力快速積累的關(guān)鍵時(shí)刻。這些付費(fèi)用戶實(shí)際上在為創(chuàng)造新的高質(zhì)量數(shù)據(jù)買(mǎi)單..…… 這些數(shù)據(jù)又會(huì)讓模型變得更好..…… 更好的模型會(huì)吸引更多用戶青睞..…… 如此形成良性循環(huán)。 

如果能夠突破人類(lèi)專(zhuān)家 CoT 障礙,創(chuàng)建一個(gè)極其高效的系統(tǒng),通過(guò)搜索 / 合成和驗(yàn)證來(lái)創(chuàng)建新數(shù)據(jù),那么應(yīng)該預(yù)期會(huì)有大量計(jì)算投入這些推理系統(tǒng),因?yàn)樗鼈儗?shí)際上只需要輸入資金和原始數(shù)據(jù)就能變得更好。最終,這種類(lèi)型的 AI 訓(xùn)練將完全超越在人類(lèi)生成數(shù)據(jù)上進(jìn)行的預(yù)訓(xùn)練。

結(jié)論:DeepSeek 推動(dòng)了科學(xué)的前沿

隨著推理需求增加變得明顯,市場(chǎng)調(diào)整將繼續(xù)發(fā)生。AI 系統(tǒng)效率只會(huì)推動(dòng)更多使用,這不僅是由于杰文斯悖論,還因?yàn)樾侍岣邥r(shí)新的訓(xùn)練機(jī)制被解鎖(注:杰文斯悖論指的是:當(dāng)技術(shù)進(jìn)步提高了資源使用效率時(shí),反而可能導(dǎo)致該資源的總消耗量增加,而不是減少)。

隨著 R1 的開(kāi)源和可復(fù)現(xiàn),更多人和團(tuán)隊(duì)將把 CoT 和搜索推向極限。這將更快地告訴我們前沿實(shí)際在哪里,并將推動(dòng)一波創(chuàng)新浪潮,增加快速實(shí)現(xiàn) AGI 的機(jī)會(huì)。

已經(jīng)有多人告訴 ARC Prize 團(tuán)隊(duì),他們計(jì)劃在 ARC Prize 2025 中使用 R1 風(fēng)格的系統(tǒng)。

R1 的開(kāi)源對(duì)世界來(lái)說(shuō)是一件好事。DeepSeek 推動(dòng)了科學(xué)的前沿。

原文鏈接:https://arcprize.org/blog/r1-zero-r1-results-analysis
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
談?wù)剬?duì)DeepSeek-R1的一些理解
我們舉辦了一場(chǎng)推理模型“年終考試”,最終奪冠的居然是
考研數(shù)學(xué)得126分、還能編寫(xiě)小游戲,智譜首個(gè)推理模型來(lái)了,人人免費(fèi)用
DeepSeekR1創(chuàng)新點(diǎn)解讀(附概念股)
一文讀懂 DeepSeek R1:強(qiáng)化學(xué)習(xí)如何重塑大語(yǔ)言模型推理能力? ? Tech Explorer ??
DeepSeek獨(dú)立發(fā)現(xiàn)o1核心思路,OpenAI首席研究官親自證實(shí)!奧特曼被迫發(fā)聲
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 繁峙县| 巴青县| 定结县| 平阴县| 新邵县| 从江县| 绍兴县| 平凉市| 资源县| 阳曲县| 云阳县| 韶山市| 麻阳| 遂宁市| 河北省| 丹巴县| 固安县| 永康市| 周宁县| 十堰市| 宁强县| 天津市| 密山市| 逊克县| 黄骅市| 新安县| 邵阳县| 芜湖县| 栖霞市| 涡阳县| 广德县| 琼中| 保德县| 姚安县| 凤庆县| 聂拉木县| 珠海市| 临武县| 托克托县| 和静县| 当雄县|