作者:Mike Knoop
機(jī)器之心編譯
R1-Zero 等模型正在打破人類(lèi)數(shù)據(jù)瓶頸,開(kāi)啟 AI 自我進(jìn)化新范式?
通過(guò)投入更多計(jì)算資源,AI 系統(tǒng)的準(zhǔn)確性和可靠性可以顯著提升,這將增強(qiáng)用戶對(duì) AI 的信任,推動(dòng)商業(yè)化應(yīng)用。
推理過(guò)程正在生成大量高質(zhì)量的訓(xùn)練數(shù)據(jù),且這些數(shù)據(jù)由用戶付費(fèi)產(chǎn)生,這種「推理即訓(xùn)練」的新范式可能徹底改變 AI 數(shù)據(jù)經(jīng)濟(jì)的運(yùn)作方式,形成自我強(qiáng)化的循環(huán)。
為問(wèn)題域生成思維鏈(CoT)。
使用人類(lèi)專(zhuān)家(「監(jiān)督微調(diào)」或 SFT)和自動(dòng)化機(jī)器(強(qiáng)化學(xué)習(xí)(RL))的組合來(lái)標(biāo)注中間 CoT 步驟。
使用(2)得到的數(shù)據(jù)訓(xùn)練基礎(chǔ)模型。
在測(cè)試時(shí),從過(guò)程模型中進(jìn)行迭代推理。
在 CoT 過(guò)程模型訓(xùn)練中添加人類(lèi)標(biāo)簽(即 SFT);
使用 CoT 搜索而不是線性推理(并行逐步 CoT 推理);
整體 CoT 采樣(并行軌跡推理)。
在那些能夠清晰判斷對(duì)錯(cuò)的領(lǐng)域中 ,SFT(如人類(lèi)專(zhuān)家標(biāo)注)對(duì)于準(zhǔn)確和易讀的 CoT 推理并非必需。
R1-Zero 訓(xùn)練過(guò)程能夠通過(guò) RL 優(yōu)化在 token 空間中創(chuàng)建自己的內(nèi)部領(lǐng)域特定語(yǔ)言(DSL)。
SFT 是提高 CoT 推理領(lǐng)域泛化性的必要條件。
現(xiàn)在可以花更多錢(qián)來(lái)獲得更高的準(zhǔn)確性和可靠性;
訓(xùn)練成本正在轉(zhuǎn)向推理成本。
聯(lián)系客服