北京時間2024年9月13日凌晨,OpenAI正式發(fā)布了新的人工智能模型o1(o是orion獵戶座,1代表從頭再來,也意味著后續(xù)將出現(xiàn)更多序列),就是此前OpenAI一直在高調(diào)宣傳的草莓大模型。OpenAI沒有延續(xù)使用GPT序列,可見其與傳統(tǒng)預(yù)訓(xùn)練模型有新的變革性訓(xùn)練方法和功能,o1具備復(fù)雜推理能力,解決比目前專業(yè)的科學(xué)、代碼和數(shù)學(xué)模型所能解決的更難的問題。值得注意的是,相比GPT-4o等其他大模型,o1推理時間較長、使用成本更高,在不需要復(fù)雜推理的場景并沒有明顯優(yōu)勢,也意味著o1并非GPT-4o的替代品,兩者將并存,未來不排除實(shí)現(xiàn)融合。
基本原理:自我對弈強(qiáng)化學(xué)習(xí)+思維鏈+推理標(biāo)記+定制數(shù)據(jù)集
一是采用大規(guī)模自我對弈強(qiáng)化學(xué)習(xí)(Self-play RL),設(shè)置獎懲機(jī)制,讓模型自行學(xué)習(xí)解決問題。這種方法類似于人類通過不斷嘗試和糾錯來掌握新技能。二是內(nèi)置思維鏈(CoT),能夠在解決問題前通過內(nèi)置思維鏈進(jìn)行推導(dǎo),并將其推理過程外化,使得模型的決策過程更為透明,便于理解和驗(yàn)證。三是引入推理標(biāo)記,用于輔助模型在對話環(huán)境中進(jìn)行深層思考。四是使用專門的訓(xùn)練數(shù)據(jù)集,包含了大量復(fù)雜問題和對應(yīng)的解題步驟,有助于模型掌握推理能力。
能力突破:復(fù)雜推理能力超強(qiáng),數(shù)學(xué)、編碼和科學(xué)尤為出色
o1在一系列超過一般人能力的需要復(fù)雜推理的高難基準(zhǔn)測試中展現(xiàn)出了超強(qiáng)實(shí)力,相比 GPT-4o 有巨大提升。一是數(shù)學(xué)和編碼能力超強(qiáng),在國際數(shù)學(xué)奧林匹克競賽(IMO)中,o1解答正確率高達(dá)83%,顯著優(yōu)于GPT-4o的13%。在知名的在線編程比賽Codeforces中,o1拿到89%的百分位,GPT-4o僅為11%。二是在科學(xué)領(lǐng)域應(yīng)用方面,OpenAI聲稱o1的未來版本將在物理、化學(xué)和生物學(xué)等學(xué)科的高難度基準(zhǔn)任務(wù)上超越人類專家的表現(xiàn)。三是安全性顯著提升,在最難的越獄測試中o1預(yù)覽版得84分,遠(yuǎn)超GPT-4o的22分。
圖片來源:OpenAI
潛在應(yīng)用場景:專業(yè)化研究領(lǐng)域,替代更多腦力勞動成為可能
o1的推出預(yù)示著AI將在多個專業(yè)化領(lǐng)域展現(xiàn)出新的更優(yōu)秀的應(yīng)用潛力,例如科學(xué)研究、軟件編程、教育等目前已有大模型只是起到初步輔助作用的領(lǐng)域。在科研領(lǐng)域,它可以幫助研究人員進(jìn)行數(shù)據(jù)分析和模型構(gòu)建,如o1可以被醫(yī)療保健研究人員用來注釋細(xì)胞測序數(shù)據(jù),被物理學(xué)家用來生成量子光學(xué)所需的復(fù)雜數(shù)學(xué)公式。在軟件開發(fā)中,可以用來構(gòu)建和執(zhí)行多步驟工作流程,在編程中提供代碼生成、調(diào)試和優(yōu)化等幫助。在教育領(lǐng)域,可以幫助學(xué)生解決復(fù)雜的邏輯、計(jì)算及編程問題。此外,o1還可以用于安全研究、市場分析、智能助手、創(chuàng)意設(shè)計(jì)等多個專業(yè)領(lǐng)域。
對大模型發(fā)展的影響和趨勢
一是o1是向AGI邁進(jìn)的重要一步。o1在解決復(fù)雜問題時能夠進(jìn)行深入的思考,并通過內(nèi)部的思考鏈來逐步解決問題,這在一定程度上模擬了人類的慢思考過程,展示了向AGI邁進(jìn)的潛力。它的出現(xiàn)將加快AGI相關(guān)研究的進(jìn)展,并有助于開發(fā)出更加高級的AI系統(tǒng)。
二是開啟大模型能力提升的新范式,強(qiáng)化學(xué)習(xí)帶來新的Scaling Law。o1模型的性能會隨著強(qiáng)化學(xué)習(xí)時間(訓(xùn)練時計(jì)算量)和推理時間(測試時計(jì)算量)的增加而顯著提高。這種基于推理的訓(xùn)練方式與傳統(tǒng)的大規(guī)模預(yù)訓(xùn)練方式(通過增加參數(shù)量和數(shù)據(jù)量)不同,具有獨(dú)特的擴(kuò)展性優(yōu)勢。這表明除了參數(shù)量和數(shù)據(jù)量之外,強(qiáng)化學(xué)習(xí)可以成為提高模型能力的重要范式,這為未來的大模型發(fā)展指明了新的方向。
三是算力需求增大,智算集群從萬卡向十萬卡演進(jìn)。o1印證了最近幾個月頭部AI公司形成的新共識:后訓(xùn)練的重要程度在提高,需要的計(jì)算資源可能在未來超過預(yù)訓(xùn)練。近期OpenAI、xAI和META均加大算力投入,先后宣布推出十萬卡集群,將進(jìn)一步提升大模型競爭的壁壘。
四是大模型頭部公司虹吸效應(yīng)凸顯。隨著o1的推出,OpenAI再次拉開了與其它大模型的距離,其“ARPU”值和用戶粘性將提升,進(jìn)一步提升了商業(yè)變現(xiàn)能力。目前ChatGPT的付費(fèi)用戶已經(jīng)超過了1100萬,這意味著ChatGPT每月至少能產(chǎn)生2.25億美元的收入。
本文作者
朱瑩瑩
戰(zhàn)略發(fā)展研究所
副主任分析師
高級經(jīng)濟(jì)師,碩士,長期從事通信行業(yè)競爭分析、數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)及前沿技術(shù)跟蹤研究等工作。
申紅梅
戰(zhàn)略發(fā)展研究所
一級分析師
碩士,高級工程師,就職于中國電信研究院,主要從事數(shù)字經(jīng)濟(jì)重點(diǎn)領(lǐng)域及通信行業(yè)競爭對標(biāo)等相關(guān)研究。
彭卉
戰(zhàn)略發(fā)展研究所
二級分析師
碩士,就職于中國電信研究院,長期從事通信行業(yè)競爭研究,近年來專注于產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型、5G等領(lǐng)域研究。
媒體運(yùn)營
編審:研發(fā)云數(shù)字體驗(yàn)設(shè)計(jì)與研發(fā)團(tuán)隊(duì)
制圖:李銀鑫
編輯:王凱雯
審校:董智明 劉馨