OpenAI正式發布了新的人工智能模型o1(o是orion獵戶座,1代表從頭再來,也意味著后續將出現更多序列),就是此前OpenAI一直在高調宣傳的草莓大模型。OpenAI沒有延續使用GPT序列,可見其與傳統預訓練模型有新的變革性訓練方法和功能,o1具備復雜推理能力,解決比目前專業的科學、代碼和數學模型所能解決的更難的問題。
值得注意的是,相比GPT-4o等其他大模型,o1推理時間較長、使用成本更高,在不需要復雜推理的場景并沒有明顯優勢,也意味著o1并非GPT-4o的替代品,兩者將并存,未來不排除實現融合。
大模型在融合通信中的應用實踐
一、背景:OpenAI為什么現在發布新模型o1?
雖然OpenAI 2024年 年化營收預計將從前一年的20億美元大幅增長至約35億美元,但仍無法覆蓋其90億的推理、訓練成本。
目前來說,OpenAI訂閱的商業模式很難稱得上是一個好的變現手段,更無法與廣告這一互聯網時代最佳商業模式相提并論。
(OpenAI營收變化趨勢,來源:tooltester)
在營收構成上,C端用戶訂閱、企業用戶、API和ChatGPT Team業務分別占營收的55%、21%、15%和8%。
(OpenAI營收構成,來源:tooltester)
據The Information測算,在一年虧損50億美元的情況下,OpenAI的現金流可能在未來一年內耗盡。因此,繼續融資成為了OpenAI必然的選擇。據彭博社消息,OpenAI目前正在商談以1500億美元的估值融資65億,這一估值遠高于去年10月時的860億美元。
除此之外,首席科學家Ilya等核心人才出走,流量增長放緩,Sora“期貨”遲遲未兌現,GPT-5不停跳票,大語言模型預訓練Scaling Law的邊際效益遞減,增長空間被質疑……在OpenAI發布o1模型之前,由ChatGPT發布引領的大模型革命陷入了前所未有的低谷。
與此同時,OpenAI的主要競爭對手之一Anthropic ,從落后于 OpenAI 18 個月,在o1發布前已經在模型層面追平,甚至有微弱的領先優勢了。Anthropic 6月發布的 Claude-3.5-Sonnet ,支持寫200行可靠的代碼,遠超4o的20 行。
如下圖所示,OpenAI自2022年11月ChatGPT發布以來的流量增長已經幾乎停滯。
(ChatGPT訪問量變化趨勢,來源:tooltester)
與此相對應的,一二級市場的AI熱潮正在持續降溫。
一級市場方面,VC資金對AI初創公司投資占比在持續上升,占比接近30%,但是在金額上已經回落到2020年的水平,降幅明顯。
(VC對AI初創公司的投資金額和占比,來源:硅谷科技評論)
二級市場上,投資者的AI抱團追漲行情開始有了瓦解的跡象,以英偉達等公司為代表的美股AGIX指數從高點開始回落,幾乎回到了半年前的水平。
(AGI指數,來源:海外獨角獸)
在這樣的背景下,通過全新的大模型o1給投資人“畫餅”成為了OpenAI絕佳的選擇。
二、基本原理:自我對弈強化學習+思維鏈+推理標記+定制數據集
一是采用大規模自我對弈強化學習(Self-play RL),設置獎懲機制,讓模型自行學習解決問題。這種方法類似于人類通過不斷嘗試和糾錯來掌握新技能。二是內置思維鏈(CoT),能夠在解決問題前通過內置思維鏈進行推導,并將其推理過程外化,使得模型的決策過程更為透明,便于理解和驗證。三是引入推理標記,用于輔助模型在對話環境中進行深層思考。四是使用專門的訓練數據集,包含了大量復雜問題和對應的解題步驟,有助于模型掌握推理能力。
三、能力突破:復雜推理能力超強,數學、編碼和科學尤為出色
o1在一系列超過一般人能力的需要復雜推理的高難基準測試中展現出了超強實力,相比 GPT-4o 有巨大提升。一是數學和編碼能力超強,在國際數學奧林匹克競賽(IMO)中,o1解答正確率高達83%,顯著優于GPT-4o的13%。在知名的在線編程比賽Codeforces中,o1拿到89%的百分位,GPT-4o僅為11%。二是在科學領域應用方面,OpenAI聲稱o1的未來版本將在物理、化學和生物學等學科的高難度基準任務上超越人類專家的表現。三是安全性顯著提升,在最難的越獄測試中o1預覽版得84分,遠超GPT-4o的22分。
圖片來源:OpenAI
四、潛在應用場景:專業化研究領域,替代更多腦力勞動成為可能
o1的推出預示著AI將在多個專業化領域展現出新的更優秀的應用潛力,例如科學研究、軟件編程、教育等目前已有大模型只是起到初步輔助作用的領域。在科研領域,它可以幫助研究人員進行數據分析和模型構建,如o1可以被醫療保健研究人員用來注釋細胞測序數據,被物理學家用來生成量子光學所需的復雜數學公式。在軟件開發中,可以用來構建和執行多步驟工作流程,在編程中提供代碼生成、調試和優化等幫助。在教育領域,可以幫助學生解決復雜的邏輯、計算及編程問題。此外,o1還可以用于安全研究、市場分析、智能助手、創意設計等多個專業領域。
五、對大模型發展的影響和趨勢
一是o1是向AGI邁進的重要一步。o1在解決復雜問題時能夠進行深入的思考,并通過內部的思考鏈來逐步解決問題,這在一定程度上模擬了人類的慢思考過程,展示了向AGI邁進的潛力。它的出現將加快AGI相關研究的進展,并有助于開發出更加高級的AI系統。
二是開啟大模型能力提升的新范式,強化學習帶來新的Scaling Law。o1模型的性能會隨著強化學習時間(訓練時計算量)和推理時間(測試時計算量)的增加而顯著提高。這種基于推理的訓練方式與傳統的大規模預訓練方式(通過增加參數量和數據量)不同,具有獨特的擴展性優勢。這表明除了參數量和數據量之外,強化學習可以成為提高模型能力的重要范式,這為未來的大模型發展指明了新的方向。
三是算力需求增大,智算集群從萬卡向十萬卡演進。o1印證了最近幾個月頭部AI公司形成的新共識:后訓練的重要程度在提高,需要的計算資源可能在未來超過預訓練。近期OpenAI、xAI和META均加大算力投入,先后宣布推出十萬卡集群,將進一步提升大模型競爭的壁壘。
四是大模型頭部公司虹吸效應凸顯。隨著o1的推出,OpenAI再次拉開了與其它大模型的距離,其“ARPU”值和用戶粘性將提升,進一步提升了商業變現能力。目前ChatGPT的付費用戶已經超過了1100萬,這意味著ChatGPT每月至少能產生2.25億美元的收入。
六、o1模型的超強推理能力
1. OpenAI的模型迭代史
作為OpenAI在2023年GPT4發布以來最重要的模型更新,o1在數學、代碼等方面推理能力顯著提升。
(OpenAI的主要大模型及其發布時間,來源:tooltester)
2. 數據:o1在STEM領域表現出色,特別是在數學和編程方面
2.1 數學方面,在2024年的AIME(一個旨在挑戰美國最聰明高中生的考試)測評中,GPT-4o只解決了13%的問題,o1的得分是83%。
2.2 編碼方面,GPT-4o在競爭性編程問題(Codeforces)上的得分是11%,o1 是89%。
2.3 在博士級別的科學問題(GPQA Diamond),GPT4o是56.1%,o1則超越人類博士69.7%,達到了恐怖的78%。
(o1與gpt4o的對比,來源:OpenAI官網)
2.4 在啟用視覺感知功能時,多模態o1在MMMU上得分為78.2%,成為第一個與人類專家競爭的模型。在博士級別的科學問題上,特別是物理和化學領域,o1更是大幅領先人類博士。
2.5 在IOI(國際信息學奧林匹克競賽)中在每題 50 次提交的條件下取得了第 49%/213分。在每題10,000次提交的情況下,該模型的得分達到了362,超過了金牌門檻。
(o1與gpt4o的對比,來源:OpenAI官網)
2.6 安全性:衡量安全性的一種方法是測試模型在用戶試圖繞過安全規則時(稱為“越獄”)是否繼續遵守這些規則。在最困難的越獄測試中,GPT-4o 得分為 22/100,而o1-preview 模型得分為 84/100。
2.7 不足:通用人工智能的核心是通用和泛化性,但o1在寫作、文字編輯等一些簡單的自然語言處理任 務上并沒有顯著提升,這意味著o1的適用范圍有一定的局限性。
作者:朱瑩瑩、申紅梅、彭卉
《HotChips 2024大會技術合集(1)》
《HotChips 2024大會技術合集(2)》
《HotChips 2024大會技術合集(3)》
《HotChips 2024大會技術合集(4)》
《HotChips 2024大會技術合集(5)》
《HotChips 2024大會技術合集(6)》
《HotChips 2024大會技術合集(7)》
《HotChips 2024大會技術合集(8)》
機器人專題研究:產業發展概覽(2024)
《算力網絡:光網絡技術合集(1)》
1、面向算力網絡的新型全光網技術發展及關鍵器件探討
2、面向算力網絡的光網絡智能化架構與技術白皮書
3、2023開放光網絡系統驗證測試規范
4、面向通感算一體化光網絡的光纖傳感技術白皮書
《算力網絡:光網絡技術合集(2)》
1、數據中心互聯開放光傳輸系統設計
2、確定性光傳輸支撐廣域長距算力互聯
3、面向時隙光交換網絡的納秒級時間同步技術
4、數據中心光互聯模塊發展趨勢及新技術研究
面向超萬卡集群的新型智算技術白皮書
面向AI大模型的智算中心網絡演進白皮書
《半導體行業系列專題合集》
1、半導體行業系列專題:刻蝕—半導體制造核心設備,國產化典范
2、半導體行業系列專題:碳化硅—襯底產能持續擴充,加速國產化機會 3、半導體行業系列專題:直寫光刻篇,行業技術升級加速應用滲透 4、半導體行業系列專題:先進封裝—先進封裝大有可為,上下游產業鏈受益
免責申明:本號聚焦相關技術分享,內容觀點不代表本號立場,可追溯內容均注明來源,發布文章若存在版權等問題,請留言聯系刪除,謝謝。