Deepseek或是算力星辰大海的一朵“小浪花
1. 556萬美元遠遠低估DeepSeek v3真實訓練算力與未來發展需求
據DeepSeek V3論文,556萬美元的成本僅包括DeepSeek-V3 的正式訓練,不包括與架構、算法、數據相關的前期研究、消融實驗的成本。而基于充足前期準備進行正式訓練的成本往往都比較低,單獨討論正式訓練成本屬于斷章取義。以同樣在2025年1月發布的加州大學伯克利Sky-T1-32B-Preview為例,其正式訓練成本僅為450美元,但在數學能力等方面跑分超過OpenAI o1-Preview。
DeepSeeK V3論文:
Sky-T1-32B項目地址:網頁鏈接
2. 太陽底下無新鮮事:后發模型的算力效率優勢曾導致英偉達股價大跌,事后看只是算力需求發展星辰大海的小浪花
無獨有偶,2024年4月19日,Meta發布LLaMA 3大模型,從跑分數據來看70B參數的開源模型基本可與GPT4相媲美,引發了關于算力需求討論,當日英偉達大跌10%。而伴隨后續GPT4o、OpenAI o1等全新模型發布,訓練算力需求仍在持續擴大,事實上LLaMA 3發布后英偉達大跌后成為一輪新行情的起點。DeepSeek大模型的發布,或帶來更強的鲇魚效應,OpenAI CEO奧特曼對于Deepseek作為競爭對手很興奮,并宣布將加速發布更好的模型。
3. Jevons 悖論:降低AI行業進入門檻與成本,反而推動總需求上升
DeepSeek所有模型均為開源模型,即所有應用廠商一夜之間都擁有了可以比肩頂級AI的大模型,而且還可自行二次開發、靈活部署,這將加速AI應用的發展進程。當模型的成本越低,開源模型發展越好,模型的部署、使用就會更高頻率、更多數量。DeepSeek的突破讓很多人第一次認識到AI模型的實用價值,真正開始使用模型。有了更多低成本、本地、開源模型,Token的需求量會成千上萬倍的增加。這就是經濟學上著名的“杰文斯悖論”:
“當技術進步提高了資源使用的效率,不僅沒有減少這種資源的消耗,反而因為使用成本降低,刺激了更大的需求,最終導致資源使用總量反而上升。”
過去已經有很多的例子證明這點:
1、第一次工業革命期間蒸汽機效率的提高,使得市場上煤炭的消耗總量反而增加;
2、手機從大哥大年代到目前智能手機普及時代, 單價下降為十分之一左右,但手機市場放大數十倍。
3、如果一個家庭買了一臺更節能的空調。按理說,更節能的空調應該會減少電費支出。但實際發生的往往是:因為電費便宜了,這家人反而更舍得開空調了,不僅開得時間更長,溫度還調得更低,最后總電費不降反升。
模型算力效率突破,看起來影響單位計算的價格,進而壓縮高性能芯片供應商的利潤空間。但從更長的周期來看,恰恰會加速AI的普及和創新,帶來算力需求更大量級提升。
蛇年開啟,我們只要想清楚三個問題,DeepSeek造成的全球算力恐慌性拋售或是“新春紅包”:
1、大模型架構演進是否到了盡頭?DeepSeek R1反而說明架構演進創新正在持續,尤其在多模態、世界模型等領域,更多架構演進與創新正在進行;
2、大模型的性能目標是否已經達到?目前大模型距離AGI甚至ASI仍然有很長的路要走,強化學習本質上就是用算力完成數據自循環,需要更多更強的算力;
3、大模型的算力需求是否已經飽和?DeepSeek的目標是做開源的AGI,實現這一目標,降低大眾獲得AGI的門檻,無處不在訓練與部署AGI的算力需求是我們今天所不可想象的,那是真正的“星辰大海”。
通往AGI之路仍然漫長,我們堅信像DeepSeek一樣的玩家會越來越多,大家對中國AI產業的信心會越來越強,我們也將真正進入AI應用繁榮的起點。民生計算機