DeepSeek r1存在重要技術細節需要澄清。
值得注意的是地緣政治因素,該模型恰好在川普'星際之門'計劃后發布并非巧合。5000億美元市值的泡沫或將破滅。
真實情況:
1) 在應用商店相關類別下載量第一,超越ChatGPT,這是Gemini和Claude未能做到的
2) 質量與o1相當,但落后于o3
3) 算法突破帶來訓練和推理效率革命: FP8訓練、MLA架構和多token預測技術是關鍵
4) 6百萬美元訓練成本雖屬實,但具有嚴重誤導性
5) 硬件架構創新,使用PCI-Express進行擴展
最關鍵的是r1的推理成本比o1低93%,這并非基于6百萬美元訓練成本的數字,而是實際API使用成本。r1可在高端工作站本地運行且未遇速率限制,這很驚人。簡單計算顯示FP8精度下每10億活躍參數需1GB內存,因此r1需要37GB內存。批量處理可大幅降低成本,更多算力可提升token/秒,云端推理仍有優勢。
技術細節:
1) 6百萬美元不包含'前期架構研究、算法驗證和數據實驗成本'(技術文件原話)。這相當于說'只要實驗室已投入數億美元前期研究并擁有超大規模集群(DeepSeek早期論文提及10,000塊A100集群),就能用6百萬復現r1'。普通團隊無法僅憑2000塊GPU和6百萬獲得相同成果
2) 大量依賴模型蒸餾技術,必須借助GPT-4o和o1才能完成訓練。這暴露了美國GPU出口管制的漏洞:限制先進GPU卻放任中國通過蒸餾獲取頂尖模型能力,無異于自毀管制措施
結論:
1) 降低訓練成本將提升AI投資回報率
2) 短期內對訓練資本支出和'電力需求'主題不利
3) 最大風險在于:經蒸餾的r1可在高端工作站(如Mac Studio Pro)本地運行,預示兩年內超級手機將具備同等能力。若邊緣計算成為主流,將引發史上最大PC/手機升級潮,重塑行業格局
4) 人工超級智能(ASI)已近在咫尺,但其經濟回報尚不明確。若耗資千億的o5/Gemini3/Grok4能治愈癌癥甚至發明曲速引擎,ASI將帶來超高回報,訓練支出和能耗將持續增長
5) 利好AI應用層企業:軟件、互聯網等
6) 提升獨特數據和分發渠道價值:YouTube、Facebook等平臺受益
7) 美國實驗室可能停止發布尖端模型防止被蒸餾,但可能為時已晚(r1已可訓練r2)
關于Grok-3的潛在影響:
作為GPT-4以來首個驗證擴展定律的模型,其表現至關重要。Grok-3已展示超越o1的能力(如Tesseract演示),其強化學習后的推理能力提升程度將決定行業走向。正如《雙塔奇兵》中半獸人所言:'肉或許很快會重回菜單'。最終結論將隨事實演變而調整。