DeepSeek在蛇年新春給全球科技圈帶來的沖擊波,絲毫不亞于兩年前ChatGPT橫空出世帶來的震撼。
而這一次,“沖擊波”來自中國。
1月20日,DeepSeek發布了性能對標OpenAI-o1正式版的新模型——DeepSeek-R1,僅用1周,Deepseek應用就同時登頂蘋果中國地區和美國地區應用商店免費App下載排行榜。除夕夜,它又發布了多模態大模型Janus-Pro,成為其一個月內發布的第三款大模型。
有意思的是,DeepSeek成立至今只有1年多,仍算是一家創業型公司。這股稱為“來自東方的神秘力量”何以震動全球科創圈?多位專家認為,它最大的價值在于以極低的訓練成本實現了可媲美甚至超越全球頂尖大模型的性能,而在此基礎上的模式之變、開源之變,都將為人工智能的發展帶來積極的意義。
“擊穿”關鍵變量,打破算力神話
如果只用一個關鍵詞來形容DeepSeek給全球科技圈帶來的沖擊力,多位專家都給出了一個詞——成本。事實上,ChatGPT自問世以來,圍繞它最大的爭議在于居高不下的成本,由巨量芯片堆疊以及巨大電力消耗換來的大算力,是否真的能支持大模型長遠發展?
Deepseek在成本這一關鍵變量上給出了“暴擊”。據了解,DeepSeek-R1模型訓練成本僅為560萬美元,遠低于美國開放人工智能研究中心、谷歌等科技巨頭的技術投入成本。有人做了個比喻:如果把研發大模型比作燒開水,把對算力的投資比作燒水用的燃料,那么OpenAI燒開一壺水用了一車煤,谷歌用了一車98號汽油,馬斯克用了一車航空煤油,發現壺里的水才冒泡,而創業型公司DeepSeek點燃幾根火柴,就燒開了一壺水。
成本的驟降,往往會引發整個商業邏輯的變化:算力固然重要,但如果一款大模型可以花更少的錢,得出同樣的解決方案,那么依靠重度氪金“外掛裝備”成就大算力的邏輯就被打破了。事實上,美股市場已經給出了“投票”:除夕前一個美股交易日,包括英偉達、谷歌、微軟3家公司一夜蒸發了7625億美元的市值,約合5.5萬億人民幣。雖然美股漲跌與DeepSeek不能完全劃上等號,但市場的搖擺已經相當明顯。
美銀證券分析師Justin Post在報告中就認為,成本的降低將大大加速大模型的商業應用:“如果模型訓練成本被證明可以顯著降低,我們預計使用云人工智能服務的廣告、旅游和其他消費應用的公司將在短期內獲得成本效益。”
重構AI敘事,闖出特色本土模式
如果把成本作為透視大模型發展的一個基點,往上看,成本驟減將對未來的商業模式帶來深遠影響;而往下看,它更重要的意義在于蹚出一條大模型的本土發展模式。
此前,有網友嘗試讓DeepSeek寫一篇“玄武門之變后李世民內心獨白戲”,在思考8秒之后,DeepSeek寫下的700多字刷屏朋友圈。它的驚艷之處在于,一方面具備對歷史背景的深度把握,另一方面在文字對仗、渲染等文學上的造詣極深。而如果你用過 DeepSeek還會發現,它在給出回答之前,還給出了思考的過程——這與ChatGPT直接給出結果的底層邏輯完全不同。
浙江大學計算機博士傅聰解讀認為,DeepSeek-R1的模型使用強化學習技術進行“后訓練”,讓模型的推理能力得到了極大的提升。簡單地說,就是通過學習CoT(思維鏈)的方式,一步一步推理得出結果,而不是直接預測答案。而Deepseek用極快的速度,驗證了這一路徑的可行性。
除了新訓練方法,DeepSeek還有不少變化,比如開源、深度聯網等。目前R1是少數支持聯網的推理模型,不少用戶認為,其在大語言模型(LLM)上更卓越的表現,大概率與其支持聯網搜索有關。而DeepSeek的完全開源策略,促進了AI開發者社區的協作生態,硅谷頂級風投a16z創始人馬克·安德森(Marc Andreeseen)對此評論認為,DeepSeek的開源“是給世界的一份意義深遠的禮物”。
數字產業分析師郝智偉認為,DeepSeek“低成本+新訓練方法+開源+聯網”的新模式,從某種程度上重構了AI大模型的敘事語言,走出了與海外不同的實用主義道路,也讓用戶與高階AI對話的門檻大大降低,加快國產大模型的普及速度。
彎道超車,對中國科創圈啟示幾何
前谷歌首席執行官埃里克·施密特(Eric Schmidt)周二在一篇專欄文章表示,DeepSeek的崛起標志著全球人工智能競賽的“轉折點”。或許,DeepSeek的“蝴蝶效應”才剛剛開始,但它對中國科創圈的意義更加重大。
回到DeepSeek的誕生背景,這是一家中國創業型企業,盡管其擁有上萬張中高端算力卡的較好條件,但與中國絕大多數的科技企業一樣,存在高性能芯片不足、資金條件有限的客觀局限性,這意味著,通過堆疊高端硬件“大力出奇跡”的方式走不通,必須在有限算力的基礎上進行架構、算法、數據利用等內功的探索創新。DeepSeek的成功有其獨特性,但它也同時證明了一件事:高效率低成本的本土模式是能走通的,為2025年國內大模型的發展開了個好頭。
郝智偉認為,這一趨勢在2024年已經有所體現,特別是大模型深度用戶和創業者明顯感覺到,國內的大模型更懂他們這個群體,無論是文生文的豆包、Kimi,圖生視頻的即夢、可靈,還是聲音生成的海螺AI,這些國產AI系統都有不俗的表現。他認為,中國在“從0到1”的破局上,或許錯過了大模型最初的爆發紅利,但并不代表不能在“從1到100”的階段異軍突起,大模型的比拼注定是一場馬拉松。
正如DeepSeek創始人梁文鋒此前接受媒體采訪時所說:“過去很多年,中國公司習慣了別人做技術創新,我們拿過來做應用變現。但在這一波浪潮里,我們的出發點是走到技術的前沿,去推動整個生態發展。”
就在除夕夜,Deepseek再度發布了多模態大模型Janus-Pro,以“四兩撥千斤”的模式,在文生圖領域扮演了一條攪動全球科技圈的鯰魚。