|
從ChatGPT、Sora、Kimi、豆包,再到如今的DeepSeek,這些橫空出世的大模型及其產品,為日新月異的AI大模型產業寫下關鍵的注腳。
引發海內外科技巨頭和媒體關注、全社會都在熱議的DeepSeek將如何影響大模型產業的走向?在英偉達股價震蕩,OpenAI、Meta產生危機感,以及A股“DeepSeek概念股”火熱的背后存在著怎樣的邏輯?
上海證券報記者采訪阿里云、優刻得等業界、學界專家了解到,預計今年一季度,將會有更多中國頭部公司發布對標DeepSeek的大模型。新一輪AI大模型應用熱潮的興起,為我國深入開展“人工智能+”行動帶來新機遇。
硬核技術:軟硬一體創新,效率全面提升
2024年12月26日,DeepSeek-V3首個版本上線并同步開源,性能比肩閉源模型GPT-4o以及Claude-3.5-Sonnet;2025年1月20日,DeepSeek-R1發布,性能對標OpenAI o1正式版。
一位頭部科技公司專家對記者說,目前大模型可以分為基座大模型、推理模型、多模態模型、用于科研的模型四種。DeepSeek-V3和DeepSeek-R1分別在基座大模型和推理模型上追平了全球領先的大模型。
DeepSeek發布的論文顯示,其模型在開發過程中采取了一系列軟、硬件一體的優化和創新,在各個層面實現加速計算、提高硬件利用效率,最終實現了有效節省計算資源。
不過,上述專家也澄清,根據DeepSeek-V3論文得出的557.6萬美元成本額是單次訓練成本,前期的成本投入不能忽略,而且用來估算的英偉達H800的市場價也存在波動。“雖然沒有外界認為的那么夸張,但DeepSeek的確將單次訓練的成本降低了20%到40%。”這位專家說。
推理模型是OpenAI發布o1、o3模型開創的新范式。這類模型意味著不再是一次性輸出,而是展示一個思考的過程。
復旦大學計算機科學技術學院教授張奇接受記者采訪時說,對于如何訓練出推理模型,OpenAI幾乎沒有對外公布任何信息。自o1模型發布以來,復現o1是產業界的重要工作。DeepSeek可以說是首個復現成功的模型,而且其采用的跳過監督微調,直接從強化和學習開始訓練的思路是一個重要創新點。
“我國大模型產業經過兩年左右的探索和發展,對大模型的訓練有了更深刻的理解,而2024年OpenAI的腳步有所放慢。因此從GPT-4到o1的發展中,我國企業的追趕速度加快,某種程度上這種差距在縮小。”張奇說。
鯰魚效應:降低應用門檻,重塑行業格局
DeepSeek公司成立于2023年7月,成立一年半來,已不止一次在大模型產業中激發了“鯰魚效應”,對大模型價格、開源閉源路徑選擇、競爭格局等均產生了較大影響。
張奇認為,目前做大模型的公司分為三類,其中第一類是OpenAI、DeepSeek。這類公司由于種種因素擁有充裕的資金、算力等資源,首要目的是追求創新、保持領先。“如果DeepSeek堅持下來,很有可能開辟新的路線,成為引領者。”張奇說。
DeepSeek與OpenAI還存在著開源、閉源路線的差異。華泰證券研究認為,OpenAI原本憑借技術壁壘和閉源模式在AI領域占據優勢,但DeepSeek的開源模式和低成本可能降低行業進入門檻,削弱其技術壟斷地位。特別是對于依賴高額算力投入和專有模型訓練的閉源公司而言,DeepSeek的低成本、高效率特性可能導致部分市場份額的流失,或迫使其調整商業模式。
業內認為,OpenAI面對當前情況可能采取兩種方式應對競爭:一種是選擇開源一部分,減少用戶流失,加入與其他生態的競爭;另一種是推出更出色的模型,證明其領先性,從而維持其閉源收費的模式。
阿里云智能科技研究中心主任安琳對記者說:“開源和閉源路徑,本就不意味著性能差異,而是商業策略的選擇。不管哪種路徑,更重要的是如何形成可持續的商業化閉環。大模型的能力的確在不斷提升,但也面臨著邊際效益降低的瓶頸。只有將前期投入轉化為商業化收入,繼續賦能技術提升,這項技術的創新和應用才能持續下去。”
第二類是騰訊、阿里、字節跳動、Meta等互聯網巨頭。這些公司擁有充足的資源進行投入,同時其自有生態就有豐富的應用場景和需求。
雖然目前國內外科技公司尚未發布對標DeepSeek-R1的模型,但業內預計二三月份會有更多中國頭部公司發布類似的模型。1月29日,阿里發布通義千問Qwen2.5-Max大模型。在多個基準測試中,Qwen2.5-Max比肩Claude-3.5-Sonnet,并幾乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。
第三類是包括國內“大模型六小虎”(智譜、MiniMax、百川智能、月之暗面、階躍星辰、零一萬物)等在內的創業企業。這些公司依靠外部融資,目前已有較大的融資金額和較高的估值。面對DeepSeek這樣一個異軍突起的黑馬,這些創業公司面臨著較大的壓力和變數。
近日,A股上市公司密集宣布了接入DeepSeek的消息,掀起了新一輪探索大模型應用的熱潮。例如,網絡安全公司奇安信將DeepSeek-R1引入到威脅研判、安全運營、滲透測試和漏洞管理等多場景,實現成本降低、性能提升。視覺中國完成了DeepSeek-R1的接入與本地化部署,實現了圖片分析和理解上的“一圖有萬言”,以及搜索意圖解析與匹配方面的“一圖勝萬言”。
“DeepSeek的開源模式和低成本,降低了應用門檻。我認為從應用的角度來說,DeepSeek-R1的出現,比o1推出的影響更大。”張奇說,全社會開始更加深刻地認識到AI的能力,有了推理能力的加持,大模型的幻覺大幅降低,用戶體驗也更好。
“當全社會都在談論DeepSeek的時候,無疑會加速AI的普及。這對我國深入開展'人工智能+’行動是巨大的機遇,AI在制造、醫療、教育、交通、農業等多個領域都有機會發展壯大。”安琳說。
云計算上市公司優刻得研發總監王曉慧告訴記者,自大模型問世以來,許多公司都嘗試過業務和大模型的融合。在融合中不少公司發現,原以為無所不能的AI,實際上應用的準確率和精度還達不到業務要求。但DeepSeek出圈后,這些公司開始用DeepSeek進行新的嘗試,完成相關分析、推理的業務。
對于算力來說,DeepSeek雖然通過創新路徑削弱了大模型訓練對高端GPU的依賴,但業內共識是,未來的算力需求將取決于大模型大規模應用的推理算力。近日,阿里云、騰訊云、優刻得等云計算廠商均上架了DeepSeek系列模型,提供了多種部署方式,進一步簡化了模型開發流程。