12月26日,“深度求索”官方公眾號宣布上線并同步開源DeepSeek-V3模型,在多領域取得顯著進步,生成速度比上代提升了3倍;多項測評成績超越Qwen2.5-72B和Llama-3.1-405B等開源模型,性能比肩GPT-4o和Claude-3.5-Sonnet等世界頂尖閉源模型。
DeepSeek-V3為自研MoE模型,671B參數(shù),激活37B,在14.8Ttoken上進行了預訓練。據測評數(shù)據,該模型在以下多領域表現(xiàn)亮眼:百科知識領域,DeepSeek-V3得分75.9,相比前代V2.5的66.2顯著提升,僅次于Claude-3.5-Sonnet-1022的78分;
長文本領域,在DROP、FRAMES和LongBenchv2上,DeepSeek-V3平均表現(xiàn)超越其他模型;代碼領域,DeepSeek-V3在算法類代碼場景大幅領先市面上已有的全部非o1類模型,在工程類代碼場景得分僅次于Claude-3.5-Sonnet-1022;數(shù)學領域,DeepSeek-V3在美國數(shù)學競賽和全國高中數(shù)學聯(lián)賽上表現(xiàn)突出,大幅超過了所有開源和閉源模型;
中文能力領域,DeepSeek-V3與Qwen2.5-72B在教育類測評C-Eval和代詞消歧等評測集上表現(xiàn)相近,在事實知識C-SimpleQA方面領先其他參評模型。在運行速度和生成效率方面,通過算法和工程上的創(chuàng)新,DeepSeek-V3的生成吐字速度從20TPS大幅提升至60TPS,相比上代V2.5實現(xiàn)了3倍的提升,使用體驗更加流暢。
“AI界拼多多”,大模型價格戰(zhàn)開啟
官方表示先上一個為期45天的優(yōu)惠大促銷:發(fā)布日起至2025年2月8日,DeepSeek-V3的API服務價格為每百萬輸入tokens 0.1元(緩存命中)/1元(緩存未命中),每百萬輸出tokens2元。優(yōu)惠期過后,會調整為每百萬輸入tokens 0.5元(緩存命中)/2元(緩存未命中),每百萬輸出tokens8元。
DeepSeek(深度求索)創(chuàng)始人梁文峰出生于1980年代廣東一個五線城市,本碩就讀于浙江大學,攻讀人工智能專業(yè),同時,梁文峰還是幻方量化的實際控制人,幻方量化是目前國內頭部量化私募機構之一。
2008年,梁文峰開始致力于量化對沖領域的研究,2015年創(chuàng)立了幻方量化,之后規(guī)模擴張迅速,而DeepSeek的創(chuàng)立源于梁文峰在幻方量化時期對AGI的向往和熱衷,該公司第一期研發(fā)投入就是幻方自主出資的,且旗下?lián)碛?“螢火超算” 萬卡級別的算力加持。
幻方量化一度是中國首家突破千億私募的量化大廠,準確的說也是迄今為止業(yè)內唯一規(guī)模曾邁過千億大關的量化私募。這家昔日中國的千億私募,最新管理規(guī)模已經降到200~300億元一線。