近期,許多用戶發現,中國初創公司深度求索在蘋果應用商店上架了自己的大模型應用“DeepSeek”,其下方評論中就有網友表示,用了一年的網頁端,終于等到了App。
該App的商店頁面顯示,這是DeepSeek官方推出的AI助手,可“免費體驗與全球領先AI模型的互動交流”。其使用開源的 DeepSeek-V3 大模型,多項性能指標對齊海外頂尖模型,可以用更快的速度、更加全面強大的功能答疑解惑,助力高效美好的生活。
App Store 頁面截圖。
上個月(12月26日),深度求索正式對外發布 DeepSeek-V3大模型,據其介紹,該模型在多個方面超越、追平各種開源、閉源大模型。而在DeepSeek開源社區收獲的廣泛好評,顯示出開發者們已經用腳進行了投票。
首先是百科知識上,V3的知識類任務(MMLU, MMLU-Pro, GPQA, SimpleQA)水平相比前代 DeepSeek-V2.5 (下稱V2.5)顯著提升,接近當前表現最好的模型 Claude-3.5-Sonnet-1022。長文本測評方面,在DROP、FRAMES 和 LongBench v2 上,V3 平均表現超越其他模型。
此外,V3 在算法類代碼場景(Codeforces),遠遠領先于市面上已有的全部非o1類模型,并在工程類代碼場景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022。
值得注意的是,V3在中文和數學相關基準測試中表現尤為突出。在中文能力上,V3 與 Qwen2.5-72B 在教育類測評 C-Eval 和代詞消歧等評測集上表現相近,但在事實知識 C-SimpleQA 上更為領先。而在美國數學競賽(AIME 2024, MATH)和全國高中數學聯賽(CNMO 2024)上,V3大幅超過了所有開源閉源模型。
Deepseek-V3與多個國內外大模型的測試數據對比。“Deepseek”公眾號
公開資料顯示,在DeepSeek背后是量化私募巨頭幻方(High-Flyer Quant),也是大廠外唯一一家儲備上萬張英偉達 A100芯片的公司。幻方成立于2008年,總部位于中國杭州,專注于利用數學、統計學和計算機技術進行金融市場的量化分析和交易。2024年5月,DeepSeek-V2發布,幻方量化成功轉型為人工智能先驅,其超低價格甚至引發了國內大模型的價格戰,DeepSeek也被迅速冠以“AI界拼多多”之稱。