被一些人稱為“神秘東方力量”的DeepSeek,最近在AI領域里連續投下兩個重磅炸彈,先是推出了DeepSeek V3模型,后又推出了DeepSeek R1推理模型。DeepSeek R1的發布引發了硅谷科技界關于美國AI公司(如Meta和Anthropic等)能否保持技術領先地位的激烈討論。1月24日,在國外大模型排名Arena上,DeepSeek-R1基準測試已經升至全類別大模型第三,其中在風格控制類模型(StyleCtrl)分類中與OpenAI o1并列第一。就在1月25日,英偉達的“老對手”AMD還火速為DeepSeek“站臺”,宣布全新的DeepSeek-V3模型已集成至AMD InstinctGPU上。1 月 20 日晚 ,DeepSeek(深度求索)公司發布推理模型DeepSeek-R1 正式版,該模型在數學、代碼、自然語言推理等多個領域展現出與OpenAI o1正式版比肩的實力,更在開源策略上邁出了大膽的一步。此外,在2024年12月26日晚間,其開源模型DeepSeek-V3上線后更是在國內外AI圈刷了屏。毫不夸張地說,DeepSeek在美國AI行業引發了一場地震,更引發了媒體的爭相報道。幾乎所有的主流媒體和科技媒體,都報道了中國AI模型超過美國這一爆炸新聞。短短幾天時間,DeepSeek就已經成為蘋果應用商店排名第一的免費應用,力壓OpenAI的ChatGPT。幾乎所有的AI巨頭、風投和技術人員都只能承認,在大模型這個領域,DeepSeek至少已經可以和OpenAI平起平坐,中國已經追上了美國。微軟首席執行官薩蒂亞·納德拉(Satya Nadella)在世界經濟論壇上談到DeepSeek時表示:“DeepSeek的新模型令人印象深刻,他們不僅有效地構建了一個開源模型,能夠在推理計算時高效運行,而且在計算效率方面表現出色。我們必須非常非常認真地對待中國的AI進步。”更讓硅谷諸多AI巨頭感到震撼和汗顏的是DeepSeek的低廉成本。R1模型的查詢成本僅為每百萬個token 0.14美元,而OpenAI的成本為7.50美元,使其成本降低了98%。DeepSeek創始人梁文峰來自于浙江大學,梁文峰還是幻方量化的實際控制人,幻方量化是目前國內頭部量化私募機構之一,他1985出生于廣東湛江,本科和碩士均就讀于浙江大學,主修軟件工程和人工智能方向。D他在組建研究團隊時,并未尋找經驗豐富的資深軟件工程師,而是專注于來自北大、清華等頂級高校的博士生。沒有囤積頂級GPU,沒有招攬資深AI人才,沒有高昂的運行成本,一樣可以拿出最佳的大模型,DeepSeek的一切都讓硅谷AI巨頭們感到沮喪。據新華社報道,中共中央政治局常委、國務院總理李強1月20日下午主持召開專家、企業家和教科文衛體等領域代表座談會,聽取對《政府工作報告(征求意見稿)》的意見建議。座談會上,梁文鋒作為被邀請代表發言。2016年10月21日,幻方量化推出第一個AI模型,第一份由深度學習生成的交易倉位上線執行,使用GPU進行計算。2017年,幻方量化宣稱實現投資策略全面AI化。幻方量化官網顯示,其在2018年就確立以AI為公司的主要發展方向。
2020年開始,幻方累計投資超億元、占地面積相當于一個籃球場的AI超級計算機“螢火一號”正式投入運作,號稱可以匹敵4萬臺個人電腦的超級算力。2021年,幻方投入十億建設“螢火二號”,以“任務級分時共享”為核心理念,調度系統秒級響應,平臺配備強大的軟件層支持:高性能算子庫(hfai.nn)、分布式訓練通訊框架(hfreduce)、專為AI開發而生的大容量高帶寬文件系統(3FS),讓AI模型能自如拓展到多節點之上,進行大規模并行訓練,算力擴容翻倍,集群連續滿載運行,平均占用率達到96%以上。
過去的幾年,幻方量化及員工每年拿出收入的一部分投入公益,回饋社會,累計捐贈超過5.8億元。其中,2022年,員工“一只平凡的小豬”個人就向慈善機構捐贈1.38億元,當時的消息指出,這個人就是梁文鋒。2023年7月,幻方量化宣布成立大模型公司DeepSeek,正式進軍通用人工智能領域。據報道,DeepSeek包括創始人梁文鋒在內,僅有139名工程師和研究人員。與之對比,OpenAI有1200名研究人員,Anthropic則有500多名研究人員。DeepSeek的橫空出世對于英偉達公司是一個利空因素。很多AI行業人士不禁開始思考另一個問題:既然DeepSeek用上一代芯片的閹割版就可以訓練出最強勁的大模型,那么科技巨頭們還需要繼續瘋狂燒錢搶購英偉達的最新GPU嗎?這個問題細思極恐。
DeepSeek-V3整個訓練僅花費557.6萬美元,這比OpenAI、Meta等用于預訓練大型語言模型動輒數億美元的成本要低得多。
R1在推理能力上有了顯著提升。它的回答更為全面、詳實,且論證充分。R1通常以結構化的方式提供回答,并在思考和回答過程中補充大量背景信息,這些信息對用戶來說極具啟發性。
而DeepSeek-R1 API 服務定價為每百萬輸入 tokens 1 元(緩存命中)/ 4 元(緩存未命中),每百萬輸出 tokens 16元。DeepSeek震動美國科技界,不僅是因為其性能上比肩OpenAI的o1,并完全開源,且以極低的成本實現了這一突破。DeepSeek的崛起,不僅震動了國內科技界,更引起了美國科技界的廣泛關注。美國方面做了測試,與OpenAI相比,DeepSeek的優勢顯著。在數學、代碼和自然語言推理等任務上,與OpenAI的GPT-4o和GPT-o1正式版表現相當。特別是它在數學能力上,跑分高達90.2%,比GPT-4高出10分以上。知名投資人馬克·安德森對DeepSeek R1給予了高度評價,稱其為“我見過的最令人驚嘆和印象深刻的突破之一”。而AI科技初創公司Scale AI的創始人亞歷山大·王更是直言,DeepSeek的AI大模型發布可能會“改變一切”,讓美國在人工智能競賽中的領先地位受到挑戰。
梁文峰公司最大的優勢是性價比。他用了行業內1/10的成本,做到了行業頂尖性能的90%以上。更讓人佩服的是,這家主業是搞量化的公司用副業做出了如此強悍的ai大模型。可以說是上蒼給中國ai產業的一個新年禮物,它的成功意義非凡 ,他打破了之前西方ai大公司一直掌握的算力霸權,有力地證明了“算力極限會制約大模型的演進”是一個偽命題。
DeepSeek的出現,給中國科技界巨大的信心和勇氣,我們也能在Ai道路找到一條達到羅馬的道路。
本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請
點擊舉報。