作者簡介:朱嘉明,經濟學家、橫琴數鏈數字金融研究院學術與技術委員會主席。本文整理自葦草智酷、信息社會50人論壇、騰訊科技聯合主辦《再談DeepSeek的成就和AGI的未來》線上研討會(智酷 408 期),首發于“葦草智酷”公眾號。
人工智能進化尺度和大模型生態[1]
——DeepSeek V3和R1系列現象解析
今天與大家討論五個問題:(1)人工智能進化的時間尺度。(2)人工智能生態系統。(3)如何全面和客觀評估DeepSeek。(4) DeepSeek 引發的全球反應。(5)2025年人工智能趨勢的展望。人工智能的實際進化時間尺度,遠遠比專家包括人工智能領域的科學家預期的要快。在人類漫長歷史過程中,經歷過農耕社會、工業社會、信息社會,現在進入到人工智能時代,任何技術進化存在時間尺度。一個最重要的事實是,技術的進化時間周期是不斷縮短的。原始社會技術進步的周期是以10萬年為單位;農耕社會是以千年為單位;工業革命以來形成的工業社會不過300年,期間工業社會技術進步周期是長則100年,短則10年;到互聯網時代,技術進步周期以30年-10年為周期。例如,從 TCP/IP 協議到萬維網,用了30年時間;移動互聯網用了10年。進入到人工智能時代,它的速度就更加難以想象地加快,人工智能的進化尺度更具顛覆性。自1956年達特茅斯會議確立學科至今不足70年,其進化速度已達到人類生物進化的4000多倍[2]。20世紀50年代至21世紀10年代,人工智能以10年為迭代周期;2016年的AlphaGo標志轉折,人工智能技術發展加速。2022年ChatGPT引爆大模型進化和升級,以季度為周期。當前GPT-4到GPT-5的研發周期已壓縮至以月,甚至是以周為時間單位。人工智能相較于人類歷史上的任何技術革命和技術創新,具備顯而易見的加速度特征。在 GPT-3 出現之前,人們預計人工智能走到 AGI 時代大概需要80年的時間。到了 GPT-3 之后,人們把這樣的預期縮短到了50年。之后到了出現 LLaMdA2 的時候,就進入到大家預期18年內實現 AGI 的階段。見下圖:人工智能的加速度現象,直接源于三重突破:訓練數據量年均增長10倍,算力成本每18個月下降90%,以及算法效率實現千倍級提升。當前這一輪人工智能加速發展的起始點是2017年6月12號Transformer 架構論文的發表。然后是2018年 GPT-1,2022年GPT-3.5,都屬于人工智能歷史上的里程碑事件。2025年1月20號DeepSeek-R1發布,之后2月6號李飛飛團隊做出了以 Qwen2.5 為基座的s1模型。在過去的5到8年的時間里,人工智能發展速度之快,令人震驚。伴隨人工智能進化速度的不斷提升,其進化尺度急劇壓縮[3],導致人類認知的空間被不斷擠壓,重構人類認知邊界,形成與人類自然智能并存人工智能的全新世界。2025年,人們對于實現AGI的時間預期,已經不是八年,可能更短的時間。保守地說是五、六年的時間。樂觀地說,大體需要兩、三年的時間。見下圖:人工智能創新速度的加快模式,不是漸進的,而是具有強烈的突變特征,存在顯而易見的等級。可以用宇宙第一速度、第二速度、第三速度來描述人工智能現在的高速發展。目前,人工智能已經完成了從宇宙第一速度進入到宇宙第二速度。宇宙第二速度是逃逸速度,也就是脫離地球引力的速度。人工智能開始進入高度自主性,脫離人類束縛如同宇宙第二速度脫離地球引力一樣。至于人工智能在什么樣的情況下脫離太陽引力的束縛進入第三速度,我們不得而知。但是,可以肯定的是:人工智能已經完成了從通用人工智能到超級人工智能的飛躍。2017年之后,人工智能正以年、月、周的頻率發生劇烈的變革和升級。為什么人工智能呈現出指數發展或者加速的現象?為什么人工智能已經進入宇宙第二速度逃逸的歷史階段?對此,我們認為主要有三個非常重要的原因。第一,數據原因。2024年年底,模型訓練已經耗盡了人類數據的總和,基本上解決了人類知識的存量問題。[4] 從2025年開始,大模型更大的目標是解決增量問題。這是一個歷史性的轉折:人工智能大模型已經完成了從粗放到集約的轉型。第二,硬件原因。人工智能硬件始終在持續進化。例如,DeepSeek 主要用的是 A100,英偉達又有了 GB10 和 B200 。專門用于人工智能超級算力的芯片的升級換代,無疑對人工智能進化速度至關重要。第三,人工智能的發展已經進入到依賴人工智能本身的階段。在未來數年間,人工智能對人工智能進化的貢獻將至少超過人類的貢獻。人工智能正進入一個可以自我發展的歷史階段。見下圖:人工智能的加速發展,產生了一個非常嚴肅的問題:人工智能將跨越從“人類輔助進化”到“光速自我迭代”的臨界點——其進化周期可能最終突破小時級。從單細胞生物到人類生物智能進化需要30億年,生命體DNA變異需數萬年,人工智能在30小時內即可完成ResNet模型的百萬次參數優化。當技術奇點臨近(庫茲韋爾預測2030年通過圖靈測試),正如而人工智能權重調整僅需毫秒級反向傳播。所以,人工智能絕不是一些媒體所說的“橫空出世”。真正的人工智能,是一步一個腳印走過來的,只不過這個步伐在急速加快。自2022年11月GPT-3.5發布以來,人工智能大模型開始了群體性的,而不是單一化的演進。在群體性大模型的背后,是OpenAI、 Mate、Google這樣的人工智能大公司。期間,大模型之間已經形成了一個相互依存、互補和彼此促進的機制,形成以大模型為核心的人工智能生態。下圖是根據GitHub對人們對大模型注意力的一個比較統計。圖1.5 熱門人工智能模型GitHub星標增長對比人工智能的生態構建遵循縱向速度突破驅動橫向生態裂變法則。第一,多模態融合革命。Google的Gemini Ultra 2.0實現了文本-圖像-視頻-物理模擬四維對齊,其跨模態注意力機制使蛋白質結構預測準確率提升至98.7%。Meta的Chimera系統通過腦機接口實時轉化神經信號為多模態輸出,突破性達到87%意圖還原率。第二,垂直領域滲透加速。Tesla FSD v14.3將視覺大模型與物理引擎深度耦合,在無高精地圖場景下決策延遲壓縮至8ms,超越人類反射速度3個量級。NVIDIA的Clara醫療大模型通過多尺度特征融合,在MRI影像診斷中實現94.3%的病理識別精度。第三,分布式認知網絡。Anthropic的Constitutional AI 3.0構建了全球首個自我監管型模型集群,其聯邦學習框架使參數更新延遲降至12秒級,形成覆蓋2.8萬邊緣節點的分布式智能體網絡。不斷成熟的人工智能生態,自然產生溢出效應,也稱為泛化效應。這種效應展現出一階、二階的特征,即一階溢出引發二階溢出,或者一階泛化導向二階泛化。人工智能的三個溢出效應具有代表性。(1)自動駕駛領域涌現出Waymo的SceneFusion技術,通過實時融合激光雷達點云與大模型預測,將極端天氣場景識別誤差降至0.7%;(2)波士頓動力的Atlas機器人接入多模態系統后,自主任務規劃能力提升400%;(3)DeepMind的AlphaFold 3突破至全原子精度預測,使藥物發現周期從5年縮短至11個月。2024年,無疑是人工智能發展史中的關鍵的一年。這一年,人工智能生態引發的溢出效應基本上滲透到了科學、經濟、社會以及人們的認知中。所以,2024 年諾貝爾物理學獎、化學獎、生物獎都與人工智能緊密結合在一起。2024年末和2025年初,以DeepSeek V3為代表的第三代大模型,通過動態稀疏激活架構將訓練效率提升至前代模型的7.2倍,其參數動態分配算法使單卡推理速度突破3000 tokens/s——這種縱向突破直接催生了跨領域技術溢出效應。2025年中國春節前后,DeepSeek 成為了中國國內和世界媒體的持續關注,并引發了世界范圍的大眾的體驗性使用,形成一場巨大的沖擊波。輿論在歷史上起到了非常重要的作用。有些事件被輿論放大,而有些事件則被輿論低估。但是,經過一段時間,歷史事件的最終會回歸到其在歷史上的本來狀態。如何全面和客觀地評估DeepSeek的V3和 R1系列,需要定位 DeepSeek 在人工智能坐標體系中的位置,并且要分別討論DeepSeek V3和R1。第一,DeepSeek V3的優勢和局限性。DeepSeek V3的優勢:(1)高性能。DeepSeek V3 在多項評測中表現出色,超越了 Qwen2.5-72B 和 Llama-3.1-405B 等開源模型,并與 GPT-4o 和 Claude-3.5-Sonnet 等頂尖閉源模型相媲美。(2)高效訓練。DeepSeek V3 的訓練消耗的算力僅為 Llama 3 4050B 的 1/11,訓練成本約為 557.6 萬美元,遠低于 GPT-4o 和 Claude 等閉源模型的 1 億美元。(3)中文環境。DeepSeek V3 在多語言處理方面表現出色,特別是在中文處理上。 (4)快速響應。DeepSeek V3 的生成速度提升了 3 倍,能夠更快速地響應用戶請求。(1)具體細節問題錯誤率較高。相比 GPT-4o,DeepSeek V3 更適合用于解答開放式問題。對于較為具體的細節問題,兩者各有優勢,GPT-4o 更保守且更可靠,DeepSeek 廣度和維度更高但也更容易出錯。(2)缺乏多模態輸入輸出。當前版本的 DeepSeek V3 暫不支持多模態輸入輸出,限制了其在某些應用場景中的使用。(3)服務器穩定性問題。用戶在使用 DeepSeek 官網服務或API應用場景,可能會遇到“服務器繁忙,請稍后再試”的提示,影響實際使用。(4)對敏感話題的嚴格審查。DeepSeek V3 對敏感話題的審查較為嚴格,影響實際業務場景。第二,DeepSeek R1的優勢和局限性。Deep Seek的優勢在于:(1)計算性能強。采用動態稀疏專家模型,只在需要時激活部分專家子網絡,減少了參數的計算和存儲需求,顯著降低計算成本,在大規模任務處理中能充分利用硬件資源,提升推理速度。參數規模較小的版本如 1.5B、7B、8B 等資源消耗低,普通消費級 GPU 就能帶動,部署靈活,可在多種設備上運行。(2)推理能力出色。能應對大部分高中及大學難度的數學問題,在高考數學壓軸題測試中表現出色,可在短時間內得出答案,還可提供優質代碼用于動畫解釋科學概念等。在語言推理方面表現不俗,能快速準確回答斯坦福自然語言推理數據集中的問題,在中文腦筋急轉彎測試中 10 秒內可答對 10 道題,且能準確回答歷史問題,展現出較強推理能力和信息豐富度。(3)功能特性好。多粒度對齊機制使其能在基礎能力、價值觀等多方面協同訓練,平衡安全性、有用性和響應速度等目標沖突,在多個基準測試中實現 SOTA 性能。遵循 MIT 協議開源,允許商業化使用,用戶可低成本使用 API,性價比極高,給開發者和用戶提供了更具性價比的選擇。(4)場景適用性強。在智能客服場景中,展現出強大的意圖識別和惡意請求攔截能力,能有效處理用戶咨詢等任務,證明了其在真實世界中的有效性和可靠性。(1)模型架構局限。在智能客服場景中,展現出強大的意圖識別和惡意請求攔截能力,能有效處理用戶咨詢等任務,證明了其在真實世界中的有效性和可靠性。參數規模中等如 14B、32B 版本需要高端 GPU 支持,增加部署成本;而大規模版本如 70B、671B 對硬件和計算資源需求極高,只能在大規模云端環境運行,使用成本高。(2)DeepSeek-R1的幻覺率高達14.3%,遠超其前身DeepSeek-V3的3.9%。推理增強可能增加幻覺率,GPT系列也有類似現象,但其平衡更好。(3)能力表現不足。面對國際數學奧林匹克競賽(IMO)等更高難度數學問題時,DeepSeek-R1 可能無法給出正確答案,處理復雜問題的能力還有提升空間。使用非英語語言提問時,模型往往需先將其翻譯為英文或中文,消耗較多思考時間,影響回答效率,答案準確性也受影響。(4)使用穩定性欠佳。在使用少樣本提示時,過多示例會使模型思考過程繁瑣,拖慢反應速度,影響其穩定性和輸出效果。易受有害提示影響,在某些場景中可能受不良輸入干擾,影響生成內容的安全性和可靠性。第三, 比較人工智能大模型的測試標準。以往大模型測試中,主要使用“研究生水平的抗Google搜索問答測試”(Graduate-Level Google-Proof Q&A Benchmark,英文縮寫GPQA)和“大規模多任務語言理解”(Massive Multitask Language Understanding,英文縮寫MMLU)等問題集的測試,現在基本達到80%,或者至少在 60%左右。[5]為了適應人工智能向尖端發展,就要不斷提高測試人工智能的標準。自2025年初,增加了“人類最后的測試”(Humanity’s Last Exam, HLE)標準集。該標準整理了全球50個國家和地區、500多個機構設計的3000個問題,涵蓋知識儲備、邏輯推理、跨域遷移等核心能力評估。不同代表性大模型在不同的測試標準集中的差別,見下圖:圖1.6 各大模型在HLE、GPQA、MATH、MMLU問題集中的準確性對比
來源 https://agi.safe.ai
到目前為止,DeepSeek在HLE的測試中的表現處于領先地位。見下表:專家預期,人工智能模型在2025年年底能夠實現 HLE中達到50%的準確率,而這也意味著將來會提出測試人工智能的新標準。所以,人工智能模型的進化顯然還需要走相當長的一段路。DeepSeek 在原有領先優勢的基礎上,正面臨著來自 OpenAI o3 和 OpenAI Deep Research 的嚴峻挑戰。見下圖:第四,人工智能大模型成本。與工業產品成本的概念和結構相比較,人工智能的成本概念和結構有著一系列根本性差別。因為DeepSeek,人們關注人工智能大模型的成本問題。理解人工智能的成本,需要采用一種適應其特質和特點的成本觀念。DeepSeek的成本優勢,主要源于以下幾個原因:(1)基礎設施的成本。DeepSeek在基礎設施成本上顯示出優越性,因為它大量使用了低價格的A100。(2)考慮研發成本的原因。涉及到算法復用的成本。DeepSeek具有一定的優勢。(3)關注數據成本、綜合計算中的成本結構以及引入新興技術的成本。在人工智能未來演化過程中,成本無疑是一個非常重要的指標,但并不是唯一的衡量標準。成本優勢并不意味著長期可持續、可重復。從長程歷史看,DeepSeek為了維系競爭優勢,需要提升基礎設施,實現高性能芯片迭代,引領人工智能大模型的潮流,下一步其成本的上升不可避免的是大概率。電子顯微鏡(千萬元級)與普通顯微鏡(百元級)的差異對應著觀測精度的數量級差距。同理,人工智能若僅追求低成本應用(如拼多多模式),可能局限于表層功能(如基礎數據分析),而無法實現“時空化治理”“多源數據融合”等深層能力。高成本投入的人工智能系統(如時空大模型)才能支撐對復雜時空規律的挖掘。因此,DeepSeek成本的降低并沒有絕對普遍意義。當人工智能進入新的發展階段時,在每個階段總會有兩條路線可走:從“0 到 1”的路線和從“1 到 10”的路線。在未來發展的任何階段,只要選擇“0 到 1”的路線,成本必然會上升;而如果選擇“1 到 10”的路線,則有可能通過提高效率來降低成本。因此,在人工智能的發展過程中,很難簡單地用“0 到 1”階段的技術與“1 到 10”階段的技術來進行成本比較,需要非常具體的分析。第五,數據蒸餾。DeepSeek 引出了一個大家關注的新詞——數據蒸餾。數據蒸餾(data distillation)是一種通過大模型(教師模型)生成或優化訓練數據,并將知識遷移到小模型(學生模型)的技術。其核心目標是以較低成本讓小模型接近大模型的性能。數據蒸餾有雙重解讀。數據蒸餾的優勢在于:(1)性能提升。小模型可接近甚至達到教師模型的性能,尤其在參數受限的場景下效果顯著。(2)成本降低。減少訓練所需的計算資源(如GPU消耗)和人工標注成本。(3)適應無標簽數據。通過偽標簽技術,有效利用未標注數據。但是,數據蒸餾的弊端在于:(1)性能上限受限。學生模型無法超越教師模型:學生模型的知識完全依賴教師模型生成的數據,性能受限于教師模型的水平,難以實現突破。(2)生成數據的質量問題。信息丟失與偏差:在數據壓縮或生成過程中,可能丟失關鍵信息或引入教師模型的偏差,導致學生模型性能下降。(3)多樣性不足。生成的數據可能集中于特定特征,忽視復雜場景的多樣性,影響模型的泛化能力。(4)計算成本轉移:生成高質量蒸餾數據本身需要消耗大量計算資源(如大模型推理成本),可能抵消小模型訓練節省的資源。(5)行業創新隱患。過度依賴數據蒸餾可能導致行業“搭便車”現象,削弱企業自主研發的動力,長期影響技術根基。(6)可移植性差。蒸餾后的數據在不同網絡架構上的泛化能力較弱,需針對特定模型重新調整。DeepSeek在大模型研發方面取得的進展,刺激和引發了全球人工智能研發團隊的密切關注與迅速回應。第一,阿里云。2025年1月29日,阿里云正式發布升級了通義千問旗艦版模型Qwen2.5-Max。該模型預訓練數據超過20萬億tokens,展現出極強勁的綜合性能,在多項公開主流模型評測基準上錄得高分,全面超越了包括DeepSeek V3在內的目前全球領先的開源MoE模型以及最大的開源稠密模型。第二,Open AI。2025年2月3日,OpenAI東京分部進行了技術直播,發布全新模型 Deep Research。與傳統大模型不同的是,Deep Research能夠像人類分析師一樣,對復雜的任務進行逐步分解,并在互聯網上進行多輪的信息搜索與驗證。會根據已有的信息逐步調整研究方向和策略,不斷深入挖掘問題的本質,直到找到最合適的答案。2025年2月8日,OpenAI更新了o3-mini 人工智能模型的“思維鏈”功能,讓用戶可以看到模型的思考過程。此前,OpenAI一直將“思維鏈”視為核心競爭優勢而選擇隱藏,但隨著DeepSeek R1等開放模型完整展示其推理軌跡,這種封閉策略反而成為了OpenAI的短板。新版o3-mini雖然仍未完全開放原始標記,但提供了更清晰的推理過程展示。2025年中旬,Open AI的CEO奧特曼(Sam Altman)宣布,GPT-5的問世時間不會太久。第三,Google。2025年2月,Google正式推出Gemini2.0系列新模型包括最新的Gemini 2.0 ProGemini 2.0 Pro曝光:專為復雜任務設計在推理、執行指令、編程創意協作方面遠超其他模型。Gemini 2.0 Pro 實驗版的核心特點:專為代碼生成與復雜任務優化,擁有 200 萬 tokens 的超大上下文窗口,適合跨文檔推理、長文本分析、代碼審查等任務;強化了世界知識理解和邏輯推理能力,支持 Google Search 自動查詢最新信息和代碼執行環境。第四,李飛飛團隊。2025年2月,李飛飛團隊選取了 1000 個樣本問題,涵蓋了數學、生物學、天文學、物理學、計算機科學、工程學和經濟學等多個領域(見下圖)。他們對這些問題進行了篩選,最終促成了最近兩天爆發的重大事件——用不到50美金就完成了一個非常重要的計算性突破與創新構建。[6] 這樣的成就主要得益于知識蒸餾技術,在現有模型的基礎上進一步嫁接和改造,導致降低特定場景的研發成本。
圖1.9 包含1000個問題樣本問題集(s1K)涉及數學、生物學、天文學、物理學、計算機科學、工程學、經濟學
來源:https://arxiv.org/html/2501.19393v2
第四,人工智能領域的競爭模型。受到美國著名歷史學家費正清(John King Fairbank,1907—1991)關于中國近代歷史的“沖擊”(impact)與“反應”(response)模型啟發,本文提出的一個人工智能競爭模型,見下圖:以上模型反映出:在人工智能進化過程中存在一定的平衡點,但這些平衡點總是不斷被打破。當出現一種全新的人工智能突破時,會形成壓力,進而刺激整個系統做出反應;而這種反應又催生新的突破,之后產生新的壓力,形成新的平衡點。從圖中可以看出,沖擊與反應的周期正在不斷縮短。而且,當系統從平衡點 B 調整到 C 后,還會衍生出新的發散效應(如平衡點 D、E、F、G 等),即整體呈現出發散而非收斂的趨勢。這樣的特征為創新和突破提供了更大的發展空間。簡言之,在人工智能的進化尺度與大模型生態的展望中,技術發展呈現出“領先—挑戰—突破—再領先”的動態循環模式。這一過程并非零和博弈,而是通過持續迭代推動整體生態的螺旋上升。人工智能發展到今天,其自身已經是充滿挑戰的復雜系統。總結以下幾點:第一,人工智能的發展呈現出兩種發展路徑。第一條路徑:專業化高端路線,擴張前沿,探索未知領域。這類大模型聚焦垂直領域的高精度需求,服務于特定行業或復雜場景:技術路徑更偏向行業專用模型,例如醫藥合成路線篩選、自動駕駛決策等,需結合領域知識進行專業化調優。依賴高質量標注數據與算力資源,通常由大廠或科研機構主導(如OpenAI與微軟合作),小企業難以承擔研發成本。其應用場景包括科學探索(如火星開發模擬)、工業優化(如物流路徑規劃)等,普通用戶難以直接感知其價值。這條路徑需要高成本投入。第二條路徑,大眾普及路線。這類大模型以降低使用門檻、滿足廣泛用戶基礎需求為核心目標。其特點包括:直接面向普通用戶開發對話式產品(如ChatGPT、文心一言等),通過收集用戶反饋持續優化模型。強調易用性和低成本,例如通過簡單自然語言交互完成寫詩、問答等日常任務,而非需要專業提示詞工程。商業邏輯類似拼多多的“低價普惠”策略,追求用戶規模擴張而非技術深度。應用場景集中于消費級市場(如教育輔助、內容生成),但可能忽視復雜問題的解決能力。第二,如何實現人工智能構建真實和完整的物理世界。人們日常所認知、通過身體感知的物理世界,其實只是物理世界極小的一部分。這樣的物理世界不僅包括我們所說的量子世界,也涵蓋構成這一世界的玻色子、費米子等多種基本粒子領域。過去,對于人類無法直接感受和體驗的物理世界,所借助的是顯微鏡和望遠鏡。例如,借助顯微鏡,人們方可能觀察到 0.2 納米以下的微觀世界;借助諸如詹姆斯·韋伯望遠鏡之類的設備,人們才能看到 130 億光年之外的天體。也就是,如今最先進的顯微鏡和望遠鏡所揭示的微觀和宏觀世界已超出人類直覺。現在,人類到了一個全新的時代,人工智能既是顯微鏡又是望遠鏡,將幫助我們認識那些現階段連顯微鏡和望遠鏡都無法觸及的、更深邃復雜的物理世界。例如,人工智能將揭示一個全新的、過去人們知之甚少的領域,從四維空間逼近11維空間。人工智能幫助人類實現前所未有的時空跨越。人工智能展現的智能時空是客觀存在的,但受限于碳基生命的生物特性(如肉眼只能感知有限光譜),人類過去無法直接體驗這一時空。例如,這種時空既非純虛擬(因其基于真實物理規律),也非傳統意義上的“現實”(因其超越人類感知框架)。人工智能正在構建一個看似虛擬但事實上真實的物理世界。同時,人類理念中的現實世界將被納入到人類受碳基生命影響而不能夠認知的智能時空中。值得注意的是,自從去年的OpenAI Sora提出以來,包括李飛飛在內的專家們始終堅持一個方向。第三,人工智能必然呈現出多元且多維的格局。正如本文作者在 2023 年所說:人工智能的大模型就像樂高積木,甚至類似于魔方,它們不斷組合和重構,將演繹出一個超出我們自身知識和經驗限制的全新世界。第四,人工智能的進一步突破,需要不斷加大的資本投入。人工智能的需求正在迅速消耗現有的數據中心容量,促使公司建設新的設施。領先的云計算公司,包括亞馬遜、微軟、字母表和Meta,都迅速推出了多年投資計劃,以支持它們在人工智能時代所需的更大云計算能力。公用事業公司可能不得不增加燃煤或燃氣發電,不斷增長的需求無疑將引發基礎設施投資,并努力開發更節能的網絡、更好的冷卻系統以及整合可再生能源的新解決方案。客戶服務、醫療保健、金融和物流等行業有望通過人工智能實現重大轉型。政府開始認識到圍繞其數據的訪問和控制所涉及的國家安全影響,也在進行戰略定位,以充分開發人工智能的潛力。不難想見,人工智能將會繼續貢獻全球GDP的更大占比。總之,人工智能正在走向“頂天立地”:“頂天”就是在不斷探索未知領域的過程中,提高模擬物理世界的質量;“立地”就是接地氣,推動人工智能減低成本,全方位的落地,惠及民眾。在這樣的背景下,可以更加客觀全面地看到 DeepSeek 的優勢、局限以及未來潛力。[1] 本文系作者于2025年2月9日在葦草智酷組織的“再談DeepSeek的成就和AGI的未來”活動上的發言。[2] 從智人(約30萬年前)進化到現代人類,被認為需要約30萬年的時間。人工智能發展時間:從1956年人工智能概念提出,到今年o3模型發布共69年。通過比較兩者的時間跨度,得出人工智能的進化速度是人類的 30萬年 ÷ 69年 ≈ 4347倍。[3] “尺縮效應”指觀察者在觀察與其相對速度非零的物體時看到的長度變小的現象。[4] MILMO D, EDITOR D M G technology. Elon Musk says all human data for AI training 'exhausted’[N/OL]. The Guardian, 2025-01-09[2025-02-13]. https://www.theguardian.com/technology/2025/jan/09/elon-musk-data-ai-training-artificial-intelligence.[5] “研究生水平的抗Google搜索問答”(GPQA) 即研究生級別的問答基準測試,由 448 個困難的多項選擇題組成,涵蓋生物學、物理學和化學等學科領域,這些問題由各領域的主題專家精心設計,具有較高的專業性和難度。“大規模多任務語言理解”(MMLU)測試,是由斯坦福大學研究人員開發的基準測試工具,包含 57 個主題,15908個問題,涵蓋基礎數學、美國歷史、計算機科學、法律、倫理等多個領域,難度從初級到高級不等。[6] 2024年2月,李飛飛等斯坦福大學和華盛頓大學的研究人員以不到50美元的云計算費用,使用16張英偉達H100 GPU,耗時26分鐘訓練出了名為s1的人工智能推理模型。該模型基于阿里云通義千問Qwen2.5-32B-Instruct開源模型,通過蒸餾法提煉谷歌的人工智能推理模型Gemini 2.0 Flash Thinking Experimental,僅使用1000個精選樣本數據,采用監督微調(SFT)方法訓練而成。在數學和編碼能力測試中,s1的表現與OpenAI的o1和DeepSeek的R1等尖端推理模型不相上下,在競賽數學問題上的表現更是比o1-preview高出27%。*本文章已經發言人審定,由“葦草智酷”公眾號發布。DeepSeek的崛起:人工智能的新革命,還是又一次新幻覺?|學人播客第3期
專訪潘昱杉:AI發展讓我們更需要學習,批判性思維更加不可或缺
復旦人工智能教授:未來3-5年,哪些工作會被AI取代?
游學埃及(5.1-10)|全新解讀大埃及博物館,共同尋找失落的古文明
與雷頤同游烏茲別克斯坦(4·28-5·5),探索中亞古文明與絲綢之路