精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
君弘資訊

  DeepSeek為什么能辦到?

  最近,一家名不見經傳的AI企業突然搞出了一個震驚AI圈的大新聞。12月26日晚間,杭州深度求索人工智能基礎技術研究有限公司(以下簡稱“深度求索”)發布了其全新系列模型DeepSeek-V3的首個版本,并同步對模型進行了開源。

  根據“深度求索”方面公布的信息,DeepSeek-V3在知識類任務(MMLU、MMLU-Pro、GPQA、SimpleQA)上的水平相比前代DeepSeek-V2.5有顯著提升,接近當前表現最好的模型——An-thropic公司于10月發布的Claude-3.5-Sonnet-1022。在2024年的美國數學邀請賽(AIME)和全國高中數學聯賽(CNMO)等比賽中,DeepSeek-V3的表現顯著優于其他所有開源和閉源模型。另外,在生成速度上,DeepSeek-V3的生成吐字速度從20TPS(TransactionsPerSecond,每秒事務數量)大幅提高至60TPS,相比V2.5模型實現了3倍的提升,給用戶帶來了更為流暢的使用體驗。

  本來,在AI大模型如過江之鯽的今天,一個新模型的發布已經很難成為一樁新聞。雖然從披露的信息看,DeepSeek-V3確實可圈可點,但在GPT-o1、Claude-3.5-Sonnet等競品面前,它也很難給人留下深刻的印象。然而,當另一個數據公布之后,整個AI圈卻不約而同地為之側目。根據模型附帶的技術論文,DeepSeek-V3的訓練僅使用了278.8萬個H800GPU小時。按照H800GPU每GPU小時租金2美元計算,其總訓練成本僅為557.6萬美元。而對比之下,和它類似體量的Llama3模型的訓練則用了3930萬H100GPU小時。按算力計算,這大約夠訓練DeepSeek-V3模型十五次。考慮到H100GPU的租金價格要比 H800GPU更高,DeepSeek-V3的訓練成本大約僅有Llama3模型的二十分之一,而其在性能方面毫不遜于后者,甚至有所超越。

  既然訓練成本降下來了,模型的使用成本自然也就隨之降低。目前,DeepSeek-V3模型API服務的價格為每百萬輸入詞元(token)0.15美元,每百萬輸出詞元0.3美元;對比之下,GPT-o1模型的價格為每百萬輸入詞元2.5美元,每百萬輸出詞元10美元;Claude-3.5-Sonnet模型的價格為每百萬輸入詞元3美元,每百萬輸出詞元15美元。也就是說,DeepSeek-V3已經成功將價格降到了主要對手的十分之一以下。

  在DeepSeek-V3模型發布之后,筆者也第一時間體驗了一下這款新模型。客觀地說,如果與GPT-o1等閉源模型相比,DeepSeek-V3在總體表現上依然稍顯遜色。不過,考慮到它低廉的成本,其性價比優勢可謂彰顯無遺。業界一直戲稱DeepSeek模型為“AI界的拼多多”,此言確實不虛!

  長期以來,大模型的訓練一直以耗費算力、成本高昂著稱。那么,DeepSeek-V3究竟為什么可以以如此低廉的價格成功完成訓練?其中的奧秘,很大程度上來自該模型使用的“混合專家模型”(MixtureofExperts,簡稱MoE)架構。

  MoE的思想最早可以追溯到上世紀90年代初。根據這一思想,可以通過將多個實現專門功能的網絡組合在一起,構成一個應對多樣化任務的網絡。每一個子網絡被稱為一個“專家”,而由它們構成的組合則被稱為一個“專家組”。為了讓這些“專家”更好地協調,網絡中會安排一個協調者。當面對任務時,這個協調者負責將任務拆分和歸類,并分配到最對口的“專家”那里。如此一來,整個“專家組”結合在一起,就可以處理各種復雜任務。2021年,谷歌的工程師發現了MoE架構在大模型訓練上的價值。他們指出,這種架構可以將原本訓練整個大模型的任務分解為訓練多個“專家”模型。由于每個“專家”模型比整個大模型小得多,其訓練對算力的要求也大幅降低。不僅如此,在MoE架構下,不同“專家”可以并行訓練,訓練時長也隨之縮短,從而顯著提高訓練效率。

  為了幫助讀者更直觀地理解MoE架構,我們不妨來看金庸小說《天龍八部》中的一段情節。在小說第十回《劍氣碧煙橫》中,吐蕃國師鳩摩智要求大理天龍寺限期交出《六脈神劍劍譜》。天龍寺的枯榮大師不愿就范,希望與幾位高僧一起緊急修煉六脈神劍以拒敵。不幸的是,這幾位高僧的武學資質較為平庸,難以單獨練成這門絕世武功。情急之下,枯榮大師想出了一個辦法:讓六位高僧分別修煉“六脈”中的一脈。通過分工,六位高僧終于在有限時間內各自練成一脈神劍。在對戰鳩摩智時,六位高僧組成“六脈劍陣”,在枯榮大師的指揮下成功與鳩摩智周旋。

  這段劇情很好地說明了MoE的本質。如果將六脈神劍中的每一脈視為一個任務,六脈神劍便是一個多任務的大模型。故事中,練習六脈神劍需要強大資質,如同現實中大模型訓練對算力的高要求。而枯榮大師讓高僧們各修一脈的做法,相當于將模型拆分為六個“專家”。通過這樣的任務分解,本身資質有限的高僧們得以速成六分之一的武功,并通過組合達成類似完整版六脈神劍的效果。類似地,幾個訓練好的“專家”模型經過加總與協調,也可實現完整模型的功能,同時訓練門檻和總成本遠低于直接訓練整個大模型。

  當然,相比完整訓練的模型,用MoE架構訓練的模型也存在弊端。例如小說中,鳩摩智趁人不備偷襲劍陣成員之一保定帝,導致劍陣失去威力。如果保定帝修煉的是完整的六脈神劍,鳩摩智或許難以輕易得手。同樣,由于MoE模型的“專家”是分別訓練的,其通用性較差,對復雜任務的完成高度依賴協調系統。如果協調模塊出現問題,模型能力將大打折扣。

  盡管如此,MoE架構在降低模型訓練門檻、減少訓練成本方面的貢獻無可否認。這次DeepSeek-V3的爆冷成功,充分說明了這一技術路線的價值。可以預見,隨著MoE及其他技術路線(如模型剪枝、知識蒸餾、稀疏性等)的逐步成熟,AI模型訓練將迎來一個低成本的新時代。那么,接下來會發生什么呢?

  算力不重要了嗎?

  DeepSeek-V3問世后,不少人預測,這將導致AI行業對算力需求的大幅回落,其后果是,以英偉達為代表的一批算力企業的業績和市值將受到重創。這種觀點頗具影響力。事實上,就在DeepSeek-V3發布之后,A股算力板塊經歷了一輪集體下跌,一些專家認為,這是對算力需求預期回落的直接反應。那么,情況真的會這樣嗎?在回答這一問題前,我們不妨回顧一段歷史。

  19世紀中期,英國正處于工業革命高峰期,煤炭作為主要能源,支撐了蒸汽機、鋼鐵工業和交通運輸等領域的快速發展。煤炭的廣泛使用促進了工業化和經濟增長,但也導致了對煤炭的過分依賴和過度消耗。在這樣的背景下,許多學者開始反思煤炭使用的可持續性問題。

  英國經濟學家威廉·斯坦利·杰文斯(WilliamStanleyJevons)是其中的代表人物之一。熟悉經濟思想史的人對杰文斯不會陌生。他與卡爾·門格爾(CarlMenger)、萊昂·瓦爾拉斯(LéonWalras)并稱“邊際革命三杰”,推動了經濟學研究范式從古典向新古典的轉變。杰文斯在應用經濟學領域也有諸多貢獻,其中之一便是他提出的“杰文斯悖論”(JevonsParadox)。

  1865年,杰文斯在著作《煤炭問題》(TheCoalQuestion)中分析了英國煤炭使用和開采的趨勢,得出一個令人憂慮的結論:隨著經濟發展,煤炭供給將難以滿足需求,若該趨勢持續,煤炭資源將枯竭,英國經濟將遭受重創。他還反駁了“能源使用效率提升能緩解資源枯竭”這一流行觀點。他寫道:“認為燃料的節約使用等于消費的減少,這是一個誤導人的觀點。事實上,新的經濟模式反而會導致消費的增加。”杰文斯認為,更高的煤炭使用效率提高了煤炭的性價比,刺激了更多人使用煤炭,最終使煤炭總消耗增加。這一效率與總量之間的矛盾即為“杰文斯悖論”。

  盡管杰文斯對煤炭枯竭的預測未成現實,《煤炭問題》并未廣為人知,但“杰文斯悖論”卻在后續研究中被多次驗證。例如,歐美交通行業的研究表明,雖然汽車燃油效率不斷提高,但汽車保有量和使用量的增長使能源總消耗未顯著減少。同樣,在日、德等國家的家庭用電研究中,節能電器的引入并未帶來預期的能源需求下降。

  將模型訓練算力需求下降與這一歷史對比,不難發現兩者間存在諸多相似點。因此,有理由推測,“杰文斯悖論”可能在算力領域再次上演。也就是說,模型訓練所需算力的下降,可能非但不會讓市場上對算力的總需求下降,反而可能激發對算力總需求的增長。具體來說,目前有如下幾股力量可能導致這一現象的出現:

  首先,隨著訓練模型需要的算力減少,大量算力資源可能會被轉投入推理端。從目前算力市場的需求結構來看,訓練和推理的比例大約是7:3。換言之,當前約有70%的算力用于模型訓練,僅30%用于推理。然而,這并不意味著推理端的算力需求較少。事實上,當前各大AI供應商的推理算力普遍不足。以OpenAI為例,近期不少用戶反映,其旗下的GPT-4o和GPT-4出現了較為明顯的“降智”現象,而這正是由于推理算力不足所導致的算力使用總體控制問題。即便是像OpenAI這樣資源雄厚的企業尚且如此,推理算力的稀缺性也可見一斑。現階段,多數AI企業將大量算力配置于訓練端,主要是因為訓練的重要性更高——如果模型本身不夠優秀,后續推理環節便無從談起。因此,即使訓練算力需求下降,短期內節省的算力資源也會迅速被轉用于推理端,從而導致算力總需求難以顯著下降。

  其次,隨著模型訓練算力需求的減少,AI企業可能會選擇開發更多、更優秀的模型,從而顯著提升算力總需求。當前,AI大模型賽道內卷嚴重,每家企業為了在競爭中占據一席之地,往往會選擇在既有算力資源下開發更多的模型,或將資源集中于少數重點模型的訓練中。無論采用哪種策略,激烈的競爭都將促使企業最大化利用其可支配的算力。換言之,單個模型訓練算力需求的下降,只是放寬了企業的選擇空間,而企業依然會耗盡其手中所有算力。

  再次,模型訓練算力需求的下降可能會降低行業門檻,吸引更多新企業進入市場,從而顯著提升算力總需求。以往,模型訓練所需的高昂算力成本是進入AI市場的主要門檻,阻擋了許多創業者。然而,隨著訓練算力成本的下降,這些創業者中的一部分將能夠進入市場,創立自己的AI企業,進而創造出新的算力需求。這種新增需求可能是極為龐大的。

  最后,隨著模型訓練成本的下降,模型使用成本也將降低,從而吸引更多用戶采用大模型,進一步推動算力需求的增長。這種情況類似于福特T型車的故事。20世紀初,汽車的平均售價約為4700美元,高昂的價格讓大部分家庭望而卻步,導致汽車市場規模難以擴張。亨利·福特在1903年創立公司后,通過改進制造工藝、引入流水線技術等手段,將福特T型車的生產成本降至800美元,售價壓低到850美元,使得更多家庭能夠負擔得起汽車。這一改變不僅擴大了汽車市場需求,還推動了福特公司的產能增長,最終實現了規模經濟。到1914年,福特T型車的生產成本進一步降至200美元,售價僅為260美元。盡管單車價格降至原來的十分之一,整個汽車市場的規模卻增長了許多倍。在我看來,如今的大模型市場可能正在復制這一百年前的故事。

  綜合以上分析,DeepSeek-V3引發的訓練成本下降可能成為“杰文斯悖論”的又一例證。總體來看,算力需求不僅不會減少,反而可能因此顯著增加。

  算力門檻降低是一連串的事件

  需要指出的是,雖然在我看來,DeepSeek-V3的成功不會降低AI對算力的總需求,但這并不意味著這個事件本身并不重要。事實上,在我看來,這一事件的影響十分深遠,從某種意義上講,它甚至會改變整個AI市場的競爭格局。要說明這一點,我們需要先對AI市場的結構有一個基本的了解。

  當我們提到AI市場時,實際上是在討論一個多層次的市場:

  底層是基礎支持層,包括訓練和開發AI所需的軟硬件。在這一層中,GPU市場是最核心、最受關注的部分。眾所周知,目前在這一市場上,英偉達可謂一家獨大。根據咨詢機構Techsight發布的數據,2023年全球數據中心GPU出貨量為385萬顆,其中英偉達的市場份額高達98%,第二名AMD僅占1.2%,英特爾不足1%。英偉達能夠取得這樣的市場地位,很大程度上依賴于大模型訓練對算力的高要求。在訓練過程中,數以萬計的GPU需要高效協同,而英偉達在GPU協同性能方面表現尤為出色。正因如此,各大AI企業即使面對英偉達的高價策略,也不得不被動接受——用經濟學的術語來說,英偉達利用了其技術上的獨特優勢,成功獲取了高于市場價的“租”(rent)。

  中間層是基礎模型層,主要參與者是開發和提供基礎大模型的AI企業。過去幾年中,這一層的競爭最為激烈。為了爭奪市場,數百家AI企業紛紛使出渾身解數。在“百模大戰”后,市場逐漸由幾家互聯網巨頭和少數新崛起的AI企業主導,其他眾多參與者則陸續退出市場。在這一過程中,有兩點值得注意:首先,一些失敗的企業盡管技術能力優秀,卻因難以負擔巨大的算力成本而不得不退出,這無疑限制了市場的多樣性和可能性;其次,即便是那些在“百模大戰”中獲勝的企業,從成本收益的角度來看,也未必是真正的贏家。雖然部分企業實現了可觀營收,但大部分收入轉手支付給了英偉達等算力供應商。從整體來看,大模型企業普遍難以實現盈利。

  最上層是AI的應用層,即將基礎AI模型與各行業實踐相結合的領域。最值得關注的是各種“AI智能體”(AIAgent)。許多專家預測,在未來幾年,AI智能體將成為AI應用的核心。例如,巴克萊資本公司的一份報告預計,到2026年,消費端AI智能體的日活躍用戶將突破10億,企業端AI智能體的采用率也可能覆蓋全球70億軟件任務的5%。然而,這一趨勢同樣需要大量算力支持。巴克萊的報告指出,為滿足如此龐大的算力需求,行業GPU支出需增加4000億美元,而這筆巨額支出最終將成為新的“租”,流入英偉達等GPU供應商的口袋。

  DeepSeek-V3的成功及其引發的訓練成本大幅下降,可能對上述各層市場的競爭格局產生深遠影響。

  基礎支持層的格局可能迎來巨變。盡管英偉達仍可憑借既有優勢占據大部分市場份額,但其一家獨大的局面可能被打破。隨著訓練算力門檻降低,一些企業或許會放棄“萬卡集群”,轉而選擇更小規模的GPU集群進行模型訓練,對GPU協同性能的需求也隨之降低,從而削弱英偉達的傳統優勢。這為AMD、英特爾等競爭者提供了機會,其他潛在的市場進入者也可能因此獲益。市場競爭的加劇將削弱英偉達的議價權,讓AI模型企業保留更多利潤。

  基礎模型市場的競爭可能重新變得激烈。一些意外的“顛覆式創新”也可能隨之出現。如前所述,在“百模大戰”中,有不少企業原本具備較好的技術能力,卻因難以負擔巨大的算力成本而被迫退出市場。可以預料的是,隨著算力成本變得更加可控,其中一部分企業將重新進入市場。再加上一些新競爭者的加入,整個市場的競爭程度可能會顯著提升。

  需要指出的是,訓練成本降低對基礎模型市場競爭格局的改變,可能不僅體現在“量”的層面,還會在“質”上產生深遠影響。著名戰略學家克里斯藤森(ClaytonChristensen)提出了“顛覆式創新”(DisruptiveInnovation)的概念。這類創新的特點是,創新者的產品在初期性能通常較差,難以吸引高端用戶群體。但它們往往以高性價比為切入點,先從中低端用戶群體中獲得突破,逐步擴大市場份額。在此過程中,產品會快速迭代,性能持續提升,最終可能超越市場上的主流產品,成為新的主流。

  以此為標準觀察AI大模型市場,已經有不少企業在嘗試走“顛覆式創新”的路線。雖然它們的性能確實不及GPT、Claude等頭部大模型,但它們已經能夠滿足用戶的基本需求。而且,這些企業在實踐中表現出較快的產品迭代速度,產品特征也在迭代過程中日益顯著。可以說,如果給它們足夠的時間,即使它們無法徹底顛覆GPT,也至少有可能開發出與GPT存在明顯差異化的產品,并在市場上占據一席之地。

  然而,受限于高昂的訓練成本,這些企業的創新頻率被嚴重抑制,缺乏盈利能力也容易讓投資者喪失耐心。在這種重重壓力下,能夠堅持到開發出符合市場需求產品的企業可謂鳳毛麟角。而當模型訓練成本大幅降低后,這些企業將迎來全新的機會。相比過去,同樣的一筆投資能夠支撐它們更長時間,從而顯著提高其實現“顛覆式創新”的可能性。

  AI應用市場可能因此更加繁榮。訓練成本下降后,AI企業將有更多自由度選擇將算力用于訓練還是推理。許多企業可能會選擇在推理端投入更多算力,從而推動AI應用生態的發展。與基礎支持層和基礎模型層不同,應用層直接面向C端用戶。當這個市場進一步發展時,反過來將對基礎支持層和模型層形成有力推動,實現整個AI市場的良性循環。

  綜上所述,模型訓練算力需求的下降可能是整個AI行業的一個轉折點。它引發的一系列連鎖效應有望在未來幾年改變市場的基本面貌。

  一些隨想

  本來,暢想完DeepSeek-V3可能給整個行業帶來的影響后,本文也該結束了。但在擱筆之前,筆者還是想再說幾句隨想。

  就在幾天前,DeepSeek-V3的發布者——“深度求索”這個名字,還幾乎無人知曉。甚至有幾位業內人士在聽到DeepSeek-V3后,特地來問我,這家公司到底是何方神圣。這其實并不奇怪。畢竟從理論上講,“深度求索”成立才一年多時間,在強敵林立的大模型賽道上,它并不算出名。事實上,在此次因DeepSeek-V3一舉出圈之前,關于它的最大新聞還是其上一款 AI模型DeepSeek-V2曾將大模型的使用價格“砍”掉了90%以上,從而帶頭挑起了大模型的價格戰。然而,沒過多久,騰訊、字節跳動、阿里巴巴等巨頭紛紛加入了這場價格戰,結果,最初的帶頭人反而被遺忘了。

  盡管“深度求索”本身并不出名,但其母公司——幻方量化的知名度卻要高得多。早在去年,就有媒體曝出,國內GPU數量最多的企業并非AI公司,而是這家從事量化投資的金融公司。更令人驚訝的是,在眾多AI公司意識到算力的重要性之前,幻方量化早已悄悄囤積了1.1萬張GPU顯卡。當時,許多人好奇地問:一家金融公司究竟需要這么多GPU做什么?而隨著DeepSeek-V3的成功,這個問題似乎已經得到了完美的回答。

  有意思的是,盡管幻方量化手握上萬張顯卡,但它并未像許多AI企業那樣,通過“堆算力”的方式訓練模型。相反,它選擇了“過緊日子”,積極探索如何降低模型訓練的成本。精打細算,這或許正是金融人和技術人在思維上的根本區別吧!

  這一次,AI市場或許將因為這種金融思維而發生不同尋常的變化。

免責聲明:市場有風險,投資需謹慎。本平臺資訊相關內容、數據來源于公開信息或第三方,可能因網絡、系統、硬件、軟件等各種原因存在延遲、遺漏或錯誤,國泰君安證券股份有限公司對其真實性、準確性、完整性和及時性不作任何保證。本資訊內容中如涉及具體股票名稱、代碼或技術圖形等,僅供知識介紹或操作演示使用。本資訊內容僅供參考,不構成對所述證券買賣的意見,不應作為投資決策的唯一參考因素,投資者需自主作出投資決策并獨立承擔投資風險。在任何情況下,國泰君安證券股份有限公司不對任何機構/個人因使用本資訊內容所導致的任何損失負任何責任。

本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
幻方大模型概念股梳理
OpenAI科學家盛贊中國大模型:算法非常強,算力用到極致!
大模型預訓練“狼人殺”,是誰悄悄掉隊了?
大模型“免費”送,廠商們圖什么?
性能匹敵GPT
AI領域“神秘東方力量”震驚世界,英偉達的最大空頭出現了
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 石泉县| 侯马市| 沾化县| 河曲县| 鄢陵县| 江达县| 鹰潭市| 永顺县| 克什克腾旗| 稻城县| 金塔县| 田阳县| 额尔古纳市| 淮南市| 桐城市| 涟水县| 京山县| 庆安县| 惠来县| 稷山县| 嵊州市| 上杭县| 广州市| 安顺市| 吴忠市| 鲁山县| 株洲市| 南川市| 仙桃市| 上林县| 惠来县| 新建县| 秦皇岛市| 鹰潭市| 葫芦岛市| 洪泽县| 报价| 正镶白旗| 余江县| 友谊县| 深州市|