關于DeepSeek的評論已經是鋪天蓋地。
(如果你還沒看過對梁文鋒的兩篇訪問——《揭秘DeepSeek:一個更極致的中國技術理想主義故事》和《瘋狂的幻方:一家隱形AI巨頭的大模型之路》,那你肯定應該先看這兩篇文章。所有對于DeepSeek的了解,都沒有直接聽聽梁文鋒自己怎么說,更直接。)
而在大量的網上討論中,有兩個在我看來是常見的誤解,似乎被提及的還不多,可以再討論一下。
AI的門檻不是很高
技術門檻不高
一講到AI,很多人馬上就可能會覺得是高深莫測。
實際上,AI技術發展至今,重大的理論突破并不多。
今天所有語言大模型所基于的Transformer架構,相關論文發表于2017年,距今已差不多有8年歷史。
在這8年時間里,大語言模型取得了突飛猛進的進展,當然是因為實現了一次又一次的技術突破,包括這次DeepSeek所做的一系列創新。
但這些突破都是屬于遞增改良式,所需要的理論基礎,基本都是在大學本科知識范圍內。
而且,像英偉達、微軟這些軟硬件供應商,都會提供各種資源,努力幫助你降低技術門檻。
所以,DeepSeek所招聘的人員,用梁文鋒的話說,“都是一些Top高校的應屆畢業生、沒畢業的博四、博五實習生,還有一些畢業才幾年的年輕人。”
這些人員在加入團隊之前,基本都沒有什么AI方面的專業知識。
人員配備門檻也不高
雖說DeepSeek所謂500~600萬美元的訓練成本,僅僅是最后一次訓練的算力成本,并沒有包括前期的大量研發投入,但基礎大模型的整體開發成本,還是在很多機構的承擔范圍內。
DeepSeek團隊100多人,相對一些動輒數百幾千團隊的頭部AI大廠而言,人數確實不多。
但一些大廠團隊中,還包括很多是商業團隊人員。
核心研發人員,并不是必須要這么多人。
幾十人團隊開發的基礎大模型,并不罕見。
頭部AI公司Mistral AI融資之后,目前總員工人數也只是200人出頭。
資金門檻也不算太高
就算力來說,目前國內H800/80G顯卡價格在20萬左右。
要搭載一萬塊的話,就要20個億,確實不是一筆小數目。
但是,這個是一次性固定投入。
固定投入攤銷,再加上運維成本,平均到每年需要多少算力成本開支,我不知道具體數字,但可以根據幻方基金的經營規模做出上限的推算。
假設這些年來幻方量化的平均管理規模是500億,平均每年收益 12%。
以2%管理費、20%業績提成來推算的話,幻方量化的平均每年的營業收入就是500x0.02+500x0.12x0.2=22億。
但這是基金的全部收入,要扣除掉基金的各種運營成本之后的盈余,才能投入到AI研發中。
就算基金運營和DeepSeek研發中有很多資源可以共享,每年DeepSeek相關研發的支出,應該不會超過10個億。
10個億當然不是一個小數目,但也是在很多公司的預算范圍之內。
且不說像字節騰訊阿里這樣的頭部大廠,像快手這樣的“腰部”公司,每年的研發支出也要160多億。
難點在效率
但門檻不高不等于容易——開餐館沒有門檻,但有幾個人能開得成功?
AI研發的真正難點在于效率——如何有效地用好GPU集群進行訓練和推算,如何有效地對數據進行收集、清理和標注。
提升效率,不僅是為了降低成本,更是為了縮短研發周期,提升成功的概率。
更高的效率、更短的周期,才能有更多的對新想法的嘗試和檢驗機會,也才會就有更多的突破機會。
結論:大模型缺乏護城河
未來AI發展的前景,有很大的不確定性。
今天領先的大模型,隨時可能會被突然冒出來的新秀所取代。
而對于這一點,可能沒有誰比DeepSeek自己更清楚。
所以梁文鋒選擇把DeepSeek充分開源,壓注自己的機構組織能力,而不是技術和資金的壁壘——因為他知道,這些壁壘并不存在。
而DeepSeek最大的貢獻,可能還不是技術上,而是在思想上:
加強了中國人自主前沿創新的信心;
觸發了如何建立前沿創新團隊的反思。
AI炒股很難賺錢
對于一個脫胎于量化基金的團隊,能夠在前沿AI領域大放異彩,很多股民的第一反應是:面對這樣的對手,我們還有什么賺錢機會?
但其實,一家量化基金巨頭,決定轉戰AI大模型,也可以理解為AI炒股面臨瓶頸的表現。
幻方從2023年開始加大對AI大模型研發的投入,一方面應該是受到2022年底發布的ChatGPT的激勵,另一方面也很可能和2021年以來,基金表現欠佳有關。
恰恰因為是量化基金
DeepSeek橫空出世之后,很多人驚異于一家量化基金,竟然能夠做出挑戰頭部AI大廠的成績。
但實際上,量化機構做AI,有著獨特優勢。
AI研發的核心難點在效率,而量化基金的核心技術能力之一,恰恰就是效率。
如果你看過劉易斯的《高頻交易員》一書就會知道,量化基金為了節約千分之四秒的時間,可以重鋪一條1300多公里的光纜通訊線。
而在量化基金之中,幻方又是很早就開始加大對AI驅動策略的研究投入。
據報道,幻方2019年就購入了1100塊GPU,2021年又購入1萬片A100。
幻方對于如何優化AI訓練和推理算法,從來都不陌生。
梁文鋒本身又是電子工程出身,相對于單純理論學科出身的人,更多了一份兼通軟硬件的優勢。
這次DeepSeek所發表的論文,也是罕見地(相對AI論文而言)專門針對硬件設計,進行了討論和建議。
從量化投資轉戰到AI大模型,很多技術可以說是順滑平移。
由此而言,這次DeepSeek以量化基金背景的脫穎而出,又可以說是情理之中。
沒轉化為投資收益優勢
但是,從投資結果來看,盡管幻方肯定是屬于國內頭部量化機構,但相對其他沒有那么多AI投入的量化機構來說,并沒有表現出絕對的收益優勢。
從媒體披露的收益走勢來看,幻方基金2016年以來的表現,確實是遠遠跑贏大盤。但這些超額收益,主要是在2021年之前創造。
在2021年期間,基金表現出現大幅回撤,甚至導致幻方量化公開表示道歉。
在這之后,基金的表現也是波動較大。
雖然還是戰勝大盤,但也僅僅是基本持平。
難點在數據
目前備受矚目的這些AI成果,都是基于神經網絡深度學習技術。
但深度學習的核心技術,已經存在了30多年,為什么要到最近10多年里,才能夠大放異彩呢?
原因在于算力和數據的提升。
OpenAI的GPT-3,用了500Gb的文本訓練數據,而GPT-4更是用了數萬億的標記數據進行訓練。
但在股票市場,如何有5000個股票,一年交易250天,要交易100年,才會有1.25億條日交易數據。
只有當我們把交易數據進一步細化到分鐘、秒鐘,甚至單筆時,才能夠讓交易數據量大幅增加,可能滿足到AI訓練的需要。
但這時馬上就會遇到市場容量的問題。
交易時間跨度越短,交易額就越小,所能夠容納的交易資金量也就越少。
結論:交易頻率越低,AI優勢越小
如果你是要盯著股票行情實時看盤,高頻交易的話,你的對手就可能是越來越聰明的AI對手,你的賺錢機會就可能越來越少。
但如果你的投資周期較長,是以月、以年來計算的話,那你就不必為遇到AI對手而擔心。
至少以現有的AI技術,很難有足夠的數據訓練出值得你害怕的AI對手。