精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
這家公司,讓整個硅谷睡不著覺

本文內容整理自網絡公開資料。

責編 |  柒  排版 | 二月
第 8805 篇深度好文:4926 字 | 14 分鐘閱讀

宏觀趨勢


筆記君說:
 

一家中國AI公司,用1/30的成本吊打OpenAI,產品沖上美國App Store第六,連《自然》雜志都直呼“瘋狂”。

它的創始人卻說:“我們沒想當鯰魚,只是好奇。”

這家公司叫DeepSeek,創始人梁文鋒極少露面。今天,我們拆解它的逆襲邏輯,給中國創業者一些硬核啟示。


去年12月,DeepSeek推出的DeepSeek-V3震撼登場,以極低的訓練成本實現了與GPT-4o和Claude Sonnet 3.5等頂尖模型相媲美的性能,這一成果震驚了整個業界,甚至引得國外同行在《自然》雜志上發出“這太瘋狂了,完全出乎意料”的驚嘆。

僅僅時隔不到一個月,DeepSeek再次引發全球AI圈的震動。此次推出的產品雖未公布訓練完整成本,但已公布的API定價極具競爭力,每百萬輸入tokens 1元(緩存命中)/ 4元(緩存未命中),每百萬輸出tokens 16元,這一收費大約僅為OpenAI o1運行成本的三十分之一。

在市場表現上,據新浪財經報道,截至北京時間1月26日15:45,DeepSeek在美區蘋果App Store免費榜迅速攀升至第六位,成功超越Google Gemini、Microsoft Copilot等美國科技公司的生成式AI產品。

然而,也在同一天,DeepSeek出現短時閃崩現象,不少網友反映使用時遇到“服務器繁忙”的提示。

DeepSeek在短時間內取得如此成績,其背后的發展歷程令人好奇。它究竟是如何煉成的?36氪旗下的「暗涌」團隊分別在2023年5月、2024年7月采訪了甚少露面的DeepSeek創始人梁文鋒。以下為編輯版。

一、打響價格戰,無心插柳成“鯰魚”

談及DeepSeek V2引發的大模型價格戰,梁文鋒表示:“我們不是有意成為一條鯰魚,只是不小心成了一條鯰魚。”

對于價格戰的結果,他稱非常意外,“沒想到價格讓大家這么敏感。我們只是按照自己的步調來做事,然后核算成本定價。我們的原則是不貼錢,也不賺取暴利。這個價格也是在成本之上稍微有點利潤。”

在這之后,眾多大廠紛紛跟進降價。梁文鋒提到:“智譜AI降的是一個入門級產品,和我們同級別的模型仍然收費很貴。字節是真正第一個跟進的。旗艦模型降到和我們一樣的價格,然后觸發了其它大廠紛紛降價。因為大廠的模型成本比我們高很多,所以我們沒想到會有人虧錢做這件事,最后就變成了互聯網時代的燒錢補貼的邏輯。”

但DeepSeek降價并非為了搶用戶,“我們降價一方面是因為我們在探索下一代模型的結構中,成本先降下來了,另一方面也覺得無論API,還是AI,都應該是普惠的、人人可以用得起的東西。

二、專注研究創新,探索AGI之路

當多數中國公司選擇直接沿用Llama結構做應用時,DeepSeek卻另辟蹊徑。梁文鋒解釋道:“如果目標是做應用,那沿用Llama結構,短平快上產品也是合理選擇。但我們目的地是AGI,這意味著我們需要研究新的模型結構,在有限資源下,實現更強的模型能力。這是scale up到更大模型所需要做的基礎研究之一。”

他還指出,Llama的結構在訓練效率和推理成本上,和國外先進水平估計已有兩代差距,“首先訓練效率有差距。我們估計,國內最好的水平和國外最好的相比,模型結構和訓練動力學上可能有一倍的差距,光這一點我們要消耗兩倍的算力才能達到同樣效果。

另外數據效率上可能也有一倍差距,也就是我們要消耗兩倍的訓練數據和算力,才能達到同樣的效果。合起來就要多消耗4倍算力。我們要做的,正是不停地去縮小這些差距。”

對于只做研究探索而暫不涉及應用的選擇,梁文鋒表示:“因為我們覺得現在最重要的是參與到全球創新的浪潮里去。過去很多年,中國公司習慣了別人做技術創新,我們拿過來做應用變現,但這并非是一種理所當然。這一波浪潮里,我們的出發點,就不是趁機賺一筆,而是走到技術的前沿,去推動整個生態發展。”他認為,隨著經濟發展,中國應成為技術創新的貢獻者,而非一直搭便車。

三、創新驅動發展,打破固有認知

DeepSeek V2讓硅谷很多人驚訝,梁文鋒認為:“在美國每天發生的大量創新里,這是非常普通的一個。他們之所以驚訝,是因為這是一個中國公司,在以創新貢獻者的身份,加入到他們游戲里去。畢竟大部分中國公司習慣follow,而不是創新。”

面對創新成本高、商業化壓力大的問題,梁文鋒說:“創新的成本肯定不低,過去那種拿來主義的慣性也和過去的國情有關。但現在,你看無論中國的經濟體量,還是字節、騰訊這些大廠的利潤,放在全球都不低。我們創新缺的肯定不是資本,而是缺乏信心以及不知道怎么組織高密度的人才實現有效的創新。”

他還提到,中國公司容易把快速商業化當第一要義,是因為過去三十年過于強調賺錢而忽視了創新,“創新不完全是商業驅動的,還需要好奇心和創造欲。我們只是被過去那種慣性束縛了,但它也是階段性的。

對于公司的護城河,梁文鋒有著清晰的認知:“在顛覆性的技術面前,閉源形成的護城河是短暫的。即使OpenAI閉源,也無法阻止被別人趕超。所以我們把價值沉淀在團隊上,我們的同事在這個過程中得到成長,積累很多know-how,形成可以創新的組織和文化,就是我們的護城河。”

他還將開源視為一種文化行為,“給予其實是一種額外的榮譽。一個公司這么做也會有文化的吸引力。

四、幻方跨界布局,聚焦通用AI

幻方作為量化基金選擇下場做大模型,梁文鋒解釋:“我們做大模型,其實跟量化和金融都沒有直接關系。我們獨建了一個名為深度求索的新公司來做這件事。幻方的主要班底里,很多人是做人工智能的。當時我們嘗試了很多場景,最終切入了足夠復雜的金融,而通用人工智能可能是下一個最難的事之一,所以對我們來說,這是一個怎么做的問題,而不是為什么做的問題。”

他們的目標是通用人工智能(AGI),梁文鋒說:“語言大模型可能是通往AGI的必經之路,并且初步具備了AGI的特征,所以我們會從這里開始,后邊也會有視覺等。”盡管大廠入局讓很多創業型公司放棄通用型大模型方向,但DeepSeek依然專注于此。

梁文鋒認為:“現在看起來,無論大廠,還是創業公司,都很難在短時間內建立起碾壓對手的技術優勢……大廠和創業公司都各有機會。現有垂類場景不掌握在初創公司手上,這個階段對初創公司不太友好。但因為這種場景說到底也是分散的、碎片化的小需求,所以它又是更適合靈活的創業型組織的。

從長期看,大模型應用門檻會越來越低,初創公司在未來20年任何時候下場,也都有機會。我們的目標也很明確,就是不做垂類和應用,而是做研究,做探索。”

談及做研究的原因,梁文鋒提到:“一種好奇心驅動。從遠處說,我們想去驗證一些猜想。比如我們理解人類智能本質可能就是語言,人的思維可能就是一個語言的過程……這意味著,在語言大模型上可能誕生出類人的人工智能(AGI)。從近處說,GPT4還有很多待解之謎。我們去復刻的同時,也會做研究揭秘。”

五、算力儲備:源于好奇,成于堅持

GPU在ChatGPT創業潮中是稀缺資源,DeepSeek早在2021年就儲備了1萬枚。梁文鋒回憶:“其實從最早的1張卡,到2015年的100張卡、2019年的1000張卡,再到一萬張,這個過程是逐步發生的……主要是好奇心驅動。”

這種好奇心源于對AI能力邊界的探索,“對研究員來說,對算力的渴求是永無止境的。做了小規模實驗后,總想做更大規模的實驗。”

對于搭建計算機集群的成本,梁文鋒表示:“電費和維護費用其實是很低的,這些支出每年只占硬件造價的1%左右。人工成本不低,但人工成本也是對未來的投資,是公司最大的資產。我們選的人也會相對樸實一點,有好奇心,來這里有機會去做研究。”幻方比一些云廠商更早拿到A100顯卡,是因為“我們很早就對新卡做了預研、測試和規劃”。

六、本土人才撐起創新天空

OpenAI前政策主管、Anthropic聯合創始人Jack Clark認為DeepSeek雇傭了“一批高深莫測的奇才”,梁文鋒卻表示:“并沒有什么高深莫測的奇才,都是一些Top高校的應屆畢業生、沒畢業的博四、博五實習生,還有一些畢業才幾年的年輕人。”V2模型研發人員全部來自本土,“前50名頂尖人才可能不在中國,但也許我們能自己打造這樣的人。”

關于MLA創新,梁文鋒介紹:“在總結出Attention架構的一些主流變遷規律后,(一位年輕研究員)突發奇想去設計一個替代方案。不過從想法到落地,中間是一個漫長的過程。我們為此組了一個team,花了幾個月時間才跑通。”

團隊采用自下而上的創新模式和自然分工機制,“我們每個人對于卡和人的調動是不設上限的。如果有想法,每個人隨時可以調用訓練集群的卡無需審批。同時因為不存在層級和跨部門,也可以靈活調用所有人,只要對方也有興趣。”選人標準則是熱愛和好奇心,“很多人對做研究的渴望,遠超對錢的在意。”

七、展望未來,堅定創新信念

對于創新,梁文鋒認為:“創新首先是一個信念問題。為什么硅谷那么有創新精神?首先是敢。ChatGPT出來時,整個國內對做前沿創新都缺乏信心……但創新首先需要自信。這種信心通常在年輕人身上更明顯。”盡管DeepSeek不參與融資、很少對外發聲,但他相信:“因為我們在做最難的事。對頂級人才吸引最大的,肯定是去解決世界上最難的問題。”

對于AGI的實現時間,梁文鋒表示:“可能是2年、5年或者10年,總之會在我們有生之年實現。”

DeepSeek押注數學和代碼、多模態、自然語言三個方向,“數學和代碼是AGI天然的試驗場,有點像圍棋,是一個封閉的、可驗證的系統,有可能通過自我學習就能實現很高的智能。

另一方面,可能多模態、參與到人類的真實世界里學習,對AGI也是必要的。我們對一切可能性都保持開放。”他認為大模型終局會是“有專門公司提供基礎模型和基礎服務,會有很長鏈條的專業分工。更多人在之上去滿足整個社會多樣化的需求”。

面對經濟下行和資本冷周期,梁文鋒持樂觀態度:“我倒覺得未必(會抑制原創式創新)。中國產業結構的調整,會更依賴硬核技術的創新。當很多人發現過去賺快錢很可能來自時代運氣,就會更愿意俯身去做真正的創新。”他堅信硬核創新會越來越多,“當這個社會讓硬核創新的人功成名就,群體性想法就會改變。我們只是還需要一堆事實和一個過程。”

DeepSeek堅持開源,短期內沒有融資計劃,“我們認為先有一個強大的技術生態更重要”“我們面臨的問題從來不是錢,而是高端芯片被禁運”。

梁文鋒認為,更多投入不一定產生更多創新,“否則大廠可以把所有的創新包攬了”。

對于不做應用的選擇,他表示:“我們認為當前階段是技術創新的爆發期,而不是應用的爆發期……如果能形成完整的產業上下游,我們就沒必要自己做應用。當然,如果需要,我們做應用也沒障礙,但研究和技術創新永遠是我們第一優先級。”

在競爭方面,梁文鋒認為大廠和創業公司各有優劣,“大廠有現成的用戶,但它的現金流業務也是它的包袱,也會讓它成為隨時被顛覆的對象”。他推測DeepSeek之外的6家大模型創業公司可能有2到3家存活,“那些自我定位清晰、更能精細化運營的,更有機會活下來。其它公司可能會脫胎換骨。有價值的東西不會煙消云散,但會換一種方式” 。

在打造創新型組織方面,梁文鋒總結:“創新需要盡可能少的干預和管理,讓每個人有自由發揮的空間和試錯機會。創新往往都是自己產生的,不是刻意安排的,更不是教出來的。

在梁文鋒看來,創新雖昂貴且低效,但充滿意義。“不是所有人都能瘋狂一輩子,但大部分人,在他年輕的那些年,可以完全沒有功利目的,投入地去做一件事。”梁文鋒和他的團隊正帶著這份好奇心和熱情,在AI創新之路上堅定前行。

參考資料:

1.《瘋狂的幻方:一家隱形AI巨頭的大模型之路,暗涌Waves;

2.《揭秘DeepSeek:一個更極致的中國技術理想主義故事,暗涌Waves;

*文章為作者獨立觀點,不代表筆記俠立場。

本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
AI人物傳:深度求索deepseek創始人梁文鋒
AI領域“神秘東方力量”震驚世界,英偉達的最大空頭出現了
這幾天刷推很明顯的感覺到英文技術社區對中...
DeepSeek朝硅谷“開了一槍”(圖文)
解讀DeepSeek創始人梁文鋒在1月20日總理座談會上的發言
DeepSeek梁文鋒:我們為什么要做大模型。
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 博白县| 普安县| 沽源县| 内丘县| 奈曼旗| 盖州市| 荆门市| 陇南市| 元阳县| 泰州市| 教育| 钟祥市| 桑日县| 邵武市| 子长县| 郎溪县| 南充市| 齐齐哈尔市| 宁强县| 三江| 正定县| 娄底市| 门源| 龙口市| 德昌县| 南涧| 海盐县| 虞城县| 泾阳县| 肇州县| 湘乡市| 南郑县| 新津县| 黄陵县| 五指山市| 商都县| 探索| 白城市| 石渠县| 双柏县| 邛崃市|