「大家還是太焦慮了,大模型從開始到現在才一年多時間,整個的應用發展,本質上還是要隨著模型的成熟和整個應用生態的構建逐漸發展。」對于當下的 AI 創業焦慮,汪華如此回應道。
「再過四五年,一定會有很多 AI 時代的成功創業者涌現出來。」
AI 的投資在向應用側遷移、大模型的推理成本會持續下降、國內還正處于 ChatGPT Moment 的第一階段,以及 AI 應用爆發需要哪些前提、AI 應用開發需要具備的能力等等,在 AGI Playground 2024 上,創新工場管理合伙人 & Co-CEO 汪華就這些話題,進行了一場干貨信息滿滿的 AGI 創業攻略分享。
以下基于演講內容,經 Founder Park 整理后發布。
有很多同學跟我交流,有焦慮感,覺得在算力上花了這么多錢,但應用卻沒有爆發。那到底什么時候應用能爆發?將來應用到底能不能起來?
我先介紹下我的背景。創新工場應該是國內最早投資移動互聯網企業的。我記得在 2010 年的時候,就跟大家宣傳移動互聯網應用一定會起來。我們也是國內、世界上最早投資 AI 的。
2012 年 AlexNet 發表的時候,我們就投資了曠視。2015 年 Google AlphaGo 火了之后 AI 還開始流行,我們在那之前就投資了曠視、第四范式,包括自動駕駛的地平線、 Momenta。我在 2020 年開始投資大語言模型,所以我完整的經歷了整個移動互聯網從 2010 年開始的應用崛起,以及 AI 的崛起。
我相信再過四五年,也會有很多在 AI 時代取得成功的創業者涌現出來。
先說一下海外,過去一年全球大量的投資投在 AGI 和大模型身上,將近有 200 億美元。但是去年大部分投資,還是集中在算力、算法基礎設施和底座模型上,投在應用里的錢只占一小部分。
但今年,事情開始發生變化。從 Q2 開始,投在應用上的金額比去年都有翻倍。大家可能覺得今年的投資冷下去了,但實際上投資開始集中在應用上了,尤其是 Q2 的投資比 Q1 有了更大幅的增長,甚至 Perplexity 融到了兩三億美元的投資,獲得 30 億美金的估值。大量跟應用模型相關的,比如音樂生成的 Suno 也快速拿到了融資。
可以明顯地看到,整個投資開始從底座模型和 AI 側向應用側進行遷移。與此同時,到去年為止大部分的應用還是 ToB 的,ToC 也是以生產力為主,但是今年開始,大量的 C 端應用開始爆發,不僅是生產力和效率類的應用,偏娛樂社交的應用也開始批量涌現,從 ToB 延伸到 ToC,從生產力和效率延伸到綜合的社交娛樂和其他的多模態等各個領域。
大模型從開始到現在才一年多時間,整個的應用發展,本質上還是要隨著模型的成熟和整個應用生態的構建逐漸發展。未來應用要擴展,在我看來有四個前提:模型性能、推理成本、模型的模態、應用生態整體的演進與完善。
大家要做應用,需要按照這四個象限,來規劃當前做什么,未來做什么。超前來做的話,可能會比較難和麻煩。
首當其沖的是推理成本。AI 最重要的一點并不僅僅是 AGI 的實現,而是普惠化。AGI 就算實現了,如果無法實現普惠化,跟在座的各位也沒有任何關系。
以當年的 PC 計算機為例,IBM 曾經說全世界只要 7 臺電腦就行,這里的電腦指 Mainframe computer 大型主機,只用在銀行、金融部門這些大型的關鍵企業里面。微軟實現了把每臺 PC 放在每個辦公桌上,給社會價值和產業生態帶來了巨大的拓展。而直到手機把每部「個人電腦」裝到了每個人的口袋里,才真正的影響了整個社會,從吃喝玩樂到衣食住行。
普惠,實際上要看模型的推理成本。為什么大部分的應用到現在為止還是以 ToB 或者生產力為主?因為哪怕用 GPT-4 做復雜的生產力應用模型,性能還是有挑戰性的。現在 GPT-4 做社交娛樂、衣食住行消磨時間,性能是足夠用的,但為什么大家寧愿去做生產力或者 ToB 呢?
因為推理成本實在太貴。
GPT-4 的推理成本在十幾美金,這種情況下,必須要做所謂的高價值用戶場景,而且要從用戶側收費。
做生產力,對模型性能有挑戰的應用才能收到錢,但是模型性能不足;如果做社交娛樂,使用模型的成本又太高。所以現在的 AI 應用被卡在中間,兩邊都有點不沾。
只要模型性能成本降下來,事情就會不一樣。
在我的判斷里,到今年年底左右,模型的推理成本可以比年初降 10 倍。到了明年,大概明年年底的時候,模型的性能推理成本會降到現在的 100 倍。大家可以想象一下,如果推理成本降到現在的 1%,GPT-4 級別的模型推理成本降到幾美分的話,大體量的應用、免費的應用甚至不光是生產力賽道,娛樂類、社交類、消磨時間類的應用都可以得到大規模的 普及。
但是模型成本下降的前提是「模型性能夠用」。現在大家會意識到很多應用為什么做不出來,是因為模型對于復雜指令的遵循能力不行。你設想了一個很好的場景,但是模型的失敗率特別高,做不出來。
哪怕是做社交娛樂的應用,用 GPT-4 level 的模型跟用便宜的開源模型,用戶的留存、使用時長也可以差出兩三倍。所以到現在為止,做很多的應用。GPT-4 級別的模型的性能和體驗是底線。甚至 GPT-3.5 這個級別的模型,在很多應用里面是不夠用或者沒法用的,哪怕是做 C 端應用。
隨著模型性能的提升越多,能夠解鎖的應用類型也越多。
第三個就是模態了,現在的模型模態以文本為主。如果要做 C 端應用的話,大家可以看到,當年移動互聯網應用的今日頭條的日活和使用時長遠遠比不上 TikTok。如果交流模態僅限于文字的話,做 C 端應用會非常受限。當你能夠解鎖更多模態,能夠解鎖的類型就能解鎖的更多。
這三個前提是跟模型完全相關的,要做應用的話,必須要根據當下的模型和接下來一年內的模型是否能達到這三個前提,再決定自己做什么。這跟當年的移動互聯網還是不一樣,必須要跟著整個模型的技術棧往前走。
最后一個,一個新平臺的出現是需要幾年時間的。
一是完成用戶群的擴散,二是完成對于產品交互和新產品體系的探索。任何一個新的應用出來,第一波用戶都不是下沉用戶,而是先導用戶,比如學生、科技愛好者、科技從業者。之后兩三年時間逐漸下沉到年輕用戶,最后下沉到普通用戶。
二是產品交互也需要時間探索,比如 2010 年的時候跟大家說將來所有的應用,吃喝玩樂、看視頻、購物等都可以在手機上完成,但當時大家做的事情都是把 YouTube、優酷、土豆原封不動地搬到手機上。TikTok 出現的時候,已經到了 15、16 年了。
移動應用最終的產品形態并不是把優酷、土豆或者 YouTube 直接搬到手機上。從內容源、產品交互來看,最終的版本答案——短視頻的形態是花了 4-5 年才慢慢摸索出來。
相比起 PC 和移動互聯網的區別,AI 的應用本身,正確的交互形態到底是什么,其實跟之前可能差別會更大,需要開發者和應用者花一點時間。我覺得(這個時間)會比當年移動互聯網更快,但也要 take time,可能也得花兩到三年的時間,讓大家真正去探索 AI-Native 的產品交互和形態應該是什么樣子的。
所以應用的爆發并不會一蹴而就,是這四個維度決定了 AI 應用發展的節奏和順序。這里面最大的前提是高性能模型的成本下降。
但最近也有一些好消息。
GPT-4o,包括剛出的 Claude 3.5,其實已經在很多大規模的 ToC 應用里夠用了。大家不用擔心將來 AGI 能不能做到,或者 GPT-5 的性能到底夠不夠好,現在的 GPT-4o、 Claude 3.5 哪怕性能沒有太大提升,維持現在的性能,已經足夠支持大量的應用了。
模型成本的下降其實只是一件工程的事情,是一件確定的事情。比如零一萬物本身也是在做很多模型推理成本下降的探索。到今年年底、明年年初,會推出接近 GPT-4o 級別性能的大模型,售價會降到現在的 1/10,百萬 token 降到幾塊錢人民幣。到明年年底的話,數字還可以再降一個數量級。
這是非常確定的一件事,主要有幾個原因。
首先是模型結構、算法和硬件 Infra 本身,在接下來的半年到一年每個都可以實現 4-5 倍的提升;用于推理優化的硬件成本可以降 4-5 倍,模型結構的優化和特化可以提升 4-5 倍;算法側的優化可以提升 3 到 4 倍。所以這些乘起來的話,差不多能在明年年底實現 100 倍的模型成本下降。
其實現在已經看到一些很好的信號了。比如前段時間一些大廠非常卷模型價格,號稱把百萬 token 的推理成本降到了一塊錢、兩塊錢甚至更低。當然這個還是不太夠,因為目前大家卷的價格還是比較低性能的模型,真正高性能模型的成本還沒有降。但這個事情會在半年之后很快發生。半年后,高性能模型的價格也會從現在的二三十塊錢降到幾塊錢人民幣。
現在,國內的模型還都是文字模態的,多模態并不強。到今年年底,真正的全模態模型都會出來。起碼零一萬物今年年底、明年年初的模型,就會是一個接近于 GPT-4o 的完整多模態,并且推理成本會降得非常低。其他幾家國內企業明年上半年應該也都能做到。對于開發大體量應用而言,實際上是切實可行的。
我把這些定義為一個普惠點,對于開發者來說,最重要的點是「普惠點什么時候能到達?」「隨著普惠點的達到,大家能解鎖什么東西?」
我覺得最大的普惠點就是推理成本降到 1%,這意味著幾千萬日活、上億萬日活,甚至免費的產品可以大規模的實現。實際上,推理成本哪怕降到 1/10,也已經有很多的應用可以提前出現了。
隨著多模態和推理成本的相繼突破,ToB 會先實現,因為它對價格的承受能力最高,對模態的需求最低。其次是生產力工具,大體量的工具型應用,只要推理成本降 10 倍,就能實現大體量免費。
舉個簡單例子,互聯網時代,搜索是典型的工具型應用。當年移動互聯網搜索類的工具用戶使用時間短,消耗的 token 少,我在 Google 的時候,用戶的平均使用時長是兩三分鐘,不超過五分鐘。
ChatGPT 作為通用工具,用戶平均時長是七八分鐘,但我看過很多做社交娛樂的創業公司,他們的平均使用時長超過 150 分鐘。推理成本只要降 10 倍,工具類的應用就可以做大體量免費。推理成本降得更低,高時長娛樂性的應用才能做到大體量免費,所以大用戶量的工具,我覺得今年年底到明年年初就會實現。
再往后是衣食住行,這個會比娛樂性的應用更晚一些,因為它涉及到人類的交易生活。這類應用一是需要更高的模型性能,二是需要商業模式整合,比如做今日頭條只需要處理信息,但是做電商就需要整合供應鏈、整合資源、建立商業模式。從吃喝玩樂到衣食住行,這個時間周期個人認為在 3-4 年之內走完。
移動互聯網大概從 2008 年蘋果出 App Store 開始,大概花了六七年的時間。我覺得大模型時代的話,整個 AI 的節奏會比移動互聯網更快,大概 3-4 年把這個順序走一遍。
那我們現在可以做什么?
一個好消息是,現在中美的模型對比來看,中國的模型已經有足夠多的能力。去年大家做應用的時候,要么只能做出海,因為出海有 OpenAI 的 API 或者別的特別好的模型可以調用。但在國內如果合法做應用的話,國內去年模型的性能的確是不夠的。
但從最近開始,中國模型的性能已經足夠強了。比如零一萬物的 Yi-Large 已經達到了 GPT-4 的級別。千問、智譜的模型也已經跟 Llama-3 非常接近。
對于做應用的來說,用中國本土的模型跟用美國的已經沒有什么太大差距了。當然多模態中國比美國還是落后一點,但也就是半年的時間,而且我相信在中國比較卷的情況下,中國同等性能模型還可以做到更加便宜。有了這個基礎,接下來中國就可以復刻應用爆發的狀態了。
中國的整個應用層因為模型能力的拖累,當然也包括很多對于應用和大模型本身的監管,大致的節奏比美國慢差不多一年的時間。美國現在的情況是,他們的應用已經到了第二波發展階段,在去年上半年已經完成了第一波在知識工作人群里面的應用普及,達到大幾千萬的日活。ChatGPT 不光完成了對于用戶認知的普及,美國現在百分之七八十的白領工作者和知識工作者已經將各種 AI 工具囊括進日常使用工具的范疇。現在已經到了百花齊放,擴展應用類型的第二階段。
中國實際上處于美國上半年第一階段的應用爆發前期。雖然最近大家看到很多產品在大量推廣,用戶量也在迅速增長,但是把所有應用加在一起,日活也不過就是 1000 萬,中國有 12 億網民;而美國 3 億人口就有大幾千萬的日活,相比之下還有很大的差距。
但好處是,最近無論什么樣的應用,雖然用戶基數很小,差不多都是小幾百萬日活的狀態,但增速都很高。目前大多數中國人都知道 AI,聽說過 AI,只不過用上 AI 的很少,就算用上的也只是偶爾嘗鮮式地使用,并沒有像美國的那些知識工作者一樣把它當做工作伴侶來使用,就意味著中國現在的增長潛力非常大。
我預判今年年底到明年年初,在效率工具類的 ToC 應用里面就會出現千萬級日活的單應用。明年上半年,中國也會完成類似于美國 ChatGPT 的第一波普及。客觀地講第一波用戶還是會集中在學生、科技從業者、科技愛好者、白領知識工作者這樣的先導人群中。應用類型的話,大多數會從工具效率起步,慢慢往社交娛樂、殺時間多模態的方向去擴展。
再說說對創業者的建議,因為我平時也投資應用,見過非常多的創業者。
第一我覺得,大家還是太焦慮了,我經常看到同一波創業者兩極分化,一個大新聞出來了之后,大家非常興奮,覺得 AGI 要實現了。過了幾天又突然很焦慮,說應用怎么到現在還沒有爆發,投資是不是趨冷了或者怎么樣。其實移動互聯網從 2008 年 APP Store 到整個應用形態出產,都已經是 12、13 年的事情了,甚至到 13 年李彥宏還說移動互聯網是新瓶裝舊酒。所以大家不要太焦慮,要真正把時間、心思沉浸到用戶場景開發里面去,不要焦慮于一周、兩周、一月這種短時間的外部變化。
我看到過兩種創業者,一種是商業產品出身,一種是技術科研出身。從長期來講,做 AI 應用,要既懂產品又懂技術。因為 AI 大模型創業跟當年移動互聯網創業有一個很大的不同,移動互聯網當年創業的時候雖然是一個新平臺,但整個后臺技術是成熟的,無論是成本、技術棧,還是端側的開發,都有當年 PC 互聯網 10 年的積淀。只要能想得到對的用戶場景,從技術上、成本上說沒有做不出來的。
但是大模型的創業本身更接近于 1999 年 Google 做搜索的年代,想做一個很容易讓人全搜整個互聯網的產品,場景很簡單就想出來了,關鍵是能不能做得出來?Google 為了做這個東西,當年開發了 PageRank、集群,MapReduce 等一套技術才實現最初場景。
我看到商業產品出身的開發者有時候會過于宏大敘事,過于不考慮產品模型的限制去做產品。對于技術科研出身的開發者的話,往往是太追求于技術圣杯,不考慮算力成本的花效,對整個場景考慮得比較少。對于這兩種創業者,我的建議是兩邊都要考慮對方的優點,在現階段不成熟的時候更腳踏實際,落足場景。而且哪怕是技術出身的創業者,也不要過于追求技術圣杯。更加現實點,結合起來講就是仰望星空腳踏實地。
Google 的創業者就是典型的技術出身的創業者,他們當時要做搜索,高價的服務器買不起,所以只能手搓服務器,就是為了把成本降下來。最早的服務器都是他們從電腦店里面買回來自己攢出來的。楊致遠做 Yahoo 時候也是非常腳踏實地,大家都知道 Yahoo 第一個產品是一個網址站,并沒有過于追求技術。產品出身的創業者哪怕你做不了 Google,你也可以想辦法做 Yahoo,做不了 Larry Page,也可以做楊致遠。
張一鳴是一個我覺得在兩者之間結合得非常好的創業者。他既懂技術,當時還是機器學習——第一代的 AI,要用推薦算法來重塑內容行業。但另外一方面又特別腳踏實地,在移動互聯網早期的時候,除了今日頭條,它還做了內涵段子或者其他大量產品矩陣來去獲取早期流量,這些成功專業者早年都是非常腳踏實際的,無論是從技術出身的,還是從產品商業出身的。
最重要的是在現有模型和技術成本的限制下,真正落實深挖用戶場景。因為什么都變了,但是人性和用戶場景并沒有變化。有時候跟創業者交流,發現大家對這件事做的還是不夠的。
接下來確定的是,智能上限、多模態、 AI Agents 這三個都會在今年年底到明年會有很大的升級。
年底的話,GPT-4.5 或者 GPT-5 會有一個漸進式的改良,模型的智能上限真正要出現跨代級別的體驗可能還是要等到明年年底,但今年年底在模型的指令遵循和復雜能力上會有不錯的提升。多模態的話今天還是 GPT-4o,到了明年我們會實現理解和生成真正統一的多模態。
AI Agents 現在是一個痛點,主要是在復雜指令遵循,現在 AI Agents 還是一個玩具,ToB 的應用大家都只能做 Copilot。但大家真正想要的是 Autopilot,我個人感覺這個還是有機會工程實現的。
然后再到具身智能,等到 AI Agents 和多模態、智能上限都實現了之后,模型不只是在數字空間,而是通過 Robotic 傳感器在物理世界里實現智能和交互。將來大家做 APP 就不是做數字世界的 APP,而是在做物理世界的 APP 了。
接下來就有兩個奇點。
第一個基點是非常確定的普惠奇點,二十四個月內成本降到 1%,億級別日活的應用因此可以實現。以 4- 5 年為周期的話,推理成本會降到現在的 1‰,那時候就不存在 AI 應用了,因為所有的應用都會用 AI 重塑交互和后端的實現。
第二階段是智能奇點,這個并不是特別確定。有可能模型的性能達到 GPT-5 級別之后就會到一個軟天花板,但即使這樣,并不影響第一個階段的普惠奇點。如果模型性能能繼續通過 Scaling Law 突破 GPT-5,達到復雜指令遵循,達到 PHD 級別的思維能力,那就不是我說的普惠奇點概念了,可能會對整個人類世界實現重塑。
智能奇點在 4-5 年之內就可以看到端倪,如果能實現,3-4 年之內就能實現,如果 3-4 年之內實現不了,那這一代基于 Transformer 和 Scaling Law 的整一代技術就實現不了。
最后說一下,創新工場從 2012 年就開始大力投資 AI,在應用和 AI(技術)都有非常豐富的經驗。所以如果各位想在 AI 領域創業的話,歡迎來創新工場和我交流。