「我思故我在」的作者分享了近半年來在灣區對于海外 AI 市場趨勢的觀察和思考,Founder Park 對內容略有調整。
在 AI 從業者里有位備受關注的「網紅」叫 Shawn Wang(他推特「swyx」更為大家熟知,同時也是 Smol.ai 的創始人),今年 7 月他在專欄「Latent Space」上首次提出了「AI engineer(AI 工程師)」的概念。同名播客也是今年聽過最精彩的欄目之一。
這個新「人群」介于傳統機器學習工程師和為產品服務的全棧工程師之間,借助成熟的軟件供應鏈和 API 生態,還有日益開放的模型和開發工具鏈,AI 工程師能夠快速搭建產品原型,利用現有公司的分發渠道或社媒等方式獲得用戶反饋和數據,從而進一步迭代模型本身,就如下圖。
有趣的是,10 月 Shawn 在灣區舉辦了第一屆「AI Engineer Summit(峰會)」,大會上一位獨立開發者發表了一個引起眾多共鳴的事實:
「開發AI項目的過程中,我的時間 80% 都花在了UI設計上。」
AI 似乎是最簡單的部分,如何把一個花了兩個小時搭好的 demo 變成可發布在生產環境的產品,才是最難的事情,而這部分工作量與 AI 無關。
在灣區的這段時間里,與正積極實踐將 AI 融合到已有 SaaS 產品的 AI 工程師的交流中,也的確感受到從原型到內測,再到邀請種子客戶測試的過程是復雜且反復,通常比預期都要長。
紅杉美國在 9 月發表的《生成式 AI 進入第二階段》新文章里,認為 AI 從拿著大模型找「釘子」的方式正式進入了「第二幕(Act 2)」,真正的壁壘在「客戶中,而不是在數據中」。
這個觀點對新進創業者來說有點殘酷,如果一開始大模型就無法沖破傳統的無論是面向企業場景的工作流或消費場景的網絡效應的話,那么大部分創業公司現在仍面臨「找釘子」的狀態,而且需要快速轉型。
在我看來,對初創公司甚至整個生成式 AI 的時代,其實大家仍在第一幕或第一階段,并沒有進入所謂的「第二幕」。
總的來說,還有三條鴻溝:
AI既可以是 feature(功能),也可以是產品,目前邊界是模糊的。
AI native 對產品經理和設計提出前所未有和更高維度的要求。
與其死磕融入或創造「新工作流」,或許不如直接賣「新工作」。
不久前 ChatGPT 集成了 PDF Chat 功能,網上就這個功能對一系列相似產品的沖擊展開了很有意思的討論。不少人認為很多初創公司會因此死掉,所有類 GPT「wrapper/套殼」類產品都會在未來由于 ChatGPT 本身能力的延展而受到嚴重擠壓。
沒過多久,PDF.ai 的創始人 Damon Chen 發表了自己的看法:
「我不認為 ChatGPT 會把很多 PDF 相關的小功能但又是用戶急切需要的都開發出來。當然,很多比我們規模小許多或者準備做這個方向的創業者會退場,而如果有 VC 投資的初創公司可能會死亡,如果他們還持續燒錢。
但是 PDF.ai 一直是 bootstrap 且盈利的。我們不是為了成為獨角獸,幾萬白美金 ARR 對我們來說足夠好了,我有 1000% 的信心可以做到。所以我甚至更樂觀了,我們有能力在 Chat PDF 類的產品里做到最好。」
更有意思的是,在這周第一屆 OpenAI Dev Day 當日,Chatbase 的創始人 Yasser 和 Damon 同時在公開宣稱當日自家網站注冊量的激增,似乎這些所謂的「AI 套殼」產品并沒有受到重創,反而讓更多用戶發現通用型 GPT 和單點工具的差異而選擇后者。
我非常贊同 Damon 的想法,也給創業者和獨立開發者很多啟發。
首先,如果要驗證AI是否在假設場景的價值,不要忌諱先做成「wrapper」。要快速搭建出可用的工具型產品,驗證市場。
經過大半年跟許多嘗試想快速在 OpenAI 的 API 基礎上搭建一個可用 demo 的工程師交流后,大家普遍發現要真正從一個外界看來是「套殼」的 demo 到變成可用的產品,還要跨越很多障礙,需要反復做許多實驗。
如上圖,在 AI Engineer 的大會上對遷移學習中的領域自適應(Domain adaptation),就有了現在集中主流方式的探討,想必 RAG(搜索增強生成)是各類需要大模型獲得更多事實性信息的應用很關注的話題。
所以,即便利用了大模型的 API,我們也不能籠統地認為「套殼」是一個簡單的工作,至少要做到一個可用的工具,百萬級用戶能穩定使用的產品,比大部分沒有 0 到 1 做過的人想象中要困難很多。
(那些從未真正 build 過產品的人總說 OpenAI 殺死了很多 AI 套殼產品,而正在做產品的人一直在掙錢)
其次,創業在海外擁有非常立體的環境。立體具體表現在:
你可以選擇不拿融資或少量融資,做一款擁有幾十萬甚至百萬用戶的小巧工具,同時有幾十萬甚至百萬美金收入。也可以選擇獲得巨額融資,發展成為能服務上千家企業客戶,擁有千萬甚至過億美金收入的企業級產品。
前者一直保持較小團隊規模,許多時候不超過 10 人,就能持續盈利,就像早些時候的 Midjourney。后者在通常情況下,會持續擴張并保持融資和燒錢狀態,目的是成為行業第一,并試圖擠壓第二和第三的市場份額。
結果是,大多數前者很多時候并不會因為后者的持續擴張而受到嚴重擠壓,除非真的因為本身產品的退步。后者雖然有很大想象和飛躍可能,但要承擔一旦無法取得投資人預期的成績,就需要做出巨大改變或轉型,否則就要面臨因為無法自身造血而徹底退場的結局。
所以,當下無需過多糾結 AI 將是一個現有產品的「功能」還是有機會成為一個獨立的原生產品,因為在不同類型的用戶和場景來看,很可能都會存在。
但接下來,這對產品經理和設計師都提出了一個重要挑戰——如何設計出下一代AI原生體驗的產品。
蒙眼狂奔了大半年的 AI 公司的確開始吸納產品經理了,比如今年我了解到發展最快之一的法律科技公司 Harvey.ai,不僅獲得了 OpenAI 和紅杉美國的投資,最近宣布招聘了第一位產品負責人 Aatish Nayak,Nayak 曾是 Scale.ai 的產品負責人,工作長達 4 年時間,也見證了傳統機器學習向生成式 AI 演進的重要里程。
同樣幾個月前,演示文稿生成工具 Tome 也吸納了第一位 AI 產品經理,在灣區跟他交流的時候,他剛加入不久,跟團隊高層當時討論的核心便是,以對話為交互基礎的體驗到底是不是用戶最能接受的方式?
或者說,作為一位 AI 產品經理,很重要的是如何將「傳統」用戶旅程和 AI 原生的體驗(目前核心是對話引導)巧妙結合,包括如何引導用戶盡快上手體驗 AI。
一個微妙的發現是:產品不再是AI初創公司剛開始的必要崗位,AI 本身讓創始人成為最重要的產品經理。
根本原因是,生成式 AI 給產品設計帶來的機會是讓所有產品實驗得以實時進行,讓用戶無感知地反饋甚至參與后續迭代,包括產品設計和「產品模型」。
產品模型便是所有實驗的核心,它是作為 AI 工程師或創始人,需要構建的一套完整且能自我迭代的技術棧,最終像 OpenAI 的聯合創始人 Andrej Karpathy 在他的「軟件 3.0」理論中提出的:
讓產品能夠獲得「理解」和「生成」的能力。
無論這套模型是否擁有自己的大模型,無論在領域自適應中使用了哪種方法獲得精確的背景信息,無論是否通過自然語言對話來完成用戶的交互,重要的是能否利用現有的任何技術,設計出一套能實時產生交互數據并能反饋于最終效果和體驗的模型。
這里面最成功的案例莫非 Github Copilot 了。記得在某期播客中,產品初期的負責人曾說過,最美妙的地方在于用戶是與產品本身實時在交互,交互的過程(刪掉或保留代碼)和結果(代碼和程序)就是對模型最直接的反饋。甚至都不需要像 ChatGPT 一樣需要用戶點擊「大拇指????」來認可答案,過程就代表了一切。同時代碼也是模型下一次訓練最佳的數據。
這是我見過最完美的產品模型,并且沒有任何「刻意」設計的部分。
最后,這種新興產品模型的出現,或許就能打破「壁壘不在數據,而在客戶」的殘酷事實,因為公司售賣的不再是軟件,不再是服務,而是一份「工作」(或一個人頭)。
傳統軟件或現有 SaaS 公司,今年為止最大的主題便是「Copilot」,包括微軟,Adobe 等,本質上是將 AI「設計」成一位副駕駛,來優化或增強人類現有工作流和效率。
這沒有問題,這是所謂「incumbents(現存者)」在面對可能的變革性技術之下做出「本能且最佳」的反應。而從微軟和 Adobe 的最新財報上也能看出,在「Copilot」的號召下,他們的確攫取了現在AI帶來的大部分商業價值。
但是,10% 或 20% 的效率提升或成本下降很難讓企業甚至大部分消費者改變現有習慣,如果能通過「理解」任務到最后「生成」所需「結果」即工作,獲得五倍甚至十倍的效果,才是作為新興公司或新一代的產品模型應該定義的場景。
這可能意味著某個崗位或工作要被 AI 替代,但這不是某個「職能」被替代。
比如另一家法律科技公司 EvenUp,結合 AI 他開始為律師向原告客戶提供在人身傷害領域的「demand package(需求材料包)」,這份工作本來需要律師整合原告醫療證明、被告保險公司的糾紛建議函、還有案件說明等各類材料,最后輸出相關書面材料,現在這份工作不再(或逐步無需)需要律師還有助理等人參與,把他們的時間解放出來并投入到真正的咨詢和審理過程中。
如 Benchmark 的合伙人 Sarah Tavel 在個人專欄里所說,檢驗是否還有其他相似機會的標準是:這個領域內在全世界是否已經存在一個專注的外部或外包團隊來支持現在由生成式AI能替代的「工作」,比如會計記賬、建筑測量評估、呼叫及客服中心、技術支持外包等等,這都是很好的思路。
在今年 YC 上也能看到專注在銷售、產品、法律審計、財務記賬等特定職能方向上的初創公司大量涌現,他們提供的正是一份工作的全生命周期方案。
「生成式AI目前最大的問題不是尋找用例、需求或渠道,而是證明價值(Proving value)。」
這也是第二階段那篇文章里的一句話,這個結論過于籠統,這幾個月在灣區交流的過程中,我也明確知道一些在年初就開始積極探索的「incumbents」在下半年開始有了第一批種子客戶,且反饋積極。
而之所以探索的時間比市場或公司自己預期都要長,基本都在上述的原因范圍內。
但他們已經站在「客戶」這個壁壘之上了,并且通常公司自己是第一個共創客戶,如果自己員工都沒有從中感受到「價值」,那么前面說的第三個問題也無從談起。
最后,我當然希望看到也堅信的是無論「Copilot」類產品,還是直接提供完整「工作」的服務,都能在各類場景中找到商業價值。
對于后者,更讓我興奮的是,可能未來的商業模式和銷售方式都會跟以往不同。
前者的使用對象是具體到崗位上的某個工種或員工,而后者要打動的對象則是管理他們的「經理」或負責人。從商業角度來說,這一類的新興公司剛開始可能要同時在 PLG 和 SLG 上啟動,這并非不是一件好事。
其次,以按照賬號訂閱的商業模式可能會更快過渡到與按使用量或計件方式的融合,既然最終交付的是一份文檔,一張設計圖甚至一次診斷服務,那么就應該按照實際「生產」數量計費,更符合商業規則。畢竟,在供給端無論訓練還是推理的成本,是在肉眼可見的降低。
不要忘了距離 ChatGPT 上線還未滿一年,陸續幾百家初創公司(不包括沒有拿融資的 bootstrapped 團隊和獨立開發者)都在下半年入場。
我們怎么能說,這就大踏步走入了「第二階段」?
最后的最后,回顧這屆「舉世矚目」的 OpenAI Dev Day。記得在 6 月,Sam Altman 在一次活動中親口說「插件(Plugin)市場還沒有找到 PMF」,而在這次發布會上我們看到了這個平臺的進化:GPT 商店,兩天里就有超過千個 GPT 在商店里發布。
盡管短時間內,我們也無法判斷以更貼近蘋果應用商店的形式是不是真的能讓 ChatGPT 生態更加繁榮。推薦機制、開發者利益分成機制還有成本等問題,都亟待持續發現并解決。
這還讓我想起另一個變化,7 月初 OpenAI 向 Plus 用戶率先上線了 Code Interpreter 功能,輔助用戶分析數據、測試代碼、制作圖表、解決數學問題等。然而在 8 月底,這個功能偷偷改名為「Advanced Data Analysis(高級數據分析)」,并且正式集成在了 ChatGPT for Enterprise(企業版)中,意圖不言而喻。
Code Interpreter 當初聽起來就是個很抽象的功能性名稱,而「Advanced Data Analysis」則是一個試圖傳遞明確價值的產品,至少對他的企業用戶來說。
ChatGPT 的每一次重大發布,似乎都像一場權游里的「Red wedding(血色婚禮)」,恐慌者甚至認為會殺死 YC 上「一整屆」初創公司。
但實際上看,ChatGPT 的每一次重大更新,都在說:
我們仍在「Act 1(第一幕)」!
ChatGPT 加入語音對話功能之后,流暢自然遠超傳統 TTS 的語音一度引發熱議。在國內,MiniMax 開放平臺的文本轉語音(T2A)模型也收獲了一致好評,甚至被評價中文語音超越了 OpenAI API 的表現。
在流暢和自然之外,MiniMax T2A 模型還能結合上下文表達情緒,甚至給出極具戲劇性的聲優級表現。聲音克隆方面,只需要 5 秒素材就能完成復制。能力的躍遷創造了更多落地可能性,現在 T2A 模型已經在角色配音、有聲讀物、在線課程、媒體資訊等領域迅速落地。
明晚(20:00-22:00)的 AGI Playground Workshop,我們邀請到 MiniMax 解決方案架構師,聊聊文本轉語音(T2A)模型現階段的技術進展和落地可能。