一、總覽以及結論
先說結論,字節在AI領域采用激進的高舉高打戰略,布局全,投入大,迭代快。目前已在多個賽道跑出全球頭部AI應用,成績斐然。長于產品功能設計和包裝,但在大模型能力上與競對相比并無優勢。
整體布局
字節跳動在AI領域采取了激進的高舉高打戰略。依托其強大資源,在賽道上采取“全方位布局”的策略,在產品上采用“頭部產品集中力量,新型產品快速迭代”的打法。取得了不錯的成效。
從生態上看,字節在對話、助手、虛擬社交、圖像、視頻、智能體、辦公、社區、音樂、編程、教育、電商、硬件等幾乎全領域都有布局。其中在對話/助手、教育、圖像、智能體領域已有全球頂流產品。
應用生態
字節的頭部AI應用為豆包大家族,包含多個通用及垂類大模型,以及同名AI助手產品。影響力大,其中AI助手產品“豆包”日活已破千萬,是全球第2、中國第1的AI類App。
除豆包外,教育領域的Gauth、圖像領域的Hypic、智能體領域的Coze均是全球頭部的AI應用。
字節在應用生態上十分注重海外市場,多個產品均在國內、海外同時布局,在海外已取得一定影響力。
總體評價
整體來看,字節的AI產品應用的特征為:布局全而廣,多領域全方位布局;頭部產品熱度高,集中力量搶占市場;產品功能設計出色,對AI能力的封裝設計在行業處于領先地位;迭代迅速,產品換代頻率高。
另一方面,字節大模型本身的能力在業內并不突出。其豆包大模型能力上限為全球第16,中國第10,在能力上與競對相比并無優勢。其當前最大的競爭優勢為在一定能力基礎上的價格低廉。
二、布局概覽
字節跳動在AI領域采取了激進的高舉高打戰略。依托其強大的資金、算力、場景、技術資源,在賽道上采取“全方位布局”的策略,在產品上采用“頭部產品集中力量,新型產品快速迭代”的打法。
模型層方面不僅覆蓋了各家都在卷的LLM豆包大模型,對于視頻生成、多模態以及特化的口型同步、TTS都有涉獵。
應用層上,基于模型層的廣泛布局,產品覆蓋了基礎的聊天、虛擬陪伴、音樂等。其中不乏豆包、即夢這類國內的爆款產品,也有CapCut、Gauth這種出海成功的產品。
這一戰略幫助字節在全球AI市場——尤其是消費端市場——上取得了不俗的影響力。依托其強大的產品設計和迭代、流量拉升和維系能力,多款產品已躋身全球頭部AI產品之列。
2024年8月,Andreessen Horowitz發布了其第三期全球AI產品榜,分為網頁端和移動端。前兩期分為于2023年9月和2024年3月發布。
在該榜單中,字節跳動共5款產品占據了6個位次,其中豆包AI助手的網頁端和移動端分別上榜。成績十分突出。榜單發布以來,字節榜上產品如豆包、Hypic、Cici、Gauth等的數據均有顯著的進一步提升,成績越發出色。
三、核心重點——豆包家族
豆包大模型
豆包大模型是字節AI生態的基石。其包括了一個通用大模型,以及在這個大模型之上構建的全方位垂類模型生態。是目前字節在生成式AI領域影響力最大、熱度最高的品牌。2023年8月,“云雀”成為首批通過備案的人工智能大模型;2024年5月,“云雀”更名為“豆包”。5月15日,在火山引擎原動力大會上正式發布豆包大模型家族產品矩陣;目前,豆包家族產品矩陣不斷擴充,新的模型如PixelDance等持續推出。已成長為國內C端用戶規模最大的大模型,作為垂類大模型,豆包支持視頻生成、文生圖甚至是函數調用與向量化等功能,價格甚至低至0.0003-0.0008元/千token。
豆包在模型能力上位居全球前列,但與主要競品相比沒有顯著優勢。根據SuperCLUE測評結果,豆包大模型的綜合能力全球第16,中國第10。與o1之外的大模型差距并不算大,整體位于第二梯隊末段。
但其實,價格才是豆包大模型的核心競爭力之一。其在同類模型版本上的價格顯著低于國內主要競品,尤其在128k/256k模型版本上,顯著低于行業同類價格。
不管是智譜還是月之暗面,普遍價格都完全不如豆包,更不用說高端版本價格更貴的文心一言了。
豆包AI助手
產品層面上,字節將豆包大模型能力進行了整合和封裝,推出了作為AI助手的同名產品“豆包”。其囊括了文本、圖像、語音等多種能力,針對搜索、聊天、分析、生成、翻譯等多個場景進行了定制化設計。
豆包AI助手目前有4種產品形態:PC端、移動端、網頁端、瀏覽器插件。每種形態都進行了較好的適配設計,尤其以瀏覽器插件端的網頁助手和閱讀功能為代表。
網頁端的版本是傳統的對話式AI網頁界面,用戶可直接在對話框中進行輸入。左側菜單欄中有常用的熱門對話類型,以及用戶的歷史對話記錄。
移動端的版本是傳統的移動端聊天框形式。分為“對話”“發現”“通知”及個人主頁等頁面。同樣支持自己創建智能體。
PC端的整體界面與功能與網頁端/瀏覽器插件類似。除對話和搜索外,也提供桌面環境下的AI劃詞翻譯、AI閱讀PDF等功能。
插件日常以一個小圖標的樣式顯示在頁面邊緣。可一鍵翻譯頁面、總結頁面、截圖識文字、收藏頁面等。需要時會喚起瀏覽器右側的對話框。
自上線以來,豆包取得了頗為亮眼的成績。移動端日活已破千萬,在AI類App中位居全球第2、國內第1。網頁端月訪問量也達到1710萬,在AI類網站中位居全球前40、國內前5。
用戶數量上,和國內的幾大直接競品相比,豆包移動端領先也優勢十分顯著,網頁端能維持在第一梯隊末,與ChatGPT相比仍有差距。移動端,豆包和國內競品相比具有顯著的優勢,MAU是第二名文心一言的4.08倍。在全球也僅次于ChatGPT,MAU達到了ChatGPT的20%。網頁端,豆包排名國內第三,僅次于Kimi和文心一言。在全球范圍內則相對較弱,排名全球39位,月訪問量僅有第一名ChatGPT的0.45%。
豆包的強勢表現除產品自身的質量外,也和字節的買量投入分不開。自2024年5月豆包家族發布以來,字節在豆包的廣告投流上進行了大力的投入;整個第三季度,豆包的投放素材達到71萬組,投放金額達到2億元,領先所有國內AI應用;但進入10月之后,豆包的廣告投放有所放緩,Kimi則繼續采用激進的買量打法。
四、其他產品——產品端
海外豆包——Cici
Cici,即豆包的海外版,同樣由豆包團隊推出,功能與設計與豆包基本相同。當前App MAU達到1226萬,躋身AI賽道全球前30,與文心一言持平,有不俗的影響力。
扣子——Agent助手
扣子為一個AI應用和智能體開發平臺,其三大核心特征包括:①無編程基礎進行AI應用和智能體開發;②采用對話聊天Bot形式提供服務;③支持發布到公域社交平臺等外部渠道。Coze的海外版為Coze,其核心服務是為用戶提供一個快速開發AI應用和智能體的平臺,功能強大,支持包括插件、知識庫、記憶、工作流在內的多種能力。
Coze核心產品的功能自然是AI應用/智能體搭建:
步驟1:創建智能體。支持模板創建或自然語言AI創建。
步驟2:編寫提示詞。設定智能體的人設和回復邏輯。
步驟3:添加技能。例如多模態理解、聯網搜索等技能。
步驟4:預覽、調試與發布。
Coze還能夠提供多角度的開發和發布支持:
插件:為智能體提供封裝好的額外能力,如排行榜、隨機音樂、謎語搜索。
知識庫:用戶可以指定智能體的知識庫,如本地文檔、網頁鏈接;
工作流&記憶:支持可視化工作流編排;提供長期記憶支持和設置。
外部大模型API:支持百川、Kimi等;
發布:內置Bot商店,也支持發布到飛書、抖音、微信小程序等。
商業化來看,Coze目前分為免費的基礎版和付費的專業版。主要分為智能體調用費、知識庫空間費、大模型Token費三種。專業版支持更大團隊空間規模、更高免費知識庫空間、不限制調用總量等。
產品數據方面,Coze的C端屬性比較弱,整體表現普通。國內熱度尚可,海外熱度在AI賽道中整體偏低。
貓箱——角色演繹
貓箱是一款AI虛擬角色與劇情互動應用,原“話爐”。用戶可與多樣化的虛擬AI角色實時聊天,共同演繹劇情故事,還可以創建自己的角色和故事劇本。海外版為Anydoor,目前已積累一定熱度,其中“貓箱”月活已增長至374,近期數據持續上升,海外版有下滑的趨勢。
貓箱的核心功能是AI角色聊天,用戶可以與形形色色的AI虛擬角色進行聊天、對話,共同演繹劇情故事。App的首頁為類似抖音的信息流推薦機制,用戶通過上劃來瀏覽不同的虛擬角色。App還會記錄用戶對話過的角色歷史。對話支持文本輸入和語音對話兩種。和同類App一樣,對話中也包含動作、神態描寫。
另一個核心功能是創建角色與故事劇本。用戶還可以自己創建虛擬角色和故事劇本。包括設定角色形象、設定故事的開場白、內容和完成條件。App還提供熱門的故事模板,如詞匯陪練、哄睡玩偶、悲傷鼠鼠等。
星繪——對標秒妙鴨
星繪,主打AI相機和寫真生成,對標“妙鴨相機”為用戶提供個性化的圖片和AI分身生成服務。海外版為PicPic,目前星繪App月活已超120萬,已達到妙鴨相機的40-45%。PicPic近期在日本等地進行了大力推廣,有所成效,但對比競品整體熱度較低。
星繪的核心功能有二,首先是AI分身/寫真的制作。用戶上傳3-20張照片,即可生成寫真風格的數字分身。初次生成時間較長。數字分成制作完成后,還可以對其進行穿搭、發型、場景、用途、風格的變更。例如轉變為職場正裝照、國風穿搭、少數民族服裝、九寨溝風景照、黑色皮衣雜志封面照、張家界徒步照、海灘落日照等等。
第二個核心功能是圖片處理,星繪同樣支持其他AI驅動的圖片編輯和處理,包括AI文生圖、AI擴圖、AI編輯、AI修圖等等。
即夢——圖像/視頻生成
即夢,海外版為Dreamina,由字節剪映團隊推出。AI圖片+視頻生成平臺,主打一站式的AI創作平臺,可以使用AI圖片生成和AI視頻生成,支持文字和圖片輸入。此外也有圖片編輯、智能畫布等多個功能。其能進行精細化的操作調整,給創作帶來極大便利。目前已與剪映/Cupcut進行深度綁定。數據上來看,即夢和Dreamina的月訪問量均在120-130萬左右,整體熱度普通。
即夢目前的核心功能主要為三個部分,其一是視頻生成,支持文生視頻和圖生視頻。支持手動操控運鏡、調節速度,支持在手尾幀輸入圖片生成可控視頻。支持基于文字自動對口型。
然后是圖像生成方面,即夢支持文生圖和圖生圖。支持對圖片進行局部編輯和調整,包括背景替換、風格聯想、畫風保持、姿勢保持等。
最后是智能畫布以及創意社區的功能。智能畫布集AI拼圖生成、局部重繪、一鍵擴圖、圖像消除等于一身,支持多圖層編輯。即夢創意社區可與他人進行交流啟發。
剪映/Cupcut——AI賦能視頻創作
除了“即夢”這個獨立的AI工具外,剪映自身及其海外版Cupcut也集成了大量的AI功能。二者最早為依托抖音/TikTok起家的視頻剪輯/制作軟件,后憑借字節在AI領域的能力,上線了大量AIGC功能,賦能用戶的內容創作。不過剪映并不是AI原生應用,其數據表現也僅供參考。
目前剪映的AI功能以即夢為主,同時涵蓋了字節內部其他團隊和產品的AI能力,如即創、海綿、大模型團隊等。主要AI功能包括:AI故事成片、AI作圖、AI商品圖、視頻翻譯、數字人口播等等。
醒圖——全能修圖
醒圖,海外版為Hypic,圖片編輯軟件,定位為全能修圖App,為用戶提供強大的修圖和圖片編輯支持,一方面提供全方位的修圖功能,包括各類面部處理、風格處理和效果編輯,另一方面提供多樣化的圖片編輯與設計,如商品圖設計、社媒圖模板等。醒圖的市場表現十分突出,醒圖近三個月平均日活617萬,Hypic的月活達到了1868萬,躋身全球前15大AI App。
核心功能主要分為修圖和圖片編輯。修圖方面提供類似美圖秀秀的AI修圖功能,如頭包臉、瘦臉瘦身、面部提拉、面部豐盈、五官立體、去皺、發縫消失等。也支持各類濾鏡、智能調色、夜景增強。支持批量修圖和一鍵修圖。提供古早風、諾基亞風、柔光風等風格模板。
圖片編輯與設計方面主要是提供全方位的圖片編輯以及設計功能,如摳圖、提高畫質、拼圖、消除等。也提供大量的預制模板,主要包括商品圖的設計模板,以及日常出片的社媒型設計模板,方便用戶進行設計。
Gauth——專注海外的教育AI
Gauth,2020年推出,定位為AI學習搭子,是字節推出的專注海外的教育類AI應用,以解題答疑為核心功能點。最早立足于數學學科輔導,目前已擴展至物理、化學、生物、經濟、文學、商科等學科。但穩定性仍有待提高,時有翻車現象出現。Gauth在教育和AI兩個賽道上都已經成為全球頂流,App月活達1626萬,網頁端月訪問量近2000萬,已成為美國地區熱度前3的教育類App。
核心功能主要為解題答疑和學習輔助。其中解題答疑部分主要是通過用戶上傳問題截圖/PDF或手動輸入問題,Gauth提供分步驟的答題思路和答案。相較同類產品的優勢為:響應速度快、擅長圖形和視覺表示類題目。不僅覆蓋多個學科,同時也提供真人導師。
學習輔助的功能主要是提供軟件教學輔助,如Excel、Matlab、R等;提供不同場景下的寫作輔助,如個人陳述、論文寫作等;提供多語種學習輔助。采用AI對話形式提供支持。
豆包愛學——面向學生群體的教育AI
豆包愛學,AI教育App,原“河馬愛學”。提供解題答疑、作業批改、作文輔導等全方位的教育輔導功能,旨在成為學習者和家長的全能學習助手。目前App日活已接近80萬,近三個月增長迅猛,日活從5萬增長至75-80萬,進入國內iOS應用免費榜前200。
核心功能包括拍題答疑、批改以及作文輔導,場景主要為國內學生輔導。拍題功能和Gauth類似,提供拍題答疑和AI講解功能。支持單體拍攝,也支持整頁拍攝。同時還提供錯題本功能。AI還可協助篩選必練題,也提供拍攝+作業批改的功能。
作文方面,豆包愛學提供了英語和語文作文輔導。用戶輸入作文要求,AI即可生成語文或英語作文,也可僅生成思路。此外還有文生圖、語音生圖、名人聊天室、故事館等輔助功能。
其他應用
小悟空——個人助理&辦公助手
前身為字節跳動推出的綜合類搜索引擎“悟空搜索”,后轉型為AI對話助手和個人助理,并更名為“小悟空”。
整體功能與豆包非常類似,但更側重功能性和個人助理場景,也具有更多預設好的、開箱即用的工具和智能體。
熱門AI工具包括PPT生成、視頻腳本生成、筆記創作、爆款標題生成、心理樹洞、模擬面試、塔羅測算、購物回復生成等等。
網頁端,月訪問量約3.4萬。App端,日活僅數千人,整體在3000-6000人之間,熱度表現不佳。
即創——電商內容創作平臺
專為電商場景打造的AI內容創作平臺,提供電商相關的視頻、圖文和直播創作。包括:
視頻內容:如AI生成腳本、視頻、數字人、配音、短片等;
圖文創作:帶貨圖文生成、智能替換商品背景燈;
直播創作:直播間背景樣式生成、直播腳本生成;
10月網頁端月訪問量38.2萬,較9月略有下降。平均訪問時長約5分鐘,平均訪問頁面數4.11,跳出率34%。整體熱度尚可,但有下滑的風險。
海綿音樂——AI音樂生成
AI音樂創作平臺,旨在利用AI技術生成個性化的音樂。
支持靈感關鍵詞生成歌詞;支持自定義參數——如節奏、和聲等——生成旋律;支持一鍵生成隨機歌詞;支持多種情感和風格選擇,如國風、朋克、Emo、懷舊等;支持音樂編輯,如續寫、換韻腳等;
比較擅長中文歌曲的生成和處理。
網頁端,月訪問量約3.5萬。App端,整體日活僅數千人,11月整體維持在5000-8000人左右水平。
MarsCode——AI編程助手
豆包旗下的AI編程工具。支持代碼補全、生成、優化、注釋等,支持AI模板和創建AI插件,集成API測試、存儲和部署工具,提供云端集成開發環境。網頁端10月訪問量8萬。
爐米 Lumi——AI模型共創社區
AI模型分享社區,為字節新近孵化推出的AI平臺。目前為白名單測試階段。
整體分三大功能:①模型分享與管理,允許用戶自由上傳和展示AI模型;②Workflow搭建功能,支持用戶根據實際需求組合不同模型,構建自定義的AI工作流程;③LoRA訓練功能,為用戶提供模型微調的便利。
Ola Friend——AI智能體耳機
2024年10月10日發布。接入豆包大模型,與豆包App深度綁定。用戶戴上耳機后,無需打開手機,便能通過語音喚起豆包進行對話。售價1199元。
五、其他產品——模型端
BuboGPT
多模態大模型,2023年推出。支持文本、圖像、聲音三種模態。不僅能支持基礎的文本、圖像和聲音識別,還能將三模態聯合打通。例如通過文字描述+圖像+聲音,精準識別聲音來自圖像中的哪個地方。即使圖像和聲音沒有關系,也可以描述出二者之間可能存在的關聯。
AnimateDiff-Lightning
視頻生成模型,2024年提出,該模型是從 AnimateDiff SD1.5 v2 模型中提煉出來,包含 1 步、2 步、4 步和 8 步共 4 個蒸餾模型。其中 2 步、4 步和 8 步模型的生成質量較好,1 步模型目前僅用于研究目的。支持 8 種鏡頭運動,10 秒內就能生成一個 2s 的視頻。
SeedEdit
圖像編輯模型,豆包團隊2024年11月推出。支持一句話輕松改圖,包括修圖、換裝、美化、轉化風格、在指定區域添加刪除元素等各類編輯操作,通過簡單的自然語言即可驅動模型編輯任意圖像等。目前該模型已經在豆包PC端及即夢網頁端開啟測試。
ResAdapter
分辨率適配器,2024年推出。該工具旨在解決在使用Stable Diffusion等文本到圖像模型生成超出訓練分辨率的圖像時出現的肢體異常和畫面崩壞問題。
MagicVideo
視頻生成模型,V2版本于2024年推出。集成了文本到圖像模型、視頻運動生成器、參考圖像嵌入模塊和偵插值模塊,形成了一個端到端的視頻生成流程。能夠根據文本描述生成高審美價值、高分辨率和平滑度的視頻。
X-Portrait 2
單圖驅動視頻生成模型,字節跳動和清華大學聯合推出。基于一張靜態照片和一段驅動視頻,生成高質量、電影級別的視頻。其能夠很好地將驅動視頻中的表情和情緒遷移到靜態照片上,具有高保真度,并且支持跨風格遷移。
Boximator
視頻編輯技術,2024年推出。能讓用戶通過簡單的操作控制生成視頻中主體的運動軌跡。物體將嚴格按照用戶繪制的位置和路徑進行運動。創新之處在于其直觀的交互方式:用戶可以選擇需要運動的物體,然后繪制結束的位置和運動路徑,物體就會嚴格按照繪制的位置和路徑運動。
SDXL-Lightning
圖像生成模型,2024年推出。是從 Stability AI 的 stable-diffusion-xl-base-1.0 模型中,使用了一種結合漸進式和對抗式蒸餾的擴散蒸餾方法提煉出來的。其在快速出圖的同時,依舊能保持較高的圖像質量,并且能夠覆蓋廣泛的圖像模式。
SeedTTS
文本到語音TTS模型,2024年推出。能夠生成與人類聲音高度相似的高質量語音,具備出色的上下文學習能力和自然度。支持對情感、語調、說話風格等語音屬性的精細控制,適用于有聲讀物、視頻配音等多種場景。還支持零樣本學習能力,即使在沒有訓練數據的情況下也能生成高質量語音。還支持內容編輯和多語種翻譯。
GR-2
機器人大模型,2024年推出。ByteDance Research 的第二代機器人大模型。其包含了預訓練和微調兩個過程。在預訓練階段,GR-2“觀看”了多達 3800 萬個來自各類公開數據集的互聯網視頻以及 500 億個 tokens,涵蓋了家庭、戶外、辦公室等多種日常場景。在微調階段,團隊使用機器人軌跡微調了視頻生成和動作預測,展現出卓越的多任務學習能力,在超過 100 個任務中實現了平均成功率 97.7%。其測試的任務包括:想要喝一杯咖啡、早餐想要吃點東西、果蔬分類等等,GR-2均有著十分出色的完成情況。
六、總結
產品布局
字節AI產品布局一覽
整體來看,字節AI產品的核心優勢是賽道布局廣泛、功能覆蓋多樣,產品整體的設計和AI能力封裝十分出色,但大模型本身的能力在行業中并不突出。
豆包在文字創作、中文理解等方面的能力較好,但與其他國內GPT類應用相比拉不開明顯差距。同時,在長文總結、聯網搜索、數據處理、翻譯等方面的能力上,較Kimi等直接競品有一定的劣勢。整體而言,與其他國內競品相比,最多可稱作“各擅勝場”,無法占據領先地位。
大模型的盈虧問題當前仍未能解決。相比ChatGPT,豆包作為C端免費的產品,收入低,虧損問題更加突出。(即不含模型訓練、人力和其他運營成本)
整體戰略
字節在AI領域采用激進的高舉高打戰略,布局全,投入大,迭代快。目前已在多個賽道跑出全球頭部AI應用,成績斐然。長于產品功能設計和包裝,但在大模型能力上與競對相比并無優勢。
字節依托其強大資源,在賽道上采取“全方位布局”的策略,在產品上采用“頭部產品集中力量,新型產品快速迭代”的打法。取得了不錯的成效。 從生態上看,字節在對話、助手、虛擬社交、圖像、視頻、智能體、辦公、社區、音樂、編程、教育、電商、硬件等幾乎全領域都有布局。其中在對話/助手、教育、圖像、智能體領域已有全球頂流產品。
應用生態上,字節的頭部AI應用為豆包大家族,包含多個通用及垂類大模型,以及同名AI助手產品。影響力大,其中AI助手產品“豆包”日活已破千萬,是全球第2、中國第1的AI類App。除豆包外,教育領域的Gauth、圖像領域的Hypic、智能體領域的Coze均是全球頭部的AI應用。字節在應用生態上十分注重海外市場,多個產品均在國內、海外同時布局,在海外已取得一定影響力。
整體來看,字節的AI產品應用的特征為:布局全而廣,多領域全方位布局;頭部產品熱度高,集中力量搶占市場;產品功能設計出色,對AI能力的封裝設計在行業處于領先地位;迭代迅速,產品換代頻率高。另一方面,字節大模型本身的能力在業內并不突出。其豆包大模型能力上限為全球第16,中國第10,在能力上與競對相比并無優勢。其當前最大的競爭優勢為在一定能力基礎上的價格低廉。
關于LitGate
大家好,我是LitGate,一個專注于AI創作的游戲社區。我們的新版官網已經上線?你可以在里面找到各種AI創作的實操案例,以及已經沉淀的AI游戲創意demo,相信一定能讓你大開眼界!