導語|秉承“技術提效”理念,探尋多媒體AI技術于廣告業務的最佳應用實踐。
本文由騰訊廣告多媒體AI中心總監、杰出科學家劉威撰寫,他和他的團隊打造了以混元AI大模型為代表的廣告多媒體AI技術矩陣,并應用于騰訊廣告系統升級中。這一創舉提升了廣告系統的理解能力,讓系統更加智能,從而提高用戶體驗以及廣告轉化效果與廣告制作效率。
騰訊廣告秉承“技術提效”理念,基于太極機器學習平臺,憑借混元AI大模型和廣告大模型,充分提升了廣告系統的理解能力和運算能力,助力廣告主達成起量、成本和穩定性三大效果指標,實現生意增長。
引言
隨著互聯網廣告系統的逐步進化,多媒體AI技術已經成為廣告技術棧不可或缺的一環。尤其是在廣告系統大變革中,多媒體AI技術也進行了諸多的技術升級。一條完整的廣告鏈路包含的模塊非常多,包括投放、定向、檢索、粗排、精排、播放等等,每一個模塊對于多媒體AI技術都有不同的需求。
在此背景下,我和團隊系統性地研發了廣告多媒體AI技術矩陣,為整個廣告鏈路提供完善的、精準的、高效的廣告多媒體AI技術。當前,該平臺已經成為騰訊廣告的AI基礎建設,有力保障了騰訊廣告的持續穩健發展。
本文將系統介紹騰訊廣告多媒體AI技術研究與應用,涵蓋【巨闕】廣告內容理解、【乾坤】廣告智能創作、【神針】廣告智能審核、【天印】廣告指紋系統,以及【混元】AI大模型。
【巨闕】廣告內容理解
(一)業務背景
計算廣告的本質在于以合理的價格,將合適的廣告推給適合的人,因此廣告理解、用戶理解是整個廣告推薦鏈路的基礎依賴。隨著下一代廣告系統的到來,對廣告內容理解也提出了更加精細化、細粒度的要求;同時隨著視頻廣告/多媒體廣告日益增多,對廣告內容理解中的AI技術也提出了更高的要求。
我團隊研發的巨闕廣告內容理解,目標在于建設多維度多粒度的廣告語義理解系統,提高廣告側特征生產與應用效率,服務騰訊廣告全鏈路。
(二) 系統架構/功能
結合當前整個廣告數據鏈路,我們逐步構建了一套廣告精細化語義理解系統,從底層數據的接入預處理,到系統調度存儲,再到上層的各種語義理解算法能力,最終服務于廣告推薦、廣告創意、廣告投放等業務。具體來說,廣告數據主要包括廣告關聯的商品、廣告創意、廣告落地頁三大類,因此廣告內容理解核心提供三大類的AI理解功能:
商品理解:理解各行業廣告的核心標的物,如電商行業中的商品類目、產品、品牌、屬性等,服務全行業商品化;
創意理解:理解廣告創意內容,如創意的基礎屬性、拍攝手法、營銷賣點、視頻元素(人物、LOGO、道具等)、場景、風格等;
落地頁理解:理解廣告落地頁內容,如落地頁的配色、主體類別、主體位置、屏數等。
(三)技術解析
廣告內容理解涉及的技術能力非常繁多復雜,本文挑選部分典型場景能力做簡要解析。
基于多模態預訓練模型的商品類目識別
由于全行業的商品類目體系非常龐大&駁雜,且會定期升級變動,采用有監督學習的模型對訓練數據的標注需求非常大,而廣告業務中存在大量的無標注數據,如何有效利用這些無標注數據快速提升商品理解的效率&效果非常關鍵。
基于此,我們構建了一個適合廣告數據場景的,兼容單模態/多模態/跨模態缺失or不匹配的多模態預訓練大模型,采用千萬級廣告數據投入預訓練,基于預訓練模型在下游任務上進行遷移學習,在下游的商品類目分類、產品識別等任務中實現了采用更少的標注數據取得了更好的分類效果。
大規模廣告logo檢索識別系統
品牌是廣告商品的一個重要維度,廣告圖片中通常都會攜帶品牌logo信息。但由于涉及行業眾多,廣告中的品牌通常會有至少幾萬類,而當前公開數據集最多的只有3K類,工業界最多的只有2W類。因此,針對廣告場景下的logo識別,需要重點解決因類別龐大,無法人工標注導致的數據稀缺問題,以及新廣告新品牌會不斷涌現,已有品牌也會不斷產生新變體而帶來的模型的魯棒性與增量學習能力的問題。
針對數據稀缺的問題,我們采用機器數據合成的方式,具體包括:1.人工梳理萬類品牌logo;2. 采用logo圖增強(透明化分割、變色、縮放)+ 背景圖景深分割算法 合成訓練樣本,增強生成樣本的多樣性。
針對模型魯棒性以及擴展性的問題,在模型結構上,將模型拆解為檢測+識別兩個獨立階段,識別階段舍棄傳統閉集分類框架,采用DML學習Embedding,構建logo檢索庫,用基于檢索的方法做識別;可支持自動發現新logo后人工標注,快速提升新logo覆蓋。
多模態QA式商品屬性識別
商品屬性是更細粒度的描述商品SPU/SKU的基礎信息,目前電商中存在數千個屬性,傳統的NER任務直接預測多類別BIO,難以訓練且效果很差,同時傳統的NER任務只基于文本信息進行提取。而廣告場景中,擁有豐富的商品圖片信息,如何高效利用圖片、文本多模態信息提升屬性識別的效果是我們想要解決的問題。
基于上述問題,我們提出了一套多模態QA式屬性提取框架:
Multi-Modal Transformer提取文本/圖片多模態特征;
增加屬性預測網絡,提取屬性proposal,極大縮小token目標分類范圍;
將屬性作為query作用于屬性值提取網絡,進行QA式NER提取。
創意視頻時序化理解
當前視頻創意廣告越來越多,首先我們構建了一套完善的多維度創意內容理解體系,包括視頻基礎屬性理解(尺寸、時長、鏡頭數、清晰度等)、視頻框架理解(拍攝手法、視頻場景、視頻風格等)、視頻元素理解(人物、LOGO、道具、營銷賣點等),以對整個視頻進行理解打標簽。但同時,由于視頻廣告節奏、信息變化快,每個鏡頭都包含非常豐富的信息,因此需要更精細化的進行時序化、鏡頭化理解,助力創作編輯&精準推薦。
基于此,我們提出并研發了基于視頻時序分割+視頻時空檢測定位的時序化理解能力:
視頻時序分割打標簽:適用于視頻框架類標簽,將視頻分鏡頭分幕分割后進行分鏡頭分幕片段的理解;
視頻時空檢測定位打標簽:適用于視頻元素類標簽,直接對視頻進行時空時序定位,提取精彩片段關鍵元素。
(四)業務應用
巨闕廣告內容理解目前已服務應用于廣告全鏈路,助力下一代廣告系統效果提升。
目前已完成60+項特征理解能力建設,覆蓋商品、創意、落地頁等多個維度;
相關特征已廣泛應用于召回/粗排/精排大模型,顯著提升廣告系統的消耗與GMV;
相關特征應用于創意風向標、創意排行榜、創意研報等多個創意分析產品,指導廣告主優化創意制作,提升創意制作效率&效果。
【乾坤】廣告智能創作
(一) 業務背景
視頻廣告數量增長趨勢明顯,引發對視頻創作訴求的激增。針對廣告投放門檻高,視頻制作成本大,視頻跑量周期短等實際業務問題,騰訊廣告多媒體AI中心打造出智能創作引擎 - “乾坤”,助力視頻產能提升,解決行業客戶痛點,推動騰訊廣告視頻化進程。
(二) 智能創作引擎
經過多年技術沉淀,騰訊廣告智能創作引擎實現多項自動化視頻創作能力,支撐多大項產品形態,日均生產數十萬條量級視頻廣告。引擎持續打磨智能生成、渲染合成、質量控制、元素庫四方面能力。
智能生成:包含多達幾十項基礎算法能力,涉及多模態視頻標簽、視頻時序解析、視頻封面圖生成等原子算法能力。
渲染合成:依賴CPU和GPU雙集群渲染,支持前端實時預覽及批量化生成,具備模板視頻工程化設計、特效定制支持、 穩定分布式高性能渲染等能力。
質量控制:系統規則、AI算法、人工運營有機結合,全鏈路保障視頻質量。
元素庫:積累視頻元素數萬個,包含視頻模板、音樂、特效、貼紙、節日元素等。
(三) 典型技術解析
視頻尺寸變換,降低投放門檻
針對騰訊廣告流量特性,我們基于視頻人像分割提取人物,視頻OCR/ASR提取字幕,構建出一鍵視頻智能拓展能力,實現3分鐘自動化視頻多規格拓展。此外,我們也實現了分鏡聯播、百葉窗、利益點填充等多達16種視頻轉尺寸方案,支持全規格互轉。
圖片衍生視頻,提升制作能力
針對單圖片生成視頻場景,我們基于單目深度預估、圖像填充等能力建設了單圖3D微動能力,讓圖里的元素“動起來”,提升廣告投放效果。此外,我們也實現了多圖音樂卡點混剪,針對節假日匹配節日模板等方案,建設批量化視頻生成能力。
視頻派生視頻,延長跑量周期
我們提出創新的視頻廣告時序解析算法,結構化視頻廣告敘事框架,并識別每個視頻片段四個維度的標簽,將視頻廣告理解能力從整體粒度升維至時序粒度。實現鏡頭混剪、視頻時長變換、視頻強化、跑量素材混剪等多種能力。視頻生成視頻效率得到指數級提升。
虛擬特效,探索廣告創意新玩法
針對廣告新玩法的探索,我們打造了一條虛擬特效智能生產管線,實現批量化廣告生成,包括虛擬人驅動引擎、特效生成等核心技術能力。實現輸入一段文本or一段音頻 + 一張廣告圖片,生成一條含有虛擬人或者特效的視頻成片,達到提升廣告效果、提升視頻廣告生產效率的作用。
(四)業務應用
廣告智能創作引擎每天生成的視頻數量增長迅猛,支撐創意自動化衍生適配全流量廣告版位,大幅降低廣告投放門檻,提升投放效果。
【神針】廣告智能審核
(一)業務背景
廣告審核是廣告商業變現的前提,也為公司的廣告生態保駕護航。我們與騰訊廣告聯合建立了一套安全、精準、高效的廣告智能審核平臺 - “神針”,涵蓋超100項AI審核能力,將以往的"人工審核"方式,進化到“機器主導+人工配合”的高效方式,實現廣告審核的全面智能化。
(二) 系統架構/功能
結合廣告審核的特性,例如違規點眾多、素材重復度高、違規點具有時間相似性等,構建自動判別、相似復用、負向檢測、規則引擎等4大類能力。
自動判別:針對一些長期穩定的樣式(包括合規廣告&違規廣告),訓練多模態自動通過/拒絕模型,用于處理AI違規點能力無法覆蓋的素材;
相似復用:廣告主為了降低素材制作成本,通常會重復使用廣告元素(如視頻 or 圖片等)構建廣告進行投放,通過構建相似復用能力,能夠以較低的相似檢索成本來實現素材的精準審核;
負向檢測:主要應用于高頻違規點檢測,例如違規詞識別、素材模糊、涉暴涉恐等;
規則引擎:由于不同的流量、不同的行業對于審核規則都有差異,因此為了提高能力的通用性,在基礎能力基礎上構建了規則引擎,以適配業務需求。
智能廣告審核系統可支持各類廣告元素的審核,包括圖片、文案、視頻、落地頁、廣告主賬戶等的審核。
(三)技術解析
多模態自動判別技術解析
廣告審核的數據復雜而多樣,在元素形態上可分為文本、圖片、視頻和落地頁四種類型。我們將這四種類型進行歸納和拆解為視頻、音頻、圖像和文字四種基礎模態,采用多模態多標簽分類的思想來進行自動審核判別模型的建模。
整個算法pipeline劃分為模態特征提取、模態內特征融合、多模態間特征融合以及多標簽分類四個模塊。首先,我們使用構建的多模態模型庫提取視頻、音頻、圖像和文字不同模態各自的特征表征,然后在各個模態內部進行特征的融合,如視頻幀間特征融合的操作;再融合不同模態特征之間的特征對廣告進行一個豐富的特征表征,最后輸出通過/拒絕二分類標簽和1000+細粒度違規點。
負向檢測技術解析
在廣告審核場景中,違規點數量多而雜,僅算高頻違規點就多達數百個,如何高效且快速地實現機器自動審核是個巨大的挑戰。針對這個難題,團隊主要從兩個方面入手,首先針對Top違規點,獨立建模,累積開發了100多個負向違規點審核能力;其次針對重要關鍵的能力,例如OCR、人臉技術等,團隊重點攻關、全面研發,始終保持技術處于行業領先。
(四)業務應用
廣告智能審核系統集安全、精準、高效為一體,審核質檢合格率處于業界領先,同時通過機器審核為騰訊廣告節約人力超千人。智能審核系統有效提升了廣告主投放效率,把控了平臺的廣告風險,也為用戶帶來良好的廣告體驗。
【天印】廣告指紋系統
(一) 業務背景
廣告主為了減少廣告創意制作成本,復用成功起量的廣告創意,經常會創建相似廣告進行投放。大量相似廣告對廣告生態造成諸多負面影響,在廣告推薦方面導致大盤分配效率下降、冷啟動速度慢、廣告空耗嚴重、跑量不穩定等負面影響;在用戶體驗方面,大量相似廣告重復曝光造成用戶的反感與投訴。
【天印】廣告指紋系統以視覺相似為基本準則,提供層級化指紋ID、Embedding及多種檢索能力,服務騰訊廣告投放、廣告召回、廣告推薦模型及廣告效果分析等全鏈路環節,有效解決相似廣告重復曝光、廣告推薦不穩定等問題,改善廣告生態,并為廣告鏈路降本增效作出一定價值的貢獻。
(二) 系統架構/功能
【天印】廣告指紋系統主要包括四個模塊,廣告流水解析、廣告元素特征提取、廣告聚類指紋/哈希指紋生成、廣告指紋入庫,具體模塊如下圖所示。同時為了配合下一代廣告系統升級,【天印】廣告指紋系統也從1.0版本升級到2.0版本。
【天印】廣告指紋系統當前支持 4層級指紋ID(元素指紋/素材指紋/廣告指紋/商品指紋),支持 2層級Embedding,支持單模態、多模態、跨模態檢索, 支持元素、素材、廣告、商品的檢索。
(三) 技術解析
【天印】廣告指紋系統中最重要的模塊為Embedding提取模塊。我們使用了多模態+深度度量學習算法提取圖像 / 視頻 / 文案的Embedding,并創新地提出了角度量化(Angular Quantization)與Hash Bit Selection算法生成Hash指紋,技術達業界領先水平。
多模態Embedding算法:
視頻方面,我們提出了多模態多尺度視頻時空Transformer模型,引入了ASR文本信息輔助相似度計算,同時引入了文本模態Mask的數據增廣以及ASR模態缺失損失函數,提升了模型泛化性;相比于業界競品效果,算法在F1指標提升了12%。圖像方面,我們使用多監督信息,并引入了多層空間特征,使得模型能夠關注到除商品外的底層色彩、紋理等信息,以更好地反映圖片對之間的全局相似度,較業界常用算法多解決了80% badcases。
哈希量化算法:
經典的ITQ等算法其目標函數沒有考慮樣本間的Pairwise特征相似性,只降低了樣本的量化誤差,在某種程度上損失了一定的信息;為了更好地建模樣本的相似信息,保持樣本的原始相似性,我們自研了一個新的哈希算法AQ,其采用了獨特的離散優化策略,直接求解二值哈希碼,在業界常用數據集上mAP提升3%;為了節省存儲資源并提升效果,我們進一步提出了哈希比特選擇(Hash Bit Selection)算法,借鑒特征選擇的思想,選出重要的哈希比特位,并丟棄冗余的哈希比特位。在業務數據集上,哈希比特選擇算法可降低編碼長度33%,節省哈希編碼存儲空間33%;在同等維度下,經過哈希比特選擇后的哈希編碼相比單哈希算法的mAP最高可提升 ~4%。
(四)業務應用
相似檢索系統已應用于騰訊廣告推薦全鏈路。投放階段,基于相似指紋進行投前診斷,投放更加多樣性廣告素材提升用戶體驗;審核階段,基于相似圖片/視頻檢索,對不合格的相似圖片/視頻進行快速下架;在召回階段,提升曝光廣告的新鮮度等;推薦階段,指紋作為廣告側特征保證模型預估的穩定性,提升模型大盤效果等等。
【混元】AI大模型
(一)多模態內容理解
廣告內容理解中有各種各樣的理解任務以及大量的無標注數據,如何利用這些大量的無標注數據產出一個通用的多模態內容理解預訓練大模型,并提升下游各理解任務的迭代效率和效果,是我們重點要解決的問題。
基于此背景,我們設計了一個適合廣告場景的多模態內容理解大模型。該模型基于單流的Transformer結構,提出多尺度視覺特征融合、層次化注意力交互、大規模對抗訓練等諸多改進和設計:
多尺度視覺特征融合:視覺特征同時采用Region、Patch特征,以便獲取更豐富的視覺語義信息;
層次化注意力交互:針對Embedding交互,設計了采用全局+局部注意力的方式,這樣可以在不損失重要信息交互學習的情況下,節省計算開銷,提升訓練效率;
大規模對抗訓練:針對大模型在下游任務中容易過擬合的問題,在預訓練和下游任務finetuning中引入了對抗噪聲訓練的方式提升模型的魯棒性。
(二) 多模態文案生成
針對廣告文案,我們設計了多模態多任務文案生成大模型,可以用一個模型提供多種功能,當前功能包含前綴生成、關鍵詞生成、夸張風格生成、受控生成以及圖像描述生成等。用同一個模型完成多種任務可以在多個任務中遷移知識,節省訓練樣本,也方便部署。當前模型生成的結果已經集成入文案助手的廣告文案推薦。相比檢索式的文案推薦,生成式的文案推薦可以適應新出現的場景,引入外部知識。
(三) 跨模態檢索
視頻內容的理解、推薦和搜索能力對于廣告內容的投放、審核、推薦等環節至關重要。針對海量多模態廣告視頻數據,跨模態視頻-文本檢索技術是提高計算機對視頻內容理解的重要手段之一,其不僅要求模型能夠捕捉模態內部的細粒度語義信息,還需要學習跨模態數據之間的內容關聯性。然而不同于單模態(圖片、視頻、文本)檢索任務,不同模態的數據分布存在天然的異質鴻溝(heterogeneity gap)問題,且跨模態數據之間存在多對多映射的標簽噪聲。
為了解決上述問題,我們的模型基于雙塔Transformer結構,提出了層級跨模態交互技術,通過自注意力機制將單幀特征聚合成幀-片段-視頻的層級化視覺特征,同時針對文本模態得到單詞-短語-句子的層級化文本特征,最后通過層級化的對比學習,實現從多粒度角度分析兩種模態數據的相似程度。
除此之外,我們提出的自適應標簽去噪技術和邊緣樣本增強技術通過挖掘潛在的噪聲樣本以及強化邊緣樣本,進一步提升了模型的檢索精度。最終,我們的跨模態檢索大模型在五個最權威的國際跨模態檢索數據集榜單上都取得了Top 1的成績,成為業界標桿。
總結
騰訊廣告多媒體AI技術團隊聚焦騰訊廣告場景,全力投入多媒體內容的分析、理解、檢索、生成等全鏈路前沿AI技術研發,持續推進騰訊廣告智能化進程。當前,我的團隊已經構建了較為完善的多媒體AI能力矩陣,研發了【混元】AI大模型,并以此為底座支持【巨闕】廣告內容理解、【乾坤】廣告智能創作、【神針】廣告智能審核、【天印】廣告指紋系統等四大技術平臺。我團隊研發的這些技術處業界領先地位,已經成為騰訊廣告技術基建中不可或缺的組成部分。
未來,我和團隊將繼續在AI技術道路上進行探索,持續提升騰訊廣告的技術影響力,為騰訊廣告業務創造更大的價值。