AIGC被認為是繼專業(yè)生成內容(PGC)和用戶生成內容(UGC)之后,利用人工智能技術自動生成內容的新型生產方式。隨著技術的發(fā)展,如Stable Diffusion和ChatGPT等領先技術的出現(xiàn),AIGC逐漸在文字、圖像、音樂、視頻、3D等多種形式內容的生產上發(fā)揮作用。然而,AIGC的快速發(fā)展同時也面臨一系列挑戰(zhàn),包括技術、安全、合規(guī)等方面。因此,我們既要擁抱變化,也要直視挑戰(zhàn),以期在不久的未來,AIGC能夠在更多領域大放異彩,開啟云計算產業(yè)鏈新一輪的景氣周期。
AIGC(Artificial Intelligence Generated Content),國內產學研各界對它的理解是“繼專業(yè)生成內容(Professional Generated Content,PGC)和用戶生成內容(User Generated Content,UGC)之后,利用人工智能技術自動生成內容的新型生產方式”。
來源:中國信息通信研究院和京東探索研究院
2022.09.23紅杉美國發(fā)表了文章:《Generative AI: A Creative New World》,認為AIGC將帶來新一輪的范式轉移。2022.11.30 ChatGPT發(fā)布,用戶飛速增長,AIGC走進了大眾視野中。無論是技術工作者、內容生產工作者還是營銷推廣工作者,都應該對AIGC有一定的了解。
AI的發(fā)展大致可以劃分為三個階段,我們用一張圖簡單展示一下有關AICG的發(fā)展歷程與典型事件:
參考:中國信息通信研究院
目前,AIGC正處于蓬勃發(fā)展的時期,大型企業(yè)加強投資布局,發(fā)布多領域的預訓練模型,如谷歌發(fā)布了BERT、Imagen等模型,F(xiàn)acebook發(fā)布了OPT-175B、M2M-100等模型,微軟投資OpenAI,發(fā)布了GPT4、Codex等模型,百度也在大模型領域深耕,發(fā)布了文心系列模型。此外,創(chuàng)業(yè)企業(yè)融資高漲,2022年10月,Stability AI獲得約1億美元融資,估值高達10億美元,Jasper拿下1.25億美元A輪融資,估值15億美元。在應用側,熱點AIGC應用的用戶數量呈指數級增長,例如ChatGPT用戶破億僅用了兩個月。我們認為,AIGC 技術正逐漸滲透到人們的生活、工作場景中,AIGC技術發(fā)展與產業(yè)形態(tài)已初步形成,處于方興未艾大有可為之時。
AIGC的發(fā)展依托于底層算力、算法的發(fā)展,從生成對抗網絡(Generative Adversarial Network,GAN)開始,AI生成高質量內容的能力快速提升,一些具有代表性的算法模型的發(fā)展歷程如下:
圖源:《A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT》
依托于這些算法,不同任務領域內涌現(xiàn)了一批預訓練模型與應用:
從技術場景上看,AIGC逐步在文字、圖像、音樂、視頻、3D等多種形式內容的生產上發(fā)揮作用,在新聞稿、財報等結構化寫作場景有較好的表現(xiàn),在圖像生成領域可以在細粒度上遵循人類指導完成指定主題內容的創(chuàng)作,如Copilot等生產力工具也紛紛涌現(xiàn)。
從更多的延展場景上看,AIGC可以有更廣泛的應用,如合成數據,生成虛構但與目標場景保持一致屬性的虛擬數據,從而避免AI一直為人詬病的數據偏見與隱私泄露問題;基于AIGC的虛擬陪伴也會帶來更多的社會價值,已經有一些企業(yè)將人工智能技術應用到精神健康的數字診療服務上,為臨床患者和廣大心理亞健康人群提供高質量、低成本、個性化、全天候的情緒支持、心理咨詢和干預方案。
這一波火爆的AIGC技術中,Stable Diffusion 開源模型與 ChatGPT 分別引領了圖像與文本生成領域的熱潮,AIGC也逐漸從簡單的降本增效(如結構化寫作)向創(chuàng)造額外價值(如AI繪畫)轉移,我們將對這兩個模型的發(fā)展與其中涉及到的圖像與文本相關技術進行簡單介紹。
AI繪畫在過去的一年中一直是AIGC領域的熱點話題,隨著Stable Diffusion的開源,眾多不同風格的模型紛紛涌現(xiàn)。而高效參數微調方法LoRA(「鏈接」)與精細控制生成內容的ControlNet(「鏈接」)的發(fā)布,更進一步讓AI繪畫發(fā)展為產業(yè)可用的解決方案。
Stable Diffusion從實現(xiàn)原理上,可以通俗的理解為這幾步:
圖源:《The Illustrated Stable Diffusion》
我們對Stable Diffusion中涉及兩個關鍵概念:CLIP與Diffusion進行簡單解釋:
ChatGPT (GPT,Generative Pre-training Transformer) 是一個能夠理解人類語言并做出相應反應的人工智能系統(tǒng),在ChatGPT發(fā)布之前,GPT系列大模型已經經過幾輪迭代。
然而,之前的模型中存在一個典型的對齊問題,即大模型生成的響應不一定符合用戶意圖。產生問題的原因是,從本質上講,語言模型訓練的目標是預測下一個詞,而不是按照用戶意圖來生成。為了解決這個問題,在ChatGPT的訓練過程中引入了基于人類反饋的強化學習(Reinforcement Learning from Human Feedback,RLHF)方法,通過手動收集反饋數據 -> 訓練獎勵模型 -> 強化學習的訓練流程提升了模型理解人類思維的準確性,可以通過一個簡單的圖示來展示這一訓練過程:
ChatGPT多數令人驚艷的行為,如響應人類指令,利用思維鏈進行復雜推理等都是RLHF的產物 。
參考:How does GPT Obtain its Ability? Tracing Emergent Abilities of Language Models to their Sources
ChatGPT的成功,在技術上可以給我們帶來幾點啟示:
目前,AIGC的市場結構可以粗略的劃分如下:
AIGC與云聯(lián)系緊密,AIGC應用依托于大模型的能力構建,而大模型的開發(fā)與運行都依賴云側充足的算力。以ChatGPT為例,根據OpenAI報告, ChatGPT是在InstructGPT 基礎上微調而來,參數量約13億,因此預計ChatGPT訓練所需算力為27.5PFlop/s-day,如果用NVIDIA V100訓練需要220天。可見,AIGC應用浪潮對算力的需求是前所未有的,這將迅速拉動云計算需求。知名投資機構a16z在報告中闡述,幾乎所有的AIGC相關應用都或多或少依賴云端的算力,因此a16z預測AIGC市場的大量資金最終流向了基礎設施公司,平均來說,AIGC應用開發(fā)公司將大約20-40% 的收入用于模型推理與微調,而這部分通常直接支付給算力提供的云廠商。
算力作為AIGC的重要支撐,是影響AIGC發(fā)展的核心要素;除此之外,構筑在算力底座上的AI平臺,又能直接影響AIGC應用的開發(fā)和運行效率。華為云擁有全棧全場景的AI能力,基于鯤鵬、昇騰的算力底座,提供了穩(wěn)定高效的AI開發(fā)平臺ModelArts,從數據處理到模型訓練、模型推理,可以大幅提升AI開發(fā)效率。
此外,在ModelArts的資產社區(qū)AI Gallery中,也有很多AIGC相關的低門檻案例,如一鍵運行的AI作畫案例(「鏈接」),已有18,000+的累計運行:
如果對AIGC感興趣可以到AI Gallery(「鏈接」)體驗相關案例。
隨著AIGC的快速發(fā)展,一些問題也逐漸浮現(xiàn)。在技術上,目前語言模型是基于統(tǒng)計的,這一機制導致回答偏差的存在,進而導致虛假信息傳播的法律風險;數理領域中的生成內容錯誤較多,無法應用到銀行、醫(yī)院等專業(yè)性強的領域;模型仍不可解釋與不可控,可能存在后門攻擊、數據中毒、訓練數據泄露等問題。在安全合規(guī)上,AIGC模型在訓練過程中的數據使用合規(guī)問題、生成內容的知識產權問題,甚至是訓練推理過程中帶來的碳排放問題等,仍然存在很多挑戰(zhàn)。
身處人工智能的下一個時代,我們不僅要擁抱變化,也要直視挑戰(zhàn)。在技術方面,如何理解大模型的基本工作機制對模型安全與繼續(xù)發(fā)展至關重要;除此之外,大模型訓練與遷移流程優(yōu)化是AI走向通用人工智能的關鍵。在技術發(fā)展的同時,AIGC的合規(guī)與治理應該引起重視。相信在不久的未來,AIGC將在更多領域大放異彩,也將開啟云計算產業(yè)鏈新一輪的景氣周期。