1950年,英國數學家阿蘭·圖靈在發表了一篇劃時代的論文——《機器與智能》,首次提到了人工智能。1956年夏,在美國達特茅斯學院 “如何用機器模擬人的智能”的研討中,首次提出“人工智能(Artificial Intelligence,簡稱AI)”這一概念,標志著人工智能學科的誕生。
時至今日, 歷經70年發展,AI經歷了三波發展浪潮。AlphaGo的出現引領了第一次AI應用發展高峰,帶動了神經網絡、深度學習等技術的發展,圍棋游戲、圖像識別、智能駕駛等領域應用隨之涌現;ChatGPT的出現,引領AI應用走向第二個發展高峰,進一步帶動大模型、NLP、生成式AI等技術躍升,聊天、繪畫、寫作、翻譯、甚至玩游戲等都有無限想象的可能。
AIGC概念持續火爆,短時間吸引了超百億美元的風投資金,出現了10多家AI領域的獨角獸。生成式AI將比歷史上任何創新更快地改變世界,甚至從根本上改變了企業運作方式,流程應用、人員合作關系和工作屬性等都發生巨大的改變。
? AIGC依處于早期階段,AIGC應用深化將帶來產業巨大變革,從行業廣度、深度、應用、技術和人員角度重塑工作方式
根據咨詢公司Gartner對AI應用的判斷,生成式AI應用依處于發展的早期階段,其應用依然會出現不少錯誤。但生成式AI學習能力很快,會在錯誤中不斷學習,達到基本模型的成熟;基本模型隨后進入早期應用階段,生產式AI會在沖突中學習進步;經歷早期應用學習進步之后將進入大規模應用階段,生成式AI會通過最佳實踐來學習應用經驗,最終進一步完善應用上的實踐。
雖然AIGC應用還處于早期,但生成式AI正在迅速進化,變得不僅更智能、更快、更便宜,甚至在某些極端情況下比普通人創造的東西更好,每一類需要人類智慧創造的行業都有可能被重新洗牌。
生成式AI所涉及的領域涵蓋知識工作和創造性工作,其影響涵蓋數十億人,生成式AI可以使這些人力的效率或創造力至少提高10%。因此,生成式AI有可能產生數萬億美元的經濟價值。
生成式AI對企業帶來的影響是多維度、多方面的,從行業角度,金融、政府、醫療、零售等幾乎所有行業都會被其影響:從應用維度,客戶服務、人事服務、營銷管理、銷售管理等都會發生深刻變革;從技術維度,機器學習、智能算力、數據科學等新的技術會部署到企業;從流程和管理角度,流程會重塑,人員需求和角色定位也會徹底改變。
? 大模型訓練和AI大模型面向行業的應用將極大拉動存儲產業需求,2030年AI相關存儲空間將達到232億美元
大模型訓練和面向行業的應用對系統硬件的需求巨大,以ChatGPT為例,為節省時間,ChatGPT利用Azure的GPU網絡,需要協調上千節點和30000個GPU同時工作,訓練一次需要消耗9萬度電,花費200萬美元。隨著ChatGPT的火熱,各個廠商紛紛投資硬件,訓練自己的大模型。云廠商和運營商投資往往是成千上萬節點規模,而行業型大廠投資在幾百節點規模。
根據Precedence Research公司預測,2023年,全球人工智能硬件市場規模為167.8億美元,預計到2030年將超過約892.2億美元,從2022年到2030年的復合年增長率(CAGR)為26.96%。
? AI大模型對存儲產業帶來的機遇和挑戰
AIGC的火熱,或者說ChatGPT的成功,首先來自于大模型的逐漸成熟。大模型成熟的先決條件又來自強大的算力,成熟優化的算法,以及大規模高質量的數據。
有規模與質量的數據要素是大模型的核心前提,ChatGPT原始文本類訓練數據達到45TB,同時疊加基于人類反饋數據來提升準確性。從GPT的訓練過程可以看出數據在大模型訓練過程中的重要意義,強化學習過程是ChatGPT 效果區別于其他模型的主要原因。
? 大量數據預處理的挑戰
大模型的數據是從互聯網及數字圖書館上收集的海量數據,這些數據并不能直接用于訓練。要將不同格式和不同數據源的數據歸集到一起,需要先將多樣化、多格式的數據進行清洗、去重、過濾、加工,大量的數據預處理工作需要耗用大量的CPU 和GPU算力。未來大模型會加入圖片和視頻數據預處理,其原始數據更將以幾何指數增加,僅僅是搬運或加載這些數據進行預處理都會對存儲系統產生巨大壓力,是否能不大規模搬運這些數據,就能完成數據預處理,是給當前AI基礎設施提出的挑戰。
? 大數據加載到多節點內存,對存儲性能和帶寬提出挑戰
大模型由于訓練數據過于龐大,45TB數據無法全部加載到單節點的內存中,通常利用并行計算的方法加速訓練完成,需要將數據加載到多個節點內存中共同計算。如此龐大的數據要加載到成百上千個節點中,這對存儲的性能和帶寬提出了挑戰。隨著大模型將圖片和視頻加入到訓練數據集,數據加載的壓力進一步加大,呼喚新的AI基礎設施架構,近存計算或近算存儲架構是可能的解題思路。
? 大模型訓練節點眾多易于中斷,如何保障數據恢復和訓練繼續
相較于傳統深度學習模型,大模型帶來千億級別訓練參數、訓練數據集呈指數級增加。AI大模型訓練持續迭代,要求頻繁的參數調優,服務器故障、網絡的故障經常造成節點中斷,需要Checkpoint機制確保數據能夠重新加載,訓練能夠快速恢復。而隨著參數規模的不斷增加,重新加載的時間越來越長,嚴重影響訓練進度,需要數據存儲的提供更大帶寬的數據訪問性能。
? 大模型訓練中的數據資產的安全
大模型訓練非常耗費資金,訓練中的大模型資產、訓練數據和人工標注數據都是寶貴的資產,如何集中管理這些資產,如何管理不同版本的訓練數據集以及匹配的訓練模型,需要專有的數據存儲管理系統。
綜上,大模型的發展、AIGC的應用將帶來大量的存儲需求,數據的收集、加載、訓練以及后續的推理和應用,都要求存儲系統的配合。如何滿足大模型對性能和容量的暴增需求,需要存儲系統在滿足現有技術時,出現創新性的架構來迎接未來的挑戰。