AI:2023年6月9日北京智源大會演講分享之基礎模型前沿技術論壇—《工程化打造AI中的CPU》、《構建一個AI系統:在LLM上應用帶有RLHF來推進定制》、《多模態預訓練的進展回顧與展望》、《擴展大型語言模型:從冪律到稀疏性》
導讀:《工程化打造AI中的CPU》講述了基礎大模型在AI中的重要性體現在提供計算能力、對產業發展產生重大影響,以及決定后續模型的能力和合規性。 Aquila天鷹語言模型系列旨在打造中英文雙語能力的大模型,并采用循環迭代的生產流水線。該系列包括基礎模型和針對對話和代碼生成進行微調訓練的模型。評測對大模型的重要性體現在高昂的訓練成本和能力復雜性。FlagEval作為評測體系提供能力-任務-指標三維評測,并輔助模型訓練。構建迭代基礎大模型的持續生產線是一個周期性發展的路線圖,通過不斷創新和迭代滿足產業需求。
《構建一個AI系統:在LLM上應用帶有RLHF來推進定制》中講述了LM(大型語言模型)在提高生產力和理解特定領域的語言和知識方面具有價值。構建實時AI系統是必要的,因為當前的AI無法完全取代人類,用戶反饋對于不斷改進至關重要。使用強化學習與人類反饋(RLHF)以及類似PPO的獎勵模型對LLM進行訓練至關重要。LLM的未來發展涉及將其能力從文本生成擴展到行動自動化,例如自動發送電子郵件和更新日歷。
《多模態預訓練的進展回顧與展望》中講述了自監督學習得到大規模發展,大模型不斷涌現,但多數模型仍限于單模態。框架主要是基于Transformer,采用自監督學習預訓練,然后微調到下游任務。未來需要更多的數據集、更高效的模型結構、更好的自監督策略,以及更多創新下游應用。大模型仍然有很多未解決的問題需要研究。多模態大模型能實現不同模態之間的知識共享和協同,近似類人感知,有助于構建通用人工智能。?基于自監督學習的大模型有望突破瓶頸,成為通用人工智能的重要途徑。通過預訓練模型和微調任務實現多模態融合理解與生成,包括模態內掩碼學習、模態間掩碼學習和模態間匹配學習。未來需要構建大規模高質量的預訓練數據、設計高效計算的大模型網絡結構、適合多模態關聯建模的自監督學習方法,以及提升預訓練模型的下游應用與遷移能力。
《擴展大型語言模型:從冪律到稀疏性》中講述了LLM(Large Language Model)擴展使用MoE技術,通過分布、正則化和擴展來適應新數據分布。摩爾定律的終結限制了芯片性能的提升,從而推動了對LLM擴展的需求。摩爾定律已經達到物理極限,無法持續提高芯片性能,LLM需要從簡單的模型規模擴展轉向更復雜的模型架構。T5通過將所有NLP任務定義為文本到文本轉換的方式,達到統一框架且簡單高效。MoE通過引入專家并采用高級技術如非均勻架構、終身學習等,成功實現LLM的規模擴展與性能提高。通過使用專門化分布的專家和無遺忘學習技術,可以抑制遺忘問題,使LLM在不同分布上具備良好的性能。
實際上,大模型要始于文字,但最后要高于文字。假如我有足夠的資金,最想做的事是,特別想要10000張A100卡,去復現一下GPT-4。關于大模型要不要去做reasoning(數學題),或者是說調用工具去解決?答案是必須的,這是一個基本盤,但是,數學推理是多步驟的問題,而不是簡單的QA問題,終極答案還是需要預訓練大模型的。在實際應用中,基于RLHF的企業用戶獲取數據質量是相對比較好,且性價比很高的。從某種角度來講,自從ChatGPT誕生后,其實是顛覆了以前做的小模型。如果從GPT-4看未來多模態的方向和路徑,至于是從頭重訓練的一個超大多模態模型,還是只是基于LLMs的基礎上采用MoE策略實現協同,如果猜測的話,GPT-4內部機制大概率上很有可能是后者。
備注:以上內容僅為個人解讀與總結,歡迎大家留言建議與指正。
官網地址:2023 北京智源大會
視頻回放地址:https://2023-live.baai.ac.cn/2023/live/?room_id=27171
清華大學副教授,智源學者
智源研究院副院長兼總工程師
>>對訓練一個語言基礎模型進行成本的粗略估算
>>>>包括:訓練數據的準備、訓練過程、測試評測三大部分。每一部分包括在該部分所需要的人力成本、計算成本等。
>>>>不包括:可以分攤到多個大模型訓練的成本項,例如工具的開發、新算法的研發等。
>>一個LLM模型的開發成本十分高昂。
>>能力和知識
>>合規性和安全性
>>版權和商用許可
>>已經發布的國內外通用語言大模型統計(從2023年1月至5月底)
>>>>國外發布的開源語言大模型有39個,其中可商用、非copyleft協議的大模型有16個
>>>>國內發布的語言大模型有28個,其中開源的語言大模型有11個,其中開源可商用的語言大模型僅有1個(BELLE ——基于BLOOMz-7B進行指令微調的對話模型)
>>為大模型產業打造具備中英文雙語能力的
>>天鷹大模型需要符合語言模型的整體能力框架要求。
>>打造端到端、循環迭代的大模型生產流水線
>>語言大模型的整體能力框架定義
>>基礎模型信息
Aquila-33B:330億參數中英雙語基礎模型
Aquila-7B:70億參數中英雙語基礎模型
>>對話模型信息——基于Aquila基礎模型進行指令微調訓練及強化學習
>>代碼模型信息——基于Aquila基礎模型進行持續訓練.?
>>Aquila語言大模型在技術上繼承了GPT-3、LLaMA等的架構設計優點
>>重新設計實現了中英雙語的tokenizer
>>并行訓練方法:
>>底層算子:Aquila替換了一批更高效的底層算子實現(Flash attention) ,并且集成到BMTrain的訓練框架中。
數據采集
數據分布分析和調整
SFT測試驅動數據迭代
重要指令添加
>>SFT數據采集
>>>>人工寫prompt+回復
>>>>>>內部數據標注人員+外部公益者
>>從公開高質量數據集進行指令生成
我們通過構造數據類別的分類模型,分析指令數據集的分布情況
模型能力與指令微調數據的循環迭代
可擴展的特殊指令規范
強大的指令分解能力
>>基于Aquila-7B的強大基礎能力,以小數據集、小參數量,實現高性能
>>同時支持不同芯片架構的模型訓練
每天10萬以上的訓練成本。。。
>>大船難以掉頭
>>大模型的能力復雜性:
“能力-任務-指標”三維評測體系
>>自動化評測機制,實現邊訓練邊評測:
>>自適應評測機制,實現評測結果指導的模型訓練:
>>各階段效率優化:
>>參考tick-tock模式,構建語言大模型的周期性發展的路線圖
>>構建可預見+不可預見的創新迭代Roadmap
源源不斷的預訓練海量數據
各種大模型新技術
產業需求
新版本大模型
沒有基礎模型的深耕,帶不來枝繁葉茂
開源倉庫:https://github.com/FlagAl-Open/FlagAl
劉胤燴│ Birch.ai核心創始人及CTO
The Value of LLMs
Building a Real-Time Al System
Reinforcement Learning with Human Feedback (RLHF)
The Future of LLMs
Boost Productivity
>>Consumer Facing Products.
>>Enterprise Facing Products
>>>>Understand domain language - ex: healthcare lingo-
>>>>Understand industry's knowledge and company policies
Today's Al can't completely replace human.
>>Start with augmentation than complete automation
>>Humans-in-the-loop for critical decisions and final sign-off
>>Real-time performance metrics for generative models - "# Human edits"
>>Collect feedbacks from professionals
>> Today's Al can't completely replace human.?
>> User feedback is critical, but must be curated.?
>> Continuous improvement is the path to automation
>>>>Train Reward Models (RM)
>>>>Apply Reinforcement Learning with Human Feedback (RLHF)
來自2017年OpenAI的論文
Extend the workflow from text generation to action automation
>>Text Generations:
>>>>Meeting notes
>>Action Automations:
>>>>Send emails
>>>>Update calendars
>>>>Create, assign, and execute tasks
中科院自動化所研究員
多模態預訓練的研究背景—為什么關注?
多模態預訓練的研究進展—當前怎么做?
多模態預訓練的幾點思考—以后怎么做?
>>開啟了基于自監督學習的“大數據+大模型”新范式,從大規模的無標注數據中挖掘隱含的監督信息進行通用知識學習,成為邁向通用人工智能的重要途徑。
>>ChatGPT進一步聯合人類反饋的強化學習,實現可與人類意圖對齊的基礎模型。
1、從有監督到自監督
2、從專用小模型到通用大模型:多專多能
3、從數據驅動到人機交互學習:大模型+RL
數據量/模型參數量不斷增長,并在語言、語音、視覺等通用領域,以及無人車、遙感、生物醫藥等各領域取得優異性能。
從“大煉模型”轉為“煉大模型”
大模型的應用方
>>ChatGPT基于大規模語言模型GPT3.5,通過人類反饋學習微調而來的對話生成大模
,通過人類反饋學習微調而來的對話生成大模,而是以自然語言為交互的通用語言處理平臺。
>>>>超出預期的交互體驗
>>>>通用的意圖理解能力
>>>>強大的連續對話能力
>>>>智能的交互修正能力
>>>>較強的邏輯推理能力
大模型技術與人類反饋強化學習融合,實現知識邏輯涌現和人類價值觀模擬,探索出了發展通用人工智能新路徑,成為真正改變AI領域重大突破
面向圖文音數據的多模態預訓練模型是利
用全網多模態大數據來實現類人多模念感認知的重要途徑,有望推動語音、語言、視覺等多領域協同發展
>>多模態數據無處不在:互聯網90%以上是圖像與音視頻數據,文本不到10%
>>多模態協同更符合人類感知與表達方式:讓機器實現類人“看懂、聽懂、能說、會讀”
模型應具有強大的自監督學習與通用知識遷移能力,使不同領域任務在統一框架下實現基于低標注代價的性能提升
重點關注多模態融合表征與跨模態語義關聯,提升多模態融合理解與跨模態轉換生成性能
預訓練:采用Transformer作為基本模型,通過設計基于自監督學習的預訓練任務,從大量無標注數據中學習與具體任務無關的通用知識。
>>>>訓練數據:大規模無標注、結構化知識
>>>>模型框架:Transformer
>>>>學習機制:自監督學習
模型微調Fine-Tune:支持多模態理解與生成的各種下游任務
>>>>下游任務:理解與生成
無標注成本的網絡數據
>>圖像文本數據:圖像及其相關文本(標簽、描述、評論等)
>>視頻文本數據:視頻及其相關文本(標簽、描述、字幕、語音等)
>>音頻文本數據
單流:視覺和文本模態一起輸入編碼器,代表性工作有VL-BERT,UNITER
雙流:視覺和文本模態先單獨編碼,然后跨模態交互,代表性工作有ViLBERT,CLIP
聯合VQ-VAE圖像自編碼器與GPT語言模型,將文本和圖像分別序列化作為GPT的輸入
通過decoder更好的學習不同模態之間關聯關系,提升理解判別能力
>>模態內掩碼學習
>>>>文本、語音、視覺自身token級別mask
>>模態間掩碼學習
>>>>不同模態信息的相互預測
>>>>mask視覺,輸出對應文本..
>>模態間匹配學習
>>>>匹配與否的分類問題
>>>>對比學習
>>預訓練模型的最終目標是提高下游任務的性能
>>如何將預訓練模型強大的表示能力遷移到特定數據下的特定任務中,顯得尤為重要
>>模型微調
√ Pretraining+ Finetune
√Pretraining+Prompt-Tuning
√Pretraining + Adaptor-Tuning
√Pretraining +LoRA
>>多模態下游任務
√生成:文本/語音/視覺內容生成
√理解:跨模態檢索/問答/推理
>>強大的語言模型:預訓練時盡可能凍結語言模型,保留原模型知識
>>更大的視覺模型:利用大規模的圖文弱關聯數據以及圖像數據
>>更大規模的預訓練數據:大量圖像-文本、視頻-文本以及網頁數據
>>更多模態形式的數據:圖像、視頻、音頻、文本、紅外、雷達。。。
國際首個千萬級規模圖文音多模態數據集在圖文/文音/視頻等20+下游任務數據集上取得SOTA
以語言大模型為核心的多模態融合感知與多任務統
“大數據+大模型”簡潔粗暴但有效的路子還未走到盡頭,但終將走到盡頭
>>構建大規模不同模態間的對齊數據(弱監督、半監督)>引入知識來篩選大數據
>>改進或替代Transformer的高效模型
>>超大規模模型分布式并行訓練
>>與下游任務兼容的更優模型
>>顯示知識嵌入與隱式知識學習
>>單模態、部分模態、全模態混合訓練
>>如何實現多模態信息之間更細粒度的對齊建模
>>聯合無監督強化學習,引入環境反饋
>>模型壓縮與推理加速為特定場景應用提供可能
>>多模態應用更為豐富,如何拓展更多創新下游應用
>>研究大模型∶
大模型的原理、能力來源、可解釋可控性研究;探索大模型的能力邊界;研究大模型的能力外延和拓展
>>利用大模型
賦能各個研究任務和研究方向,例如賦能科學研究AI4Science,賦能各行各業AI+
>>治理大模型:
讓大模型的發展安全可信可控,確保隱私安全,符合人類根本利益,防止其做出危害人類、破壞社會發展的事情
>>未來AGI必然是與人類智能相仿,高效協同的多模態智能
>>從多模態信息中學習知識,實現不同模態之間的知識遷移、相互補全、相互驗證。
>>充分利用現有語言大模型的認知推理能力,構建通用、安全、可信的多模態大模型
>>上下游任務與所有可能的技術路線之間,將進行各種形式的排列組合拼插,多模態應用創新層出不窮
>>>>跨模態的知識挖掘
>>>>多模態信息展示生成(如產品、年報、課程、演講)
>>>>多模態融合理解與推理(圖文試題、讀書看報)
>>>>虛擬現實/混合現實中的自動內容創建
>>>>領域虛擬角色(如虛擬導購、虛擬教師)
>>>>多模態感知決策一體化的新一代機器人技術
T5作者之一,谷歌研究科學家
01 Moore's Law and Power Law摩爾定律和冪律
02 T5: Unified Text-to-Text Transformer??T5:統一的文本到文本轉換器
03 Scaling LLM with MoE??使用MoE擴展LLM
04 Advanced MoE techniques??先進的MoE技術
05 Q&A
Gordon Moore postulated that the number oftransistors that can be packed into a givenunit of space will double every two years.
Nowadays we are reaching the physicallimits of Moore's Law because the hightemperature of transistors makes it impossible to create smaller circuits.
Of course, chips performance are not justbounded by transistors, but also bounded bymemory bandwidth (memory wall), andother reasons...
戈登·摩爾提出,在給定空間中可以裝入的晶體管數量每兩年翻一番。
現在我們正接近摩爾定律的物理極限,因為晶體管的高溫使得創建更小的電路成為不可能。
當然,芯片的性能不僅受到晶體管的限制,還受到內存帶寬(內存墻)等其他原因的限制。
將每個問題都定義為以文本作為輸入并生成文本作為輸出。
Formulate every problem as takingtext as input and producing text as output.
從公開可用的Common Crawl獲取源數據,這是一個網絡爬取的數據集。
Common Crawl包含很多嘈雜的“網頁提取文本”
數據集在外部是完全可用和可再現的
Source data from Common Crawl, a publicly-available web scrape.
>> Common Crawl includes very noisy "web extracted text"
>> Dataset is completely useable and reproducible externally
應用大量的過濾:
刪除不以. , ! " ... 結尾的行
刪除短行
刪除帶有不良短語(例如冒犯性詞語,"服務條款","lorem ipsum"等)的行
在文檔之間進行句子級去重復
等等
Apply lots of filtering:
>> Remove lines that don't end in . , ! " ...
>> Remove short lines
>> Remove lines with bad phrases (e.g. offensive terms, "terms of service"""lorem ipsum"...)
>> Sentence-level deduplication across documents
>> etc.
生成約750 GB的干凈英文文本+其他語言中的大量文本。
yielding→~750 GB of clean English text + large amounts in other languages.
we chose parameters and strategies to simplify the pipeline as much as possible.
我們選擇參數和策略,以盡可能簡化流程。
Dark grey lines
correspond to fully-visible masking and light grey lines correspond to causalmasking.
深灰色線表示完全可見掩碼,淺灰色線表示因果掩碼。
Training for longer, training a larger model, and ensembling all provide orthogonal boosts in performance
更長時間的訓練、訓練更大的模型和集成都可以提供性能上的正交增強
“GLaM: Efficient Scaling of Language Models with Mixture-of-Experts", Nan Du and others, ICML 2022.
“GLaM:用混合專家的方式有效擴展語言模型”,Nan Du等人,ICML 2022。
>>Decoder only
>>ln-context few-shot learning
>>Sparsely gated network with GShard Top2 routing
>>Scale up to 1.2T total parameters with 97B activated
僅解碼器
ln-context少樣本學習
使用GShard Top2路由的稀疏門控網絡
總參數量擴展到1.2T,激活參數量為970B
>>Sparsely activated FFNs
>>GShard top2 gating function
>>lnterleaving dense layers with sparselayers.
稀疏激活的前饋神經網絡
GShard Top2門控函數
將密集層與稀疏層交替排列。
Average few-shot performance on NLU and NLG tasks when scaling FLOPs (activated parameters)
在縮放FLOPs(激活參數)時的NLU和NLG任務的平均少樣本性能
>> Each expert selects top-k tokens independently.
>> Perfect load balancing
>> Tokens can be received by a variable number of experts.
每個專家獨立選擇前k個標記。
完美的負載均衡
標記可以由可變數量的專家接收。
訓練效率
達到良好困惑度需要多少步驟?
步驟時間
>> Training efficiency
>>>> How many steps to get good perplexity?
>>>> Step time
與GLaM Top-2門控比較
EC-CF2的收斂速度比2倍快
每步時間減少20%
>> Comparing to GLaM Top-2gating
>>>> EC-CF2 converges more than 2x faster
>>>> Per-step time is 20%smaller
基準:
>>Baselines:
>>>>Switch Transformer Top-1
>>>>GShard Top-2
>>lmproves average scores by 1-2%
>>8B/64E outperforms T5 11B dense
>>100M/32E has better fine-tuningperformance than 100M/64E or10OM/128E.
平均分數提高了1-2%
8B/64E的性能優于T5 11B的密集模型
100M/32E的微調性能優于100M/64E或10OM/128E。
>>Existing MoE architectures scale poorly in terms of step time.
>>Propose a non-uniform architecture, rooting from low-rank, multi-expert primitives.
>>Demonstrate 2x faster training convergence and 5x faster step time than GLaM.
現有的MoE架構在步驟時間上擴展性差。
提出一種非均勻架構,以低秩多專家原語為基礎。
展示比GLaM更快的訓練收斂速度和更快的步驟時間,速度提升5倍。
Transformer是從低秩和多專家派生出來的特殊情況!
Transformer is a special case derived from low-rank and multi-expert!
Block-wise architectural searchspace
Compute-efficient search objective
基于塊的架構搜索空間
計算高效的搜索目標
?
>> Use case 1: temporal datasets
>>>> Keep datasets updated with language trends
? ? Collect new samples every couple of months
? ? Google search, forum, dialog, wikipedia, github, etc.
>>>> Train on large datasets is timelresource consuming
>>>> Train on new samples will be cheap
用例1:時間相關數據集
跟蹤語言趨勢,保持數據集更新
? ? 每隔幾個月收集新樣本
? ? 谷歌搜索、論壇、對話、維基百科、GitHub等等。
在大型數據集上訓練耗時資源
在新樣本上訓練將更加廉價
>> Use case 2: general pretrainining dataset->datasets for dialogue
>>>> Need finetuning on a new mixture of dataset for a target domain, like chatbot.
>>>> There will be forgetting.
用例2:通用預訓練數據集->用于對話的數據集
需要在針對目標領域的新數據混合中進行微調,比如聊天機器人。
會出現遺忘現象。
>> Distribution of original dataset: A
>> Distribution of new samples: B
>> Distribution shift A →B
>> Performance on both A & B matter!
>> >> Building general models is the trend.
原始數據集的分布:A
新樣本的分布:B
分布從A到B發生變化
A和B上的性能都很重要!
構建通用模型是趨勢。
>> "Forgetting issue": if we only train on B, performance on A willdrop
>> >> Assumption: new data comes in a sequence, we may not have "access" to old
data.
"遺忘問題":如果我們只在B上進行訓練,A上的性能會下降
假設:新數據按序列進入,我們可能無法“訪問”舊數據。
>> Distribution based MoE
>>>> Progressively add more experts for new data distribution
>>>> Add regularization to mitigate forgetting.?
基于分布的MoE
逐漸增加更多專家以適應新數據分布
添加正則化以減輕遺忘。
>>Distribution A →B=c
>>>>Simulation on Tarzan:"A”= wiki/web,""B” = non-English,"C” = dialog
分布A → B=c
在Tarzan上進行模擬:“A”= 維基/網絡,“B”= 非英語,“C”= 對話
>>“Regularization”
>>>>We don't want models to overfit B
>>>>We don't want model weights to be updated too far from A
>>>>Fit B, while regularize model from A
“正則化”
我們不希望模型過度擬合B
我們不希望模型權重過于偏離A
在適應B的同時對模型進行正則化
>>“Expansion”
>>>>Allow models to expand (expert) layers when fitting new distributions
“擴展”
允許模型在適應新分布時擴展(專家)層
>>Expand experts for new distributions
>>Partially freeze old experts/gatings
>>Train with"Learning without Forgetting”(LwF) loss
為新分布擴展專家
部分凍結舊的專家/門控
使用“無遺忘學習”(LwF)損失進行訓練
>>Sustainably scaling dense LLM is hitting an end.
>>MoE becomes critical to further advancing LLM scaling.
持續擴展密集LLM已經達到了極限。
MoE變得對進一步推進LLM擴展至關重要。
>>We need better MoE architecture, as well as training strategy.
>>>>Non-uniform architecture
>>>>Lifelong learning?
我們需要更好的MoE架構,以及訓練策略。
非均勻架構
終身學習
更新中……