隨著2022年年底OpenAI公司推出ChatGPT(Chat Generative Pre-trained Transformer,基于生成式預訓練Transformer模型的聊天機器人)產品,圍繞大模型(Large Language Model,大語言模型,簡稱大模型)的人工智能商業(yè)化進程進入快車道,蓬勃發(fā)展的大模型時代來臨。
當前的大模型發(fā)展具有兩大“快速”特征:一個是大模型技術快速迭代;另一個是大模型應用生態(tài)快速豐富。
從全球范圍來看,中美在大模型領域呈現領跑趨勢。中國方面,百度公司的文心大模型、華為公司的盤古大模型、科大訊飛公司的星火認知大模型、京東集團的言犀大模型、阿里巴巴公司的通義大模型、騰訊公司的混元大模型等加速引爆中國大模型研究熱潮;美國方面,OpenAI公司推出GPT-4多模態(tài)大模型,Google公司推出RT-X通用機器人模型與Gemini多模態(tài)大模型,Meta公司推出AnyMAL多模態(tài)大模型。另外,開源大模型在推動大模型技術發(fā)展以及大模型應用落地等方面發(fā)揮了非常重要的作用。比如,清華大學唐杰教授團隊與智譜AI推出的ChatGLM3、BAAI(北京智源人工智能研究院)推出的悟道3.0大模型、百川智能公司推出的Baichuan2、Meta公司推出的LLaMA2、Google公司推出的Gemma等,極大地降低了大模型的開發(fā)門檻。開發(fā)者能夠基于開源模型訓練出功能多樣的新模型,促進大模型快速發(fā)展。
一,什么是大模型
大模型屬于Foundation Model(基礎模型),是一種神經網絡模型,具有參數量大、訓練數據量大、計算能力要求高、泛化能力強、應用廣泛等特點。與傳統(tǒng)人工智能模型相比,大模型在參數規(guī)模上涵蓋十億級、百億級、千億級等,遠遠超過傳統(tǒng)模型百萬級、千萬級的參數規(guī)模。不同于傳統(tǒng)人工智能模型通過一定量的標注數據進行訓練,一個性能良好的大模型通過海量數據及設計良好、內容多樣的高質量標注語料庫進行訓練。同時,大模型也很難在單個GPU(Graphics Processing Unit,圖形處理器)上進行預訓練,需要使用DeepSpeed、Megatron-LM等訓練優(yōu)化技術在集群中進行分布式訓練。
大模型技術過程如圖1所示。在大模型技術發(fā)展初期,人們在解決具有序列特性的數據(指具有先后順序的數據)的領域的問題時,主要依賴RNN(Recurrent Neural Network,循環(huán)神經網絡)和LSTM(Long Short-Term Memory,長短期記憶網絡)等序列模型,但這些模型都包含不可并行計算的缺點。
圖1 大模型技術演進過程
Word2Vec是Google公司于2013年提出的一種高效訓練詞向量的模型,基本出發(fā)點是上下文相似的詞的詞向量也應該相似。它在2018年之前非常流行,但隨著2018年Google公司推出預訓練語言表征模型BERT(Bidirectional Encoder Representation from Transformers,基于Transformer的雙向編碼器表示)以及其他模型的出現,Word2Vec被這些新模型超越。
2017年Google公司提出的Transformer架構引入了自注意力機制和位置編碼,改進了RNN和LSTM不可并行計算的缺陷。Google公司發(fā)布的模型還包括2018年用來解決NLP(Natural Language Processing,自然語言處理)中的多義詞問題的雙向LSTM語言模型ELMo以及2018年基于Transformer架構的具有3.4億個參數的BERT模型。OpenAI公司推出的生成式預訓練語言模型包括2018年的具有1.1億個參數的GPT、2019年的具有15億個參數的GPT-2、2020年的具有1750億個參數的GPT-3,以及2022年的ChatGPT。這些模型或產品將大模型的發(fā)展推向高潮。2023年,越來越多的開源模型如LLaMA、ChatGLM等相繼發(fā)布。
另外,AutoGPT等自主人工智能實現了大模型與各類工具的有效結合,使AI智能體(AI Agent)成為行業(yè)研究熱點。2023年GPT-4、GPT-4V、AnyMAL、文心大模型4.0等的出現更是將大模型的發(fā)展方向由語言模型引向通用性更強的多模態(tài)/跨模態(tài)模型。2023年11月,OpenAI公司發(fā)布處理速度更快、費用更低的GPT-4 Turbo模型,并宣布用戶無需任何代碼即可構建屬于自己的GPT,并將其發(fā)布至GPT Store,這一動作促進了GPT生態(tài)系統(tǒng)的進一步完善。2024年,OpenAI公司發(fā)布文生視頻大模型Sora。該模型能夠準確理解用戶指令中所表達的需求,并以視頻的形式進行展示。由Sora模型創(chuàng)作的視頻不僅包含復雜的場景和多個角色,而且對角色的動作、瞳孔、睫毛、皮膚紋理進行了細節(jié)刻畫。
大模型同樣革新了傳統(tǒng)的PGC(Professional Generated Content,專業(yè)生成內容)和UGC(User Generated Content,用戶生成內容),引領了AIGC(Artificial Intelligence Generated Content,人工智能生成內容)的新浪潮。用戶可以使用人工智能技術生成具有一定創(chuàng)意和質量的作品。經過短暫的發(fā)展,大模型已經將AIGC提升到新的高度,借助先進的大模型技術,用戶能夠以前所未有的速度、質量和規(guī)模生成豐富多樣的內容,涵蓋文字、圖像、音頻、視頻等多個領域。這一飛躍式的進步不僅極大地提升了內容生產的效率,而且降低了創(chuàng)作的門檻,使得更多人能夠參與內容創(chuàng)造。
二,大模型生成原理
大模型基于Transformer架構進行構建,由多層神經網絡架構疊加而成,能夠根據輸入內容預測輸出內容。
大模型的核心生成原理是將輸入的語句以詞向量的表征形式傳遞給神經網絡,通過編碼器/解碼器(Encoder/Decoder)、位置編碼和自注意力機制建立單詞(或字)之間的聯系。從宏觀的視角來看,輸入的每個單詞(或字)首先會與已經編碼在模型中的單詞(或字)進行相關性計算,然后把這種相關性以編碼的形式疊加在每個單詞(或字)中。如圖2所示,經過計算后,“it”與輸入句子中的其他單詞的相關性權重將會增加,顏色越深代表相關性越高。
圖2 相關性權重可視化示例
在獲得各個單詞間的相關性之后,模型以概率分數標記序列中下一個輸出的單詞的可能性(也稱概率),并選擇最佳選項。如圖3所示,由于“movie”的概率最大,因此模型的最終輸出結果為“movie”。
圖3 不同單詞的輸出概率
雖然模型會選擇下一個最合適的單詞,但是由多個最佳單詞組成的句子可以并不通順。為了解決這個問題,Transformer使用了Beam Search(束搜索)等方法以提高生成質量。這些方法不是只關注序列中的下一個單詞,而是將更大的一組單詞作為一個整體來考慮,同時考慮多個序列上的聯合概率。如圖4所示,我們同時考量4個序列上的聯合概率(為了方便理解,此處以一組單詞的顏色深淺來表示輸出概率,單詞的顏色越深,代表其被選擇并輸出的概率越大),將一組單詞作為整體進行評估,可以有效提高模型的生成質量。
圖4 通過束搜索方法生成最佳輸出
綜上所述,可以將大模型看作概率模型。不同于通過數據庫對數據進行檢索,大模型通過大量學習世界知識,依據概率生成足夠準確的回答。
三,大模型關鍵技術
1.遷移學習
遷移學習(Transfer Learning)最早于2005年由加拿大工程院和皇家科學院院士楊強教授提出。作為機器學習的重要分支,遷移學習是指利用在源領域中訓練好的模型,將其知識和能力遷移到新的目標領域,以解決該領域的問題。通常,我們會首先在數據量大的領域訓練模型,然后將其應用于數據量較小的領域。
換言之,遷移學習通過將模型已學習的知識遷移到新的任務上,以提高模型在新任務上的性能。在大模型的開發(fā)過程中,開發(fā)者常常將在大型文本數據集上訓練好的模型作為基座,通過微調等手段讓模型適應新的下游任務。這一應用的核心是運用已有的基礎知識來學習更專業(yè)的知識。
2.零樣本學習
2009年,Lampert等人發(fā)布Animals with Attributes數據集(該數據集已在由Lampert領導的奧地利科技學院機器學習與計算機視覺小組網站開源),并提出一種基于屬性的類間遷移學習機制。該機制對于零樣本學習(Zero-shot Learning)的發(fā)展起到重要的奠基作用。零樣本學習的核心在于使模型能夠識別那些從未在訓練集中出現過的數據類別,從而擴展模型的應用范圍并增強其泛化能力。
在大模型研究中,模型的零樣本學習能力已成為評估模型性能的重要指標之一。與此同時,提示詞(Prompt)作為大模型的一種關鍵輸入形式,經常與零樣本學習協(xié)同使用,以優(yōu)化模型的性能。提示詞可以被視作用戶向大模型發(fā)送的指令。通過精心設計提示詞,用戶可以引導大模型生成符合期望的內容。
零樣本學習存在使用限制,只有當用戶的目標任務與模型已具備的能力相匹配時才能獲得最優(yōu)的零樣本學習效果。
用戶在實際使用大模型時,通常會根據任務的復雜性選擇不同的提示詞策略。提示詞策略主要包含3種:零樣本提示(Zero-shot Prompting)適用于簡單任務,無須向大模型提供任何示例,直接下達指令即可;在面對較為復雜的任務時,小樣本提示(Few-shot Prompting)更為有效,它通過提供少量示例來幫助大模型更好地理解并執(zhí)行任務;當面臨復雜的推理任務(如算術推理、常識推理和符號推理等)時,思維鏈提示(Chain-of-Thought Prompting)則成為首選,它通過向大模型提供帶有中間推理步驟的示例來引導大模型逐步完成推理。
3.小樣本學習
小樣本學習(Few-shot Learning)是指大模型通過使用很少的樣本來進行學習。與零樣本學習相似,小樣本學習也經常與提示詞配合使用。如果大模型無法理解用戶提出的問題,或者用戶需要大模型按照特定的格式進行輸出時,用戶可以使用小樣本學習方法,在提示詞中加入引導信息并給出一定的樣例,指導大模型生成滿足業(yè)務要求的輸出結果。
4.持續(xù)學習
在一般情況下,當開發(fā)者的需求或所在的應用場景發(fā)生變化時,往往需要重新訓練模型。作為一種增量學習,持續(xù)學習(Continual Learning)的核心思想是在一系列任務上訓練模型,模型保留在舊任務上學習的知識并繼續(xù)在新任務上進行訓練。該方法在深度神經網絡時代被賦予了更大的實用價值。以百度公司在2019年7月推出的ERNIE 2.0模型為例,研究者使用持續(xù)學習方法來訓練模型,引入了大量的預訓練任務。ERNIE 2.0模型在學習新任務的同時保留對舊任務的記憶,漸進式地學習詞語、句法和語義表征知識。在多項自然語言處理任務上,它都取得了超過BERT模型與XLNet模型的表現。
5.多任務學習
傳統(tǒng)的機器學習主要基于單任務的模式進行學習。對于復雜的任務,首先將其分解為多個獨立的單任務并進行處理,然后對學習的結果進行組合。多任務學習(Multi-Task Learning)是一種聯合學習方法。在這種方法中,模型通過對多個任務進行并行學習,共享表征信息,可以取得比訓練單任務更好的表現。此時模型具有更好的泛化能力。
多任務學習的關鍵在于尋找任務之間的關系。如果多個任務之間的關系搭配恰當,那么不同任務能夠提供額外的有用信息,進而可以訓練出表現更好、更魯棒的模型。
6.RLHF
強化學習(Reinforcement Learning,RL)是指通過不斷與環(huán)境交互、試錯,最終完成特定目的或者使得整體行動收益最大化的技術。強化學習不需要標注數據集,但是需要在每一步行動后得到環(huán)境給予的反饋,基于反饋不斷調整訓練對象的行為。
2017年,OpenAI公司和DeepMind公司的研究人員在論文“Deep Reinforcement Learning from Human Preference”中提出基于人類偏好的強化學習概念。研究人員通過實驗證明,將非專家標注的少量數據作為反饋,可以提高模型在雅達利游戲中的性能。
2022年,OpenAI公司在InstructGPT模型的訓練過程中引入RLHF(Reinforcement Learning from Human Feedback,基于人類反饋的強化學習)。該技術在大模型訓練中發(fā)揮了巨大作用,有效減少了模型輸出中的有害內容,力圖實現模型與人類的價值觀對齊。RLHF是涉及多個模型和不同訓練階段的復雜技術,這里將其分成3個階段進行講解。
第一階段,OpenAI公司將GPT-3模型作為InstructGPT模型的預訓練模型,借助數十名人工標注師為訓練數據集中的問題編寫預期輸出結果(人工編寫每個問題的答案),利用標注數據對GPT-3模型進行監(jiān)督訓練。模型首先通過前向推理生成多個輸出結果,然后通過人工對模型的輸出結果進行打分和排序,并將打分和排序數據用于訓練獎勵模型(Reward Model)。
第二階段,目標是訓練獎勵模型。獎勵模型應能評判InstructGPT模型的輸出結果是否符合人類偏好。如圖5所示,獎勵模型接收一系列輸入并返回標量獎勵,標量獎勵與人類的反饋數據共同參與損失函數的計算。在模型的選擇上,獎勵模型可以是經過微調或根據偏好數據重新訓練的語言模型。
第三階段,采樣新的輸入句子,首先利用PPO(Proximal Policy Optimization,近端策略優(yōu)化)網絡生成輸出結果,然后獎勵模型計算反饋,并將結果作用于PPO網絡,以此反復,最終訓練出與人類價值觀對齊的模型。
圖5 RLHF訓練過程
PPO算法由OpenAI公司于2017年提出,它是一種基于策略的強化學習算法。它將智能體(Agent)當前的狀態(tài)輸入神經網絡,可以得到相應的下一步行動(Action)和獎勵(Reward),并更新智能體的狀態(tài)。OpenAI公司的John Schulman等人在一系列基準任務上對PPO算法進行測試,發(fā)現該算法比其他算法在樣本復雜性、簡單性和運行時間上具有更好的平衡性。
2023年,Google公司提出RLAIF(Reinforcement Learning from AI Feedback,基于AI反饋的強化學習)。該技術使用人工智能模型來取代RLHF中的人工標注師。與RLHF相比,模型經過RLAIF訓練后,可以在無害內容生成、文本總結等任務上達到與RLHF相近的水平。
7.上下文學習
2020年6月,OpenAI公司在發(fā)布GPT-3模型的同時提出上下文學習(In Context Learning)概念。基于上下文學習,模型不根據下游任務來調整參數,而是連接下游任務的輸入輸出,以此作為提示詞引導模型根據測試集的輸入生成預測結果。該方法的實際效果大幅超越無監(jiān)督學習。
8.思維鏈
思維鏈(Chain of Thought)最早由Google公司的高級研究員Json Wei等人于2022年提出。思維鏈是一種離散式的提示學習方法,可以提高模型在復雜任務上的性能。如圖6所示,為了指導大模型進行數學運算,研究人員給出少量人工編寫的推理示例,并將步驟解釋清晰,引導大模型對相似問題進行推理。此處將包含人工編寫的詳細推理過程的提示詞稱為思維鏈提示。思維鏈可以激發(fā)大模型的多步推理能力。這個過程類似于人類通過學習他人的思維方式來進行深度思考以解決復雜任務。
圖6 以思維鏈方法指導模型生成正確答案
9.提示工程
在人工智能領域,尤其是大模型中,提示詞對于模型的生成結果和質量具有重要影響。一個好的提示詞可以幫助模型更好地理解用戶的意圖和需求,并生成更加準確、有針對性的回復。所以,也可以將提示工程看作一種優(yōu)化和改進人工智能模型性能的方法。前面提到的零樣本提示和小樣本提示都屬于提示工程的范疇。這類方法并不涉及對模型參數的修改或重新訓練,而是通過特殊設計的提示詞引導模型生成更好的結果。
在實際使用中,如果我們需要使模型快速實現特定的任務目標,或者需要以一定的格式生成內容,則可以使用提示工程方法,通過少量樣例或具有一定格式的樣例引導模型生成內容。與微調相比,提示工程不需要用戶擁有大量的人工智能領域專業(yè)知識,只需要對特定任務有一定的了解,設計合適的提示文本即可。
四,大模型關鍵術語
本文根據《大模型導論》張成文著,節(jié)選及改編