在1950年代初期,人們開始嘗試使用計算機處理自然語言文本。然而,由于當時的計算機處理能力非常有限,很難處理自然語言中的復雜語法和語義。隨著技術的發展,自然語言處理領域在20世紀60年代和70年代取得了一些重要的進展。例如,1970年,美國賓夕法尼亞大學的Adele Goldberg和David Robson創建了一個名為Lunenfeld Project的系統,它可以進行自動翻譯。同時,中國科學院自動化研究所也在20世紀70年代開始研究自然語言處理技術,主要集中在機器翻譯領域。
進入20世紀80年代和90年代,自然語言處理領域的研究更加深入。例如,1981年,Xerox PARC的研究人員Ron Kaplan和Martin Kay開發了一個名為Lexical Functional Grammar(LFG)的語法框架,這為后續的NLP研究提供了重要的理論基礎。在這個階段,NLP技術開始逐漸應用于實際場景中,如機器翻譯、語音識別和文本分類等。
進入21世紀后,尤其是近年來,NLP大模型的發展迎來了革命性的突破。這主要得益于深度學習技術的快速發展和計算能力的提升。在這一階段,預訓練模型成為NLP領域的主流方法。
其中,2018年是一個重要的時間節點。在這一年,BERT模型的出現標志著NLP大模型時代的開始。BERT是一個基于Transformer結構的雙向編碼器模型,通過在大量文本數據上進行預訓練,學習到了豐富的語言知識和上下文信息。隨后,GPT系列模型也相繼問世,這些模型在預訓練的基礎上,通過微調可以適應各種NLP任務,取得了顯著的性能提升。
此外,隨著計算資源的不斷豐富和模型結構的優化,NLP大模型的規模也在不斷擴大。從最初的幾百萬參數到現在的幾十億甚至上百億參數,這些大模型在性能上不斷刷新記錄,推動了NLP技術的快速發展。
NLP領域主要模型的發展歷程可以大致分為如下幾個階段:
可以發現,NLP領域的主要模型,從深度學習階段開始,經過預訓練模型興起,直到如今的各種聊天大模型的爆發,NLP模型一直在向著參數量更多、通用性更強的方向發展。
左圖介紹:語言模型(LM)是一種利用自然文本來預測詞(Token)順序的機器學習方法。大語言模型(LLM)則通常指參數數量達到億級別的神經網絡語言模型,例如:GPT-3、GPT-4、PaLM2等,僅有左下方的灰色分支為非Transformer模型,其余顏色的分支均為基于Transformer的模型
自然語言處理是計算機科學、人工智能和語言學的交叉領域,研究如何讓計算機處理、理解和生成人類語言。目標是:能夠實現人機交互、自動翻譯、信息檢索、情感分析等任務。應用領域包括:搜索引擎、社交媒體監測、智能客服、新聞生成等。
先說結論,大模型的訓練用 4090 是不行的,但推理(inference/serving)用 4090 不僅可行,在性價比上還能比 H100 稍高。4090 如果極致優化,性價比甚至可以達到 H100 的 2 倍。
英偉達系列顯卡大解析B100、H200、L40S、A100、A800、H100、H800、V100如何選擇,含架構技術和性能對比帶你解決疑惑
如何選擇GPU顯卡,帶你對比A100/H100/4090性價比、訓練/推理該使用誰?
訓練一個大模型,到底需要投入多少塊,需要多少數據,訓練多長時間能達到一個不錯的效果? 本文引用靠譜的數據,來回答這些問題。
大模型的訓練,簡單來說,分為Pretraining
和Finetuning
微調,Pretraining
需要非常多的數據和算力,Finetuning
相對來說對算力的要求比較低。
LoRA
:基本原理是凍結預訓練好的模型權重參數,在凍結原模型參數的情況下,通過往模型中加入額外的網絡層,并只訓練這些新增的網絡層參數P-tuning v1
微調方法是將 Prompt 加入到微調過程中,只對 Prompt 部分的參數進行訓練,而語言模型的參數固定不變Freeze
:即參數凍結,對原始模型部分參數進行凍結操作,僅訓練部分參數百度千帆大模型訓練全流程Mass:
人工智能大語言模型微調技術:SFT 監督微調、LoRA 微調方法、P-tuning v2 微調方法、Freeze 監督微調方法:
人工智能LLM模型:獎勵模型的訓練、PPO 強化學習的訓練、RLHF
大語言模型的預訓練[3]之Prompt Learning:Prompt Engineering、Answer engineering、Multi-prompt learning詳情
大語言模型的預訓練[4]:指示學習Instruction Learning:Entailment-oriented、PLM oriented、human-oriented以及和Prompt工程區別
大語言模型的預訓練[5]:語境學習、上下文學習In-Context Learning:精調LLM、Prompt設計和打分函數(Scoring Function)設計以及ICL底層機制等原理詳解
大語言模型的預訓練[6]:思維鏈(Chain-of-thought,CoT)定義原理詳解、Zero-shot CoT、Few-shot CoT 以及在LLM上應用
Prompt進階系列1:LangGPT(從編程語言反思LLM的結構化可復用提示設計框架)
Prompt進階2:LangGPT(構建高性能Prompt策略和技巧)--最佳實踐指南
Prompt進階3:LangGPT(構建高性能質量Prompt策略和技巧2)--穩定高質量文案生成器
Prompt進階系列4:LangGPT(構建高性能Prompt實踐指南)--結構化Prompt
Prompt進階系列5:LangGPT(提示鏈Prompt Chain)--提升模型魯棒性
Prompt工程全攻略:15+Prompt框架一網打盡(BROKE、COAST、LangGPT)、學會提示詞讓大模型更高效
國內外依然有一定差距。GPT4-Turbo總分92.71分領先,高于其他國內大模型及國外大模型。其中國內最好模型文心一言4.0總分87.75分,距離GPT4-Turbo有4.96分,距離GPT4(網頁)有2.61分的差距。本次最新上榜的Google開源模型的Gemma-7b-it表現不佳,可能的原因之一是訓練數據中中文語料占比較少。
SuperCLUE月榜首位的大模型有5個。分別是文心一言、BlueLM、SenseChat3.0、Baichuan2-13B-Chat、360智腦。其中,百度的文心一言登頂SuperCLUE月榜的次數最多,分別在7月、11月、12月、24年2月取得了SuperCLUE最好成績。
總體上大版本(如34B)的模型優于中小版本(13B、6B)的開源模型,更大的版本(如72B)的模型表現要更好。但也有小模型好于大模型的情況,如qwen1.5的70億參數版本好于一些130億參數的大模型,面壁智能的MiniCPM-2b好于智譜AI的ChatGLM3-6B
大廠中開源的主導力量是阿里云,在各個參數量級中國都有模型開源。但眾多的創業公司是開源模型的主力,如智譜AI、百川智能、零一萬物、元象科技、面壁智能。
測量了使用BF16、Int8和Int4中的模型生成序列長度(Sequence Length)2048的平均推理速度和GPU內存使用情況。
技術創新:通義千問720億參數模型(Qwen-72B)代表了當時業界開源模型的頂級技術水平,大規模參數量意味著模型具有更強的學習能力和泛化性能,能夠處理復雜多樣的自然語言任務。
性能表現:在多個權威基準評測中取得開源模型最優成績,證明了其卓越的技術實力和廣泛的適用性,不僅超越了部分知名開源模型如Llama 2-70B,而且在與商用閉源模型的競爭中也展現出了競爭力。
全模態能力:開源的模型包括文本和音頻等多種模態,實現了“全尺寸全模態”的開源,表明通義千問支持跨模態的應用場景,增強了其在多領域應用的潛力。
行業影響:阿里云推動了AI技術普惠化進程,使得學術界、企業和個人開發者可以更便捷地利用這些先進的模型進行研究和開發,降低了準入門檻,促進了AI生態的繁榮與發展。
更多優質內容請關注公號:汀丶人工智能;會提供一些相關的資源和優質文章,免費獲取閱讀。
原文鏈接:大模型落地實戰指南:從選擇到訓練,深度解析顯卡選型、模型訓練技、模型選擇巧及AI未來展望---打造AI應用新篇章 https://blog.csdn.net/sinat_39620217/article/details/137038418
參考鏈接: