0.前言大模型發展史

早期階段（1950s~1980s）

在1950年代初期，人們開始嘗試使用計算機處理自然語言文本。然而，由于當時的計算機處理能力非常有限，很難處理自然語言中的復雜語法和語義。隨著技術的發展，自然語言處理領域在20世紀60年代和70年代取得了一些重要的進展。例如，1970年，美國賓夕法尼亞大學的Adele Goldberg和David Robson創建了一個名為Lunenfeld Project的系統，它可以進行自動翻譯。同時，中國科學院自動化研究所也在20世紀70年代開始研究自然語言處理技術，主要集中在機器翻譯領域。

中期階段（1980s~2010s）

進入20世紀80年代和90年代，自然語言處理領域的研究更加深入。例如，1981年，Xerox PARC的研究人員Ron Kaplan和Martin Kay開發了一個名為Lexical Functional Grammar（LFG）的語法框架，這為后續的NLP研究提供了重要的理論基礎。在這個階段，NLP技術開始逐漸應用于實際場景中，如機器翻譯、語音識別和文本分類等。

現代階段（2010s~至今）

進入21世紀后，尤其是近年來，NLP大模型的發展迎來了革命性的突破。這主要得益于深度學習技術的快速發展和計算能力的提升。在這一階段，預訓練模型成為NLP領域的主流方法。

其中，2018年是一個重要的時間節點。在這一年，BERT模型的出現標志著NLP大模型時代的開始。BERT是一個基于Transformer結構的雙向編碼器模型，通過在大量文本數據上進行預訓練，學習到了豐富的語言知識和上下文信息。隨后，GPT系列模型也相繼問世，這些模型在預訓練的基礎上，通過微調可以適應各種NLP任務，取得了顯著的性能提升。

此外，隨著計算資源的不斷豐富和模型結構的優化，NLP大模型的規模也在不斷擴大。從最初的幾百萬參數到現在的幾十億甚至上百億參數，這些大模型在性能上不斷刷新記錄，推動了NLP技術的快速發展。

NLP領域主要模型的發展歷程可以大致分為如下幾個階段：

早期研究階段：側重于設計人工編寫的規則和語法，如基于規則和知識的方法等；
統計方法崛起：引入數學和統計方法，側重于從大規模語料庫中自動學習語言規律，如隱馬爾可夫模型（HMM）、條件隨機場（CRF）等；
深度學習革命：基于神經網絡模型的方法，強調自動提取特征和端到端的訓練，如循環神經網絡（RNN）、長短時記憶網絡（LSTM）、卷積神經網絡（CNN）等；
預訓練模型興起：基于大規模數據和深度學習模型的預訓練方法，提升了NLP任務的性能，如BERT、GPT、T5等。

可以發現，NLP領域的主要模型，從深度學習階段開始，經過預訓練模型興起，直到如今的各種聊天大模型的爆發，NLP模型一直在向著參數量更多、通用性更強的方向發展。

左圖介紹：語言模型（LM）是一種利用自然文本來預測詞（Token）順序的機器學習方法。大語言模型（LLM）則通常指參數數量達到億級別的神經網絡語言模型，例如：GPT-3、GPT-4、PaLM2等，僅有左下方的灰色分支為非Transformer模型，其余顏色的分支均為基于Transformer的模型
自然語言處理是計算機科學、人工智能和語言學的交叉領域，研究如何讓計算機處理、理解和生成人類語言。目標是：能夠實現人機交互、自動翻譯、信息檢索、情感分析等任務。應用領域包括：搜索引擎、社交媒體監測、智能客服、新聞生成等。

1.顯卡選擇篇-硬件配置

先說結論，大模型的訓練用 4090 是不行的，但推理（inference/serving）用 4090 不僅可行，在性價比上還能比 H100 稍高。4090 如果極致優化，性價比甚至可以達到 H100 的 2 倍。

看鏈接相關文章超詳細講解

英偉達系列顯卡大解析B100、H200、L40S、A100、A800、H100、H800、V100如何選擇，含架構技術和性能對比帶你解決疑惑

如何選擇GPU顯卡，帶你對比A100/H100/4090性價比、訓練/推理該使用誰？

2.大模型訓練流程

訓練一個大模型，到底需要投入多少塊，需要多少數據，訓練多長時間能達到一個不錯的效果？本文引用靠譜的數據，來回答這些問題。

全流程訓練

大模型的訓練，簡單來說，分為Pretraining和Finetuning微調，Pretraining需要非常多的數據和算力，Finetuning相對來說對算力的要求比較低。

LoRA ：基本原理是凍結預訓練好的模型權重參數，在凍結原模型參數的情況下，通過往模型中加入額外的網絡層，并只訓練這些新增的網絡層參數
P-tuning v1 微調方法是將 Prompt 加入到微調過程中，只對 Prompt 部分的參數進行訓練，而語言模型的參數固定不變
Freeze ：即參數凍結，對原始模型部分參數進行凍結操作，僅訓練部分參數
RLHF（OpenAI）2022.12 （Reinforcement Learning fromHuman Feedback，人類反饋強化學習）起到的作用是，通過將人類的反饋納入訓練過程，為機器提供了一種自然的、人性化的互動學習過程。

RRHF（阿里巴巴）2023.4
RLTF（騰訊）2023.7
RRTF（華為）2023.7
RLAIF（谷歌）2023.9

百度千帆大模型訓練全流程Mass:

2.1 SFT監督微調&RLHF講解

人工智能大語言模型微調技術：SFT 監督微調、LoRA 微調方法、P-tuning v2 微調方法、Freeze 監督微調方法：
人工智能LLM模型：獎勵模型的訓練、PPO 強化學習的訓練、RLHF

2.2 Prompt工程原理篇

大語言模型的預訓練[3]之Prompt Learning：Prompt Engineering、Answer engineering、Multi-prompt learning詳情
大語言模型的預訓練[4]：指示學習Instruction Learning：Entailment-oriented、PLM oriented、human-oriented以及和Prompt工程區別
大語言模型的預訓練[5]：語境學習、上下文學習In-Context Learning：精調LLM、Prompt設計和打分函數（Scoring Function）設計以及ICL底層機制等原理詳解
大語言模型的預訓練[6]：思維鏈(Chain-of-thought，CoT)定義原理詳解、Zero-shot CoT、Few-shot CoT 以及在LLM上應用

2.3 Prompt工程實踐篇

Prompt進階系列1:LangGPT(從編程語言反思LLM的結構化可復用提示設計框架)
Prompt進階2:LangGPT(構建高性能Prompt策略和技巧)--最佳實踐指南
Prompt進階3:LangGPT(構建高性能質量Prompt策略和技巧2)--穩定高質量文案生成器
Prompt進階系列4:LangGPT(構建高性能Prompt實踐指南)--結構化Prompt
Prompt進階系列5:LangGPT(提示鏈Prompt Chain)--提升模型魯棒性
Prompt工程全攻略：15+Prompt框架一網打盡（BROKE、COAST、LangGPT）、學會提示詞讓大模型更高效

3.大模型如何選擇

3.1 大模型能力對比

國內外依然有一定差距。GPT4-Turbo總分92.71分領先，高于其他國內大模型及國外大模型。其中國內最好模型文心一言4.0總分87.75分，距離GPT4-Turbo有4.96分，距離GPT4(網頁)有2.61分的差距。本次最新上榜的Google開源模型的Gemma-7b-it表現不佳，可能的原因之一是訓練數據中中文語料占比較少。

國內大模型歷月前三甲

SuperCLUE月榜首位的大模型有5個。分別是文心一言、BlueLM、SenseChat3.0、Baichuan2-13B-Chat、360智腦。其中，百度的文心一言登頂SuperCLUE月榜的次數最多，分別在7月、11月、12月、24年2月取得了SuperCLUE最好成績。

3.2 開源模型對比推薦

總體上大版本（如34B）的模型優于中小版本(13B、6B)的開源模型，更大的版本（如72B）的模型表現要更好。但也有小模型好于大模型的情況，如qwen1.5的70億參數版本好于一些130億參數的大模型，面壁智能的MiniCPM-2b好于智譜AI的ChatGLM3-6B

大廠中開源的主導力量是阿里云，在各個參數量級中國都有模型開源。但眾多的創業公司是開源模型的主力，如智譜AI、百川智能、零一萬物、元象科技、面壁智能。

3.2 Qwen 不同大小模型的訓練、推理配置

通義千問開源模型配置要求

測量了使用BF16、Int8和Int4中的模型生成序列長度(Sequence Length)2048的平均推理速度和GPU內存使用情況。

訓練所需要內存列表

推理所需要內存列表

Qwen在各個評測任務表現-整體效果不錯

技術創新：通義千問720億參數模型（Qwen-72B）代表了當時業界開源模型的頂級技術水平，大規模參數量意味著模型具有更強的學習能力和泛化性能，能夠處理復雜多樣的自然語言任務。
性能表現：在多個權威基準評測中取得開源模型最優成績，證明了其卓越的技術實力和廣泛的適用性，不僅超越了部分知名開源模型如Llama 2-70B，而且在與商用閉源模型的競爭中也展現出了競爭力。
全模態能力：開源的模型包括文本和音頻等多種模態，實現了“全尺寸全模態”的開源，表明通義千問支持跨模態的應用場景，增強了其在多領域應用的潛力。
行業影響：阿里云推動了AI技術普惠化進程，使得學術界、企業和個人開發者可以更便捷地利用這些先進的模型進行研究和開發，降低了準入門檻，促進了AI生態的繁榮與發展。

4. 對AI看法

提高效率：

在多個業務領域中，AI大模型通過自動化和優化流程，顯著提高了工作效率；
在數據分析領域，AI大模型可以自動處理和分析海量數據，提供有價值的洞察。

提高決策準確性

基于大量數據的訓練，AI大模型可以提供更為準確的分析和預測，可以做出更明智的決策。

推動創新

AI大模型的應用為企業帶來了創新的可能性，推動了產品和服務的升級。

更多優質內容請關注公號：汀丶人工智能；會提供一些相關的資源和優質文章，免費獲取閱讀。

原文鏈接：大模型落地實戰指南：從選擇到訓練，深度解析顯卡選型、模型訓練技、模型選擇巧及AI未來展望---打造AI應用新篇章 https://blog.csdn.net/sinat_39620217/article/details/137038418

參考鏈接：

https://github.com/QwenLM/Qwen?tab=readme-ov-file#profiling-of-memory-and-speed
https://github.com/Lightning-AI/lit-llama/blob/main/howto/train_redpajama.md

本站僅提供存儲服務，所有內容均由用戶發布，如發現有害或侵權內容，請點擊舉報。

精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕