前言
大模型和AIGC相關技術及概念,從22年11月30日ChatGPT出來后“崛起”,一路發展到現在,也有一年半多的時間了。
這一路走來,我們共同見證了大模型的Scaling law法則生了效、見證了大模型從單一的文本模態逐步拓展到支持多模態理解與多模態內容生成、見證了AIGC行業中諸多優秀的獨角獸崛起(智譜AI、Minimax、月之暗面、智象未來、元象科技...)、見證了大模型從“用不起”到“全民免費用”、見證著大模型在各行各業中的落地實踐...不論是我們C端消費者、還是B/G端企業和政府,或許都從中受了益。
但我發現,在當下AI時代,還有諸多朋友對AIGC和大模型相關的名詞、術語、以及基本原理不是很了解~
所以,本人特此搜集整理了:AIGC和大模型行業內的一些術語(來自本人日常積累),供各位自查:
術語 | 解釋 | 備注 |
AGI | Artificial General Intelligence | 通用人工智能 |
AIGC | AI-Generated Content或AI Generate Content | AI生成/生產內容 |
SOTA | State of the Art | 一個算法領域里的詞,達到了某種藝術效果/狀態,就是很牛逼,行業領先的意思 |
Ground truth | 就是實際值,期望值,是正確答案、參考答案的意思 | 算法模型的輸出(預測)就要跟這個東西去比較(算法模型的目標,就是要無限接近這個值) |
FLOPS | Floating-point Operations Per Second 每秒浮點數運算次數 | 算力單位 |
MFLOPS | Million FLOPS每秒百萬次浮點運算 | 算力單位 |
GFLOPS | Giga FLOPS 每秒十億次浮點運算 | 算力單位 |
GPU | Graphics Processing Unit,圖形處理器。起初專門設計用于加速圖形的渲染,用于計算機游戲和3D領域 | 原因:與CPU(中央處理器)比,GPU擁有大量的并行處理核心,使得它們在執行大量并行計算時更高效。 當前,廣泛應用于深度學習領域,用它可以快速加快模型的訓練和推理。 |
CUDA | Compute Unified Device Architecture,GPU加速計算架構 | 這是著名公司英偉達提出的一種用于加速圖形運算和深度學習運算的軟件架構/框架,里面有許多庫函數,比如:圖形庫、數學庫、深度學習庫、runtime庫等。 |
Transformer | 一個算法模型架構,要點是:基于“注意力機制”的神經網絡模型架構。 | 2017年由Google團隊在《Attention is All You Need》論文中提出。 它的意義:沒有它,深度學習今天可能沒這么快創造“輝煌”。 |
LLM | Large Language Model | 大型語言模型。 |
VLM | Visual Language Model, | 視覺語言模型。 |
SD | 是Stable Diffusion(穩定擴散)的縮寫,是【文生圖】大模型,也是文生圖項目。 | 是美國Stability AI 公司的文生圖項目,而且開源。 22年8月推出至今,迭代了多個版本:SD1.5、SD2.0、SDXL、SD3 |
MJ | 是Midjourney的縮寫,Midjourney,也是很火、很牛的【文生圖】大模型的名字。 | 與SD同等作用。 現在已經迭代到MJv6.1版本了,許多設計師、產品經理、攝影師們無一不知 |
多模態 | Multimodal,文本、語音、圖像、視頻這是不同的模態,多模態模型又分為多模態理解和多模態生成。 | 多模態理解:理解文/語音/視頻/圖像2種及以上,就可以叫做多模態理解; 多模態生成:生成的內容文/語音/視頻/圖像2種及以上,可以稱其具備多模態生成能力; |
大模型幻覺 | 英文單詞是Hallucination( /h?lus??ne???n/ ),大模型生成的虛假和不正確信息, 在Meta的《RAG》論文中,被提及,是不是首次提出這個詞不知道。 | 幻覺分類:上下文回答自相矛盾和不忠于事實的幻覺(瞎jb說,編造、扭曲事實)。 |
prompt(提示詞) | 中文叫法叫做:“提示詞”,分為用戶提示詞和系統提示詞 | 用戶提示詞:就是你與大模型說的話;系統提示詞:就是你給大模型定義的身份、角色、工作任務等 |
prompt工程(提示詞工程) | Prompt Engineering,可以理解為一個項目或一套體系,目標是設計各個領域的效果好的模型提示詞,以使得我們更好地運用好模型的各項能力、發揮大模型所長。 | 提示詞工程產出的東西,可以是標準的【提示詞模版】(Template),也可以是多做一些東西,比如思維鏈等等 |
token | 詞元,在機器學習和深度學習領域范疇,代表的是模型所處理的基本單位 | 在其它范疇如接口開發,代表的是令牌(用戶認證的令牌) |
tokenizer | 詞元化器,將文本、圖像等模態數據,轉化為 token的過程。 | |
Embedding | 翻譯過來是“嵌入”,是將數據(文本、圖像、語音、視頻等)轉換成向量的技術手段。 | 做Embedding的意義: a)轉換成向量后可以“語義”計算; b)不同模態間數據能夠交流。 |
SFT | Supervised Fine-Tuning,有監督模型微調,簡稱微調,也稱對齊,也可以叫“Fine-tuning” | 即在預訓練大模型基礎上,使用一定量的有標記的數據來對預訓練大模型進行效果微調,調整的是模型的全部或部分參數。 |
zero-shot | 零樣本學習 | 意思是說拿著別人訓練好的模型,直接“開干”,不用額外提供標注數據,就能完成你的需求 |
few-shot | 使用很少的樣本,對大模型進行微調。 | 通常是將樣本,加在提示詞里就行。 |
RLHF | Reinforcement Learning from Human Feedback,基于人類反饋的強化學習。 | 強化學習的一種,在目前主流的LLM或多模態大模型如GPT-4o等,均已支持了該機制。強化學習,就是機器學習的一種 |
Instruction prompting | 指令微調,是微調的一種方式 | 指令微調的數據格式(字段):
|
RAG | Retrieval-Augmented Generation,檢索增強型生成模型。 | 2020年,由 Meta(原Facebook)這篇論文中提出《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》 |
Langchain | 2022年10月,Langchain團隊提出的一套開源的大語言模型訓練和應用的框架 | 其目標是:使大模型應用開發能夠更快、更高效。 |
Llama Index | 一個跟langchain作用一樣的 大模型開發的解決方案/產品/技術架構 | 官網在這:https://www.llamaindex.ai/ 可以進去了解~ |
AI Agent 平臺 | 可以支持用戶/企業 零代碼、低代碼方式快速搭建chatbot的平臺 | 如Coze、扣子、昆侖skyreels、百度千帆、阿里百煉、Dify、騰訊元器、智譜清言-智能體、Langchain也算... |
AI Agent 應用 | 基于大模型技術搭建的智能體應用 | 與用戶交互是chatbot形式 |
chatbot | 對話機器人、對話助手(你手機里的“豆包”、“文心一言”、“kimi”等) | 與之前的智能客服、智能問答機器人“外形”長的一樣,但是“腦子”變聰明了 |
AI原生(AI Native) | 一個新詞,意思是從設計之初就集成了人工智能技術,利用AI功能來增強用戶體驗和提升應用性能的應用程序。 | 比如各類基于LLM的智能語音助手、智能駕駛等應用 為了與原來的AI應用做區分 |
chatGPT | OpenAI公司于2022年11月30日推出的一款基于GPT-3.5預訓練大模型的通用智能對話助手(chatbot)。 | 具有移動端、網頁端、PC客戶端幾種產品形態~ |
Python | 編程語言。 | 這個不用我介紹了吧?深度學習算法開發使用的代碼語言,大模型代碼基本都是python寫的 |
蒸餾 | 在AI領域,'蒸餾'通常指的是一種模型壓縮技術,它通過訓練一個較小的模型(稱為學生模型)來模仿一個較大、更復雜的模型(稱為教師模型)的行為。 | 這種方法可以使得學生模型在保持相對較小的規模的同時,盡可能地復制教師模型的性能,無需存儲教師模型的所有參數。 為了能夠使模型RUN在在資源受限的環境中,如移動設備。 |
DDPM | Denoising Diffusion Probabilistic Models,去噪擴散概率模型。 | 文生圖技術發展強大的基石、基礎之一 |
ComfyUI | ComfyUI是一個用戶界面框架,它被設計用于與AI生成模型(如Stable Diffusion、FLUX.1等)配合使用,提供給用戶一個更加舒適和易于操作的界面。 | 長這樣: ![]() |
CLIP | Contrastive Language-Image Pre-training,一個文本和圖像對齊的技術,也是眾多「文生圖」算法的第一步 | 是OpenAI公司在2021年一篇叫做《Learning Transferable Visual Models From Natural Language Supervision》中提出的,其是在豐富的、大規模的(4億個圖像-文本對)數據集上訓練得到的。 |
DiT | Diffusion Transformer,叫做擴散變換器。 | 目前文生圖、文生視頻技術的主流模型架構 |
LoRA | Low-Rank Adaptation/Adaptor,低秩適應技術。一種大模型的微調手段。措施是凍結一部分參數 | 可用在視覺和NLP領域,在文生圖領域里,主要用于控制圖像生成的風格,比如3D卡通、中國風、復古風等等。 |
ControlNet | 控制網絡,用于模型輸出的引導,多用在文生圖領域,用于精確控圖 | 給定參考圖(俗稱墊圖),讓大模型生成圖像參照參考圖的圖像深度、姿勢、構圖等 |
MoE | Mixture of Experts,專家混合模型架構 | 有一些知名的大模型,采用了這一架構,比如:MiniMax 的ABAB6,昆侖天工的skyworks ![]() |
CoE | Cross-attention of Experts,專家交叉注意力機制 | |
過擬合 | Overfitting,模型在訓練數據上表現過好,換到另一份新的數據上表現很差。 | 這是一種模型未訓練好的典型體現。造成的原因可能是數據量不足、模型復雜度過高、訓練時間過長。 |
欠擬合 | Underfitting,模型未能捕捉數據特征,即模型無法充分擬合訓練數據。 | 這是另一種模型未訓練好的典型體現。造成的模型可能是:模型過于簡單、訓練數據不足等。 |
ASR | Automatic Speech Recognition,語音識別技術。 | 這在大模型出來之前一直就在研究的AI語音領域的技術,拿出來是讓大家回顧一遍。 |
TTS | Text-to-Speech,文本合成語音技術。還有種說法是 “Speech Synthesis” | 這在大模型出來之前一直就有的東西,拿出來是讓大家回顧一遍。 |
容器化技術 | 容器化技術是一種軟件開發實踐,它允許開發者將應用程序及其依賴項打包到一個輕量級、可移植的容器中。這些容器在運行時是隔離的,確保了應用程序可以在不同的環境中一致地運行,而不受底層基礎設施的影響。 | 相關技術Docker、K8S(Kubernetes)(谷歌設計的)。K8s是一個開源的容器編排平臺,用于自動化部署、擴展和管理容器化應用程序。Kubernetes提供了一個運行分布式系統的框架,能夠無縫地擴展和管理跨主機集群的容器應用。 |
異構計算 | 異構,也就是不同的架構。 異構計算這個詞,經常出現在人工智能領域,尤其是算力這個細分領域。 | 比如政府智慧城市等大項目,那就要面臨來自不同廠家的大模型平臺/應用(底層是不同品牌的芯片、不同架構的芯片設計),有GPU、有FPGA之類的。 那么如何讓他們 一起計算不浪費計算資源呢?——就得需要【異構計算】的方案。具體怎么個異構計算方案,可以根據指引自行了解~ |
彈性計算 | '彈性計算'是一種云計算服務,它允許用戶根據需求動態地擴展或縮減計算資源。 | 一般大廠提供的云服務,都支持彈性計算(彈性擴縮容),目的是充分合理利用服務器等計算資源 |
微服務 | 它就是一種軟件開發架構,目的是提高軟件開發的效率、靈活性、標準性。 | 具體做法是:將一個應用程序分解為一組小服務,每個服務運行在其獨立的進程中,并通過輕量級的通信機制(通常是HTTP RESTful API)進行交互。這些服務圍繞特定的業務能力構建,并且可以獨立地部署、擴展和更新(源自百度)。 |
分布式集群、分布式計算 | 在軟件領域,為了提高算力利用率(服務器資源利用率),一般都會采用分布式計算這種方案,主要路徑是:搭建分布式計算集群。 | 分布式計算集群——意思就是:每一個節點都是一個計算單元,它們以某種方式組織在一起,形成了個集群。這些節點資源(網絡資源、數據資源啥的)可以提供比單個計算機更高的計算能力、存儲容量和可靠性。 一般有點用戶規模量級的應用/平臺,其軟件部署層面,肯定會采用這種部署方式,除非特別豪橫、特別有錢、不考慮經濟。 |
寫在后面:
想找AIGC、AIGC這方面的工作的朋友,該表格中的內容,建議(其實是務必)掌握并熟記于心、于腦,尤其是提示詞工程、SFT、RAG、過擬合、欠擬合、大模型幻覺解決這些 。
不想找這方面工作的朋友,這些東西也可以作作了解,作為提升AI行業認知的“養料”,你知道后,應該會比其它人懂得多一些~
關于本人:
華中科技大學2018級控制工程碩士(本科自動化),前百度校招AI產品經理,現頭部在線教育公司部門AIGC產品負責人~4年+AI產品經驗~
|
如果你也想提升個人AIGC競爭力的話,本人公眾號你不容錯過??:
將每周更新AIGC產品/技術/市場/政策等內容,輔助你全方位洞察AIGC和AGI,并提高AIGC的認知水平和動手實踐能力~
本文完,希望本文的分享對你有所幫助。