本文詳細介紹了DeepSeek及其應用場景,涵蓋了大模型的發展歷程、基本原理和分類(通用與推理模型)。文章分析了DeepSeek的具體特性、性能優勢、低成本訓練與調用特點,以及其技術路線(如MoE、MLA架構),并與競品進行了對比。此外,還探討了DeepSeek在金融風控等領域的應用前景。
一、大模型發展回顧
1.1. 大模型發展歷程
*GPT-4o的o表示omni,意為“全知全能的”;o1/o3的o表示OpenAI.
從OpenAI的發展過程看大模型的發展趨勢:
1.2. 大模型基本原理
大模型是如何構建的?
引用論文 Large Language Models: A Survey [1]
核心的三個步驟: 預訓練,有監督微調和人類反饋強化學習。
1.3. 推理模型與通用模型
大模型發展至今,可以分為: 通用大模型與推理大模型。
思維鏈(Chain of Thought, CoT)通過要求/提示模型在輸出最終答案之前,顯式輸出中間逐步的推理步驟這一方法來增強大模型的算數、常識和推理的性能。從該角度,可以將大模型的范式分為兩類: 概率預測(快速反應模型)和鏈式反應(慢速思考模型),前者適合快速反饋,處理即時任務,后者通過推理解決復雜問題。
一個例子,問: 1+2+3+4+5+6+7+8+9+10=多少,直接告訴我答案
二、DeepSeek
2.1. DeepSeek是什么
DeepSeek主流模型的競品對標
2.2. DeepSeek可以做什么
直接面向用戶或者支持開發者,提供智能對話、文本生成、語義理解、計算推理、代碼生成補全等應用場景,支持聯網搜索與深度思考,同時支持文本上傳,能夠掃描讀取各類文件及圖片的文字內容。
2.3. DeepSeek的模型對比
資料 彩云之南公眾號,浙商證券研究所。[相關鏈接2]
我們常說的DeepSeek的大模型,是指當前主流的DeepSeek-V3和DeepSeek-R1。
總結: 不考慮調用成本,復雜推理任務(例如數學、代碼等)或者希望獲取思維鏈,優先DeepSeek-R1;內容創作、文本生成等優先DeepSeek-V3。
*o3-mini的一個介紹: [3], o1-mini的一個介紹: [4], GPT-4o的一個介紹: [5], GPT-4o-mini的一個介紹: [6]
引用: 通義千問官網[7]
2.4. DeepSeek為什么大火
*AIME 2024: 數學題,涵蓋算術、代數、計數、幾何、數論、概率等中學數學主題的綜合評測,測試數學問題解決能力。
*MATH-500: 包含500個測試樣本的MATH評測集,全面考察數學解題能力。
*GPQA: 研究生水平的專家推理,一個通過研究生級別問題評估高階科學解題能力的評測集,旨在考察科學問題解決能力。
結論: DeepSeek-V3 較 OpenAI競品,訓練成本約為1/20~1/3
*注, H800為針對中國市場定制,性能和價格略低于H100.
結論: DeepSeek-V3 API調用價格約為OpenAI o3-mini的1/4,為GPT-4o的約1/10. 但要高于GPT-4o-mini, 性能強于GPT-4o-mini.
以下為當前調用價格,以token為單位,1個英文字符約0.3個token,1個中文字符約0.6個token,即1 token可對應1-2個中文漢字,或對應3-4個英文字符,或0.75個英文單詞,截止到2025年2月8日
*o3 mini思維鏈: 2025年2月7日,openAI公開o3 mini思維鏈,業界猜測非原始思維鏈,而是總結之后的思維鏈輸出。
*緩存命中: 在大模型 API 的使用場景中,用戶的輸入有相當比例是重復的。舉例說,用戶的 prompt 往往有一些重復引用的部分;再舉例說,多輪對話中,每一輪都要將前幾輪的內容重復輸入。啟用上下文硬盤緩存技術,把預計未來會重復使用的內容,緩存在分布式的硬盤陣列中。如果輸入存在重復,則重復的部分只需要從緩存讀取,無需計算。該技術不僅降低服務的延遲,還大幅削減最終的使用成本。
*MMLU(大規模多任務語言理解)是一種新的基準測試,涵蓋STEM、人文、社會科學等57個學科,有效地衡量了綜合知識能力。
2.5. DeepSeek為什么又好又省-技術路線
參考: DeepSeek-v3技術文檔 [8]
MoE在NLP、CV、多模態和推薦系統中有廣泛的應用(時間線上面的開源,下面的閉源)。
參考: A Survey on Mixture of Experts [9]
兩種典型的MoE: Dense MoE VS. Sparse MoE
往往會帶來負載均衡問題,即專家工作量的不均衡分布,部分專家頻繁更新,其它專家很少更新,大量研究專注于解決負載均衡問題。
DeepSeek的MoE結構: DeepSeekMoE
DeepSeek-R1: 1個共享的專家+63個路由的專家,每個專家是標準FFN的1/4大小.
參考: 知乎@絕密伏擊 [10]
2.6. DeepSeek與競品對比
項目/模型 | DeepSeek-R1 | GPT-4o | 豆包 |
模型定位 | 專注高端推理和復雜邏輯問題 | 通用大模型,旨在處理多任務、多模態 | 中文環境,面向C端用戶,輕量化、娛樂化 |
是否開源 | 是 | 否 | 否,商業化產品 |
擅長功能 | 復雜推理,例如數學、代碼 | 通用語言生成、多模態理解 | 擬人化聊天、創意內容生成、圖像生成 |
定制化程度 | 高;用戶可修改模型行為并針對特定用例進行優化 | 低;主要通過API調用于提示工程進行微調 | 低;提供API服務,靈活性低 |
硬件要求 | 溫和;部署對硬件要求相對適中 | 不適用;僅通過OpenAI基礎設施上的API提供 | 作為云端產品,無需自建硬件,后端依賴云計算集群 |
多模態支持 | 暫無,可用Janus-Pro多模態大模型 | 強多模態能力,支持文本、圖像等輸入 | 一定的多模態支持 |
用戶群體 | 開發者、企業用戶、專業研究者 | 全球阻留用戶、企業客戶和開發者,高端市場 | 普通消費者、內容創作者,字節生態 |
推動了大模型開源進程,作為鯰魚,讓全球大模型競賽進一步提速。
2.7. DeepSeek使用建議
DeepSeek提示詞庫[11]
對于推理大模型,存在欺騙技巧失效和“啟發式提示”失效的問題:
參考: 知乎田威AI[12]