亚洲人精品午夜射精日韩,日韩人妻无码专区一本二本,巨大乳bbwsex中国

本文詳細介紹了DeepSeek及其應用場景，涵蓋了大模型的發展歷程、基本原理和分類（通用與推理模型）。文章分析了DeepSeek的具體特性、性能優勢、低成本訓練與調用特點，以及其技術路線（如MoE、MLA架構），并與競品進行了對比。此外，還探討了DeepSeek在金融風控等領域的應用前景。

一、大模型發展回顧

1.1. 大模型發展歷程

*GPT-4o的o表示omni，意為“全知全能的”；o1/o3的o表示OpenAI.

從OpenAI的發展過程看大模型的發展趨勢：

1.2. 大模型基本原理

大模型是如何構建的？

引用論文 Large Language Models: A Survey [1]

核心的三個步驟: 預訓練，有監督微調和人類反饋強化學習。

1.3. 推理模型與通用模型

大模型發展至今，可以分為: 通用大模型與推理大模型。

思維鏈(Chain of Thought, CoT)通過要求/提示模型在輸出最終答案之前，顯式輸出中間逐步的推理步驟這一方法來增強大模型的算數、常識和推理的性能。從該角度，可以將大模型的范式分為兩類: 概率預測（快速反應模型）和鏈式反應（慢速思考模型），前者適合快速反饋，處理即時任務，后者通過推理解決復雜問題。

一個例子，問: 1+2+3+4+5+6+7+8+9+10=多少，直接告訴我答案

二、DeepSeek

2.1. DeepSeek是什么

DeepSeek主流模型的競品對標

2.2. DeepSeek可以做什么

直接面向用戶或者支持開發者，提供智能對話、文本生成、語義理解、計算推理、代碼生成補全等應用場景，支持聯網搜索與深度思考，同時支持文本上傳，能夠掃描讀取各類文件及圖片的文字內容。

2.3. DeepSeek的模型對比

2.3.1. DeepSeek模型發展史

資料彩云之南公眾號，浙商證券研究所。[相關鏈接2]

我們常說的DeepSeek的大模型，是指當前主流的DeepSeek-V3和DeepSeek-R1。

2.3.2. V3與R1的對比與選擇

總結: 不考慮調用成本，復雜推理任務（例如數學、代碼等）或者希望獲取思維鏈，優先DeepSeek-R1；內容創作、文本生成等優先DeepSeek-V3。

2.3.3. 競品-OpenAI的大模型

*o3-mini的一個介紹: [3], o1-mini的一個介紹: [4], GPT-4o的一個介紹: [5], GPT-4o-mini的一個介紹: [6]

2.3.4. 競品-通義千問的大模型

引用: 通義千問官網[7]

2.4. DeepSeek為什么大火

2.4.1. 性能優越

*AIME 2024: 數學題,涵蓋算術、代數、計數、幾何、數論、概率等中學數學主題的綜合評測，測試數學問題解決能力。

*MATH-500: 包含500個測試樣本的MATH評測集，全面考察數學解題能力。

*GPQA: 研究生水平的專家推理,一個通過研究生級別問題評估高階科學解題能力的評測集，旨在考察科學問題解決能力。

2.4.2. 訓練便宜

結論: DeepSeek-V3 較 OpenAI競品，訓練成本約為1/20～1/3

*注, H800為針對中國市場定制，性能和價格略低于H100.

2.4.3. API調用便宜

結論: DeepSeek-V3 API調用價格約為OpenAI o3-mini的1/4，為GPT-4o的約1/10. 但要高于GPT-4o-mini, 性能強于GPT-4o-mini.

以下為當前調用價格，以token為單位，1個英文字符約0.3個token，1個中文字符約0.6個token，即1 token可對應1-2個中文漢字，或對應3-4個英文字符，或0.75個英文單詞，截止到2025年2月8日

*o3 mini思維鏈: 2025年2月7日，openAI公開o3 mini思維鏈，業界猜測非原始思維鏈，而是總結之后的思維鏈輸出。

*緩存命中: 在大模型 API 的使用場景中，用戶的輸入有相當比例是重復的。舉例說，用戶的 prompt 往往有一些重復引用的部分；再舉例說，多輪對話中，每一輪都要將前幾輪的內容重復輸入。啟用上下文硬盤緩存技術，把預計未來會重復使用的內容，緩存在分布式的硬盤陣列中。如果輸入存在重復，則重復的部分只需要從緩存讀取，無需計算。該技術不僅降低服務的延遲，還大幅削減最終的使用成本。

*MMLU(大規模多任務語言理解）是一種新的基準測試，涵蓋STEM、人文、社會科學等57個學科，有效地衡量了綜合知識能力。

2.4.4. 其它因素

2.5. DeepSeek為什么又好又省-技術路線

2.5.1. 主要技術路線

參考: DeepSeek-v3技術文檔 [8]

2.5.2. Mixture of Experts (MoE) 混合專家模型

MoE在NLP、CV、多模態和推薦系統中有廣泛的應用(時間線上面的開源，下面的閉源)。

參考: A Survey on Mixture of Experts [9]

兩種典型的MoE: Dense MoE VS. Sparse MoE

往往會帶來負載均衡問題，即專家工作量的不均衡分布，部分專家頻繁更新，其它專家很少更新，大量研究專注于解決負載均衡問題。

DeepSeek的MoE結構: DeepSeekMoE

DeepSeek-R1: 1個共享的專家+63個路由的專家，每個專家是標準FFN的1/4大小.

2.5.3. Multi-Head Latent Attention (MLA)

2.5.4. R1的訓練范式：冷啟動與多階段RL

參考: 知乎@絕密伏擊 [10]

2.6. DeepSeek與競品對比

2.6.1. 幾個競品的對比

項目/模型	DeepSeek-R1	GPT-4o	豆包
模型定位	專注高端推理和復雜邏輯問題	通用大模型，旨在處理多任務、多模態	中文環境，面向C端用戶，輕量化、娛樂化
是否開源	是	否	否，商業化產品
擅長功能	復雜推理，例如數學、代碼	通用語言生成、多模態理解	擬人化聊天、創意內容生成、圖像生成
定制化程度	高；用戶可修改模型行為并針對特定用例進行優化	低；主要通過API調用于提示工程進行微調	低；提供API服務，靈活性低
硬件要求	溫和；部署對硬件要求相對適中	不適用；僅通過OpenAI基礎設施上的API提供	作為云端產品，無需自建硬件，后端依賴云計算集群
多模態支持	暫無，可用Janus-Pro多模態大模型	強多模態能力，支持文本、圖像等輸入	一定的多模態支持
用戶群體	開發者、企業用戶、專業研究者	全球阻留用戶、企業客戶和開發者，高端市場	普通消費者、內容創作者，字節生態

2.6.2. DeepSeek的缺點

2.6.3. DeepSeek的影響

推動了大模型開源進程，作為鯰魚，讓全球大模型競賽進一步提速。

2.7. DeepSeek使用建議

DeepSeek提示詞庫[11]

2.7.1. DeepSeek使用的不同點

2.7.2. R1的正確打開方式

對于推理大模型，存在欺騙技巧失效和“啟發式提示”失效的問題：

參考: 知乎田威AI[12]

本站僅提供存儲服務，所有內容均由用戶發布，如發現有害或侵權內容，請點擊舉報。

精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕