精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
一文了解DeepSeek及應用場景
userphoto

2025.03.28

關注

本文詳細介紹了DeepSeek及其應用場景,涵蓋了大模型的發展歷程、基本原理和分類(通用與推理模型)。文章分析了DeepSeek的具體特性、性能優勢、低成本訓練與調用特點,以及其技術路線(如MoE、MLA架構),并與競品進行了對比。此外,還探討了DeepSeek在金融風控等領域的應用前景。

一、大模型發展回顧

1.1. 大模型發展歷程

*GPT-4o的o表示omni,意為“全知全能的”;o1/o3的o表示OpenAI.

從OpenAI的發展過程看大模型的發展趨勢:

1.2. 大模型基本原理

大模型是如何構建的?

引用論文 Large Language Models: A Survey [1]

核心的三個步驟: 預訓練,有監督微調和人類反饋強化學習。

1.3. 推理模型與通用模型

大模型發展至今,可以分為: 通用大模型與推理大模型。

思維鏈(Chain of Thought, CoT)通過要求/提示模型在輸出最終答案之前,顯式輸出中間逐步的推理步驟這一方法來增強大模型的算數、常識和推理的性能。從該角度,可以將大模型的范式分為兩類: 概率預測(快速反應模型)和鏈式反應(慢速思考模型),前者適合快速反饋,處理即時任務,后者通過推理解決復雜問題。

一個例子,問: 1+2+3+4+5+6+7+8+9+10=多少,直接告訴我答案

二、DeepSeek

2.1. DeepSeek是什么

DeepSeek主流模型的競品對標

2.2. DeepSeek可以做什么

直接面向用戶或者支持開發者,提供智能對話、文本生成、語義理解、計算推理、代碼生成補全等應用場景,支持聯網搜索與深度思考,同時支持文本上傳,能夠掃描讀取各類文件及圖片的文字內容。

2.3. DeepSeek的模型對比

2.3.1. DeepSeek模型發展史

資料 彩云之南公眾號,浙商證券研究所。[相關鏈接2]

我們常說的DeepSeek的大模型,是指當前主流的DeepSeek-V3和DeepSeek-R1。

2.3.2. V3與R1的對比與選擇

總結: 不考慮調用成本,復雜推理任務(例如數學、代碼等)或者希望獲取思維鏈,優先DeepSeek-R1;內容創作、文本生成等優先DeepSeek-V3。

2.3.3. 競品-OpenAI的大模型

*o3-mini的一個介紹: [3], o1-mini的一個介紹: [4], GPT-4o的一個介紹: [5], GPT-4o-mini的一個介紹: [6]

2.3.4. 競品-通義千問的大模型

引用: 通義千問官網[7]

2.4. DeepSeek為什么大火

2.4.1. 性能優越

*AIME 2024: 數學題,涵蓋算術、代數、計數、幾何、數論、概率等中學數學主題的綜合評測,測試數學問題解決能力。

*MATH-500: 包含500個測試樣本的MATH評測集,全面考察數學解題能力。

*GPQA: 研究生水平的專家推理,一個通過研究生級別問題評估高階科學解題能力的評測集,旨在考察科學問題解決能力。

2.4.2. 訓練便宜

結論: DeepSeek-V3 較 OpenAI競品,訓練成本約為1/20~1/3

*注, H800為針對中國市場定制,性能和價格略低于H100.

2.4.3. API調用便宜

結論: DeepSeek-V3 API調用價格約為OpenAI o3-mini的1/4,為GPT-4o的約1/10. 但要高于GPT-4o-mini, 性能強于GPT-4o-mini.

以下為當前調用價格,以token為單位,1個英文字符約0.3個token,1個中文字符約0.6個token,即1 token可對應1-2個中文漢字,或對應3-4個英文字符,或0.75個英文單詞,截止到2025年2月8日

*o3 mini思維鏈: 2025年2月7日,openAI公開o3 mini思維鏈,業界猜測非原始思維鏈,而是總結之后的思維鏈輸出。

*緩存命中: 在大模型 API 的使用場景中,用戶的輸入有相當比例是重復的。舉例說,用戶的 prompt 往往有一些重復引用的部分;再舉例說,多輪對話中,每一輪都要將前幾輪的內容重復輸入。啟用上下文硬盤緩存技術,把預計未來會重復使用的內容,緩存在分布式的硬盤陣列中。如果輸入存在重復,則重復的部分只需要從緩存讀取,無需計算。該技術不僅降低服務的延遲,還大幅削減最終的使用成本。

*MMLU(大規模多任務語言理解)是一種新的基準測試,涵蓋STEM、人文、社會科學等57個學科,有效地衡量了綜合知識能力。

2.4.4. 其它因素

2.5. DeepSeek為什么又好又省-技術路線

2.5.1. 主要技術路線

參考: DeepSeek-v3技術文檔 [8]

2.5.2. Mixture of Experts (MoE) 混合專家模型

MoE在NLP、CV、多模態和推薦系統中有廣泛的應用(時間線上面的開源,下面的閉源)。

參考: A Survey on Mixture of Experts [9]

兩種典型的MoE: Dense MoE VS. Sparse MoE

往往會帶來負載均衡問題,即專家工作量的不均衡分布,部分專家頻繁更新,其它專家很少更新,大量研究專注于解決負載均衡問題。

DeepSeek的MoE結構: DeepSeekMoE

DeepSeek-R1: 1個共享的專家+63個路由的專家,每個專家是標準FFN的1/4大小.

2.5.3. Multi-Head Latent Attention (MLA)

2.5.4. R1的訓練范式:冷啟動與多階段RL

參考: 知乎@絕密伏擊 [10]

2.6. DeepSeek與競品對比

2.6.1. 幾個競品的對比

項目/模型DeepSeek-R1GPT-4o豆包
模型定位專注高端推理和復雜邏輯問題通用大模型,旨在處理多任務、多模態中文環境,面向C端用戶,輕量化、娛樂化
是否開源否,商業化產品
擅長功能復雜推理,例如數學、代碼通用語言生成、多模態理解擬人化聊天、創意內容生成、圖像生成
定制化程度高;用戶可修改模型行為并針對特定用例進行優化低;主要通過API調用于提示工程進行微調低;提供API服務,靈活性低
硬件要求溫和;部署對硬件要求相對適中不適用;僅通過OpenAI基礎設施上的API提供作為云端產品,無需自建硬件,后端依賴云計算集群
多模態支持暫無,可用Janus-Pro多模態大模型強多模態能力,支持文本、圖像等輸入一定的多模態支持
用戶群體開發者、企業用戶、專業研究者全球阻留用戶、企業客戶和開發者,高端市場普通消費者、內容創作者,字節生態

2.6.2. DeepSeek的缺點

2.6.3. DeepSeek的影響

推動了大模型開源進程,作為鯰魚,讓全球大模型競賽進一步提速。

2.7. DeepSeek使用建議

DeepSeek提示詞庫[11]

2.7.1. DeepSeek使用的不同點

2.7.2. R1的正確打開方式

對于推理大模型,存在欺騙技巧失效和“啟發式提示”失效的問題:

參考: 知乎田威AI[12]

本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
DeepSeek背后的技術基石:MoE、數據并行與模型并行全解析
中國的OpenAI有了,可能還不止一個!Kimi、DeepSeek新模型如何媲美o1?
DeepSeek重構教育:數學怎么學(學生篇)
216,解密DeepSeek大模型的12類主要功能
國產AI卷翻硅谷,奧特曼發文“陰陽”,類o1模型都在卷什么?
2025詳解DeepSeek模型訓練優化及數據處理的技術精髓
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 辽宁省| 勐海县| 浦北县| 固阳县| 阿合奇县| 巴林左旗| 舞钢市| 盈江县| 淮安市| 故城县| 宜都市| 三台县| 府谷县| 五家渠市| 武隆县| 沐川县| 黄大仙区| 铅山县| 北碚区| 温宿县| 广东省| 乌拉特后旗| 友谊县| 沙洋县| 吉隆县| 寻甸| 五寨县| 荆门市| 喀喇沁旗| 塔城市| 合肥市| 大宁县| 石阡县| 江北区| 文化| 威海市| 乐山市| 郧西县| 赫章县| 鲁甸县| 株洲市|