DeepSeek最近發表的論文DeepSeek-R1中介紹了一種創新的方法,通過強化學習(RL)提升大型語言模型(LLM)的推理能力。這項研究在如何僅依靠強化學習而不是過分依賴監督式微調的情況下,增強LLM解決復雜問題的能力上,取得了重要進展。
DeepSeek-R1 不是一個單獨的模型,而是包括DeepSeek-R1-Zero和DeepSeek-R1的模型系列。
下面我來闡明 DeepSeek-R1 和 DeepSeek-R1-Zero 之間的關鍵差異:
DeepSeek-R1-Zero是團隊初步嘗試僅用純強化學習而不進行任何監督式微調的實驗。他們從基礎模型出發,直接運用強化學習,讓模型通過不斷試錯來發展其推理能力。這種方法雖然取得了較好的成果(在 AIME 2024 測試中達到了 71% 的準確率),但在可讀性和語言連貫性上存在明顯不足。該模型擁有 6710 億個參數,使用了混合專家(MoE)架構,其中每個詞觸發的參數約為 370 億。此模型展現了一些新興的推理行為,例如自我核查、反思和長鏈推理(CoT)。
與之對比,DeepSeek-R1采用了更復雜的多階段訓練方法。它不僅僅采用強化學習,而是先在一小組精心挑選的示例(稱為“冷啟動數據”)上進行監督式微調,然后再應用強化學習。這種方法克服了 DeepSeek-R1-Zero 的局限,同時取得了更優的表現。這個模型同樣維持了 6710 億的參數數量,但在回答的可讀性和條理性上有所提高。
強化學習:不同于傳統依賴監督學習的模型,DeepSeek-R1 大規模采用了強化學習。此訓練方法利用群體相對策略優化(GRPO),重點提升精度和格式化獎勵,以增強推理能力,無需依賴大量標注數據。
蒸餾技術:為普及高效能模型,DeepSeek 也推出了 R1 的蒸餾版本,參數規模從15億到700億不等。這些模型采用了如Qwen和Llama等架構,表明即使是較小和更高效的模型也能包含復雜的推理能力。蒸餾過程通過使用 DeepSeek-R1 生成的合成推理數據對這些小型模型進行微調,以較低的計算成本保持高性能。
起始于基礎模型
直接應用強化學習
根據準確度和格式采用簡單獎勵機制
初始階段采用數千個高品質樣本進行監督式微調
針對推理任務進行強化學習
通過拒絕抽樣方法收集新的訓練數據
對所有類型的任務進行最終強化學習
推理基準測試:DeepSeek-R1 在各種基準測試中表現出色: AIME 2024:實現了 79.8% 的通過率,高于 OpenAI 的 o1–1217 的 79.2%。 MATH-500:得分高達 97.3%,略優于 o1–1217 的 96.4%。 SWE-bench 驗證:在編程任務中表現優越,證明了其編程能力。
成本效率:DeepSeek-R1 的 API 服務每百萬輸入令牌的成本為0.14美元,比 OpenAI 的類似模型便宜很多。
該論文指出了若干改進領域:
模型在處理需要特定輸出格式的任務時偶爾會遇到困難。
軟件工程相關任務的性能還有提升空間。
在多語言環境下,語言混合帶來了挑戰。
少樣本提示通常會導致性能下降。
未來的研究將致力于解決這些問題,并拓展模型在函數調用、多輪交互和復雜角色扮演場景等領域的能力。
DeepSeek-R1及其變體基于 MIT 許可證發布,支持開源合作和商業使用,包括模型蒸餾。此舉對促進創新和降低人工智能模型開發門檻具有關鍵意義。
這些模型及其蒸餾版本支持 GGML、GGUF、GPTQ 和 HF 等多種格式,使其在本地部署上具有靈活性。
我們可以通過三種方式使用DeepSeek:官方web訪問、API使用、本地部署。
DeepSeek聊天平臺提供了一個友好的用戶界面,允許用戶無需任何設置即可與DeepSeek-R1進行互動。
訪問步驟: 瀏覽至DeepSeek聊天平臺 注冊一個賬號,或者如果您已有賬號,直接登錄。 登錄后,可以選擇“深度思考”模式,體驗DeepSeek-R1的逐步推理功能。
DeepSeek 提供了一個與 OpenAI 格式兼容的 API,方便開發者將其嵌入各種應用程序中進行程序化訪問。
當前注冊還可以享有10塊錢的贈送額度
使用 API 的步驟:
a. 獲取 API 密鑰:
訪問DeepSeekAPI平臺,注冊賬號并生成您的專屬 API 密鑰。
b. 配置您的環境:
設置base_url為https://api.deepseek.com/v1。
使用您的 API 密鑰進行認證,通常在 HTTP 頭部通過 Bearer Token 進行。
c. 發起 API 調用:
利用 API 向 DeepSeek-R1 發送指令并接收響應。
您可以在DeepSeekAPI文檔中找到詳細的文檔和示例。
# 請先安裝 OpenAI SDK:`pip3 install openai`from openai import OpenAIclient = OpenAI(api_key='<DeepSeek API Key>', base_url='https://api.deepseek.com')response = client.chat.completions.create( model='deepseek-chat', messages=[ {'role': 'system', 'content': 'You are a helpful assistant'}, {'role': 'user', 'content': 'Hello'}, ], stream=False)print(response.choices[0].message.content)
兩種模型(R1 和 R1-Zero):
**硬件需求:**由于模型規模龐大,完整模型需要較強的硬件支持。推薦使用具有大量視頻內存(VRAM)的 GPU,例如 Nvidia RTX 3090 或更高級別。如果使用 CPU,你至少需要 48GB 的 RAM 和 250GB 的磁盤空間,但若不使用 GPU 加速,性能會顯著下降。
**蒸餾模型:**對于硬件要求不那么高的本地部署,DeepSeek 提供了參數范圍從 15 億到 700 億的蒸餾版本,適合硬件配置較低的系統。例如,一個 7B 參數的模型可以在至少擁有 6GB VRAM 的 GPU 上運行,或在大約 4GB RAM 的 CPU 上運行 GGML/GGUF 格式。
您可以使用Ollama來在本地部署和運行模型:(Ollama 是一個工具,允許您在個人計算機上本地運行開源 AI 模型。您可以從這里下載它:
https://ollama.com/download)
在進一步操作之前,我們需要確保 Ollama 已經正確安裝。請打開您的終端或命令提示符,輸入以下命令:
ollama--version
如果您看到版本號顯示出來,說明安裝成功了!如果沒有顯示,那么請仔細檢查您是否已按照安裝步驟正確執行。
通過 Ollama 下載 DeepSeek R1 非常便捷。您只需在終端中執行以下命令:
ollama run deepseek-r1
默認版本是:7B 模型(CPU 大概需要4G內存,1.5B大概需要1.7G內存),DeepSeek R1 的參數范圍從 1.5B 到 671B,可以使用ollama run deepseek-r1:1.5b適合自己的模型版本,下載時間可能會根據您的網絡速度而異。下載期間,可以喝杯水或者活動一下身體,稍作等待吧?
下載完成后,您就可以啟動 DeepSeek R1 了。使用以下命令:
ollama run deepseek-r1
就這樣,您已經在本地機器上順利啟動了 DeepSeek R1!感覺如何,是不是so easy?
現在我們已經成功啟動了 DeepSeek R1,接下來就是更加有趣的部分——實際使用它!讓我們一起探索這款強大的 AI 模型能做些什么神奇的事情。
DeepSeek R1 在創意寫作方面非常擅長。嘗試給它這樣一個寫作提示:
寫一個短故事,講述一個機器人發現自己擁有情感的經歷。
您會對它輸出的既有創意又條理清晰的故事感到驚喜!
本文即將結束,這次我們講解了在本地環境中使用 Ollama 運行 DeepSeek R1。 DeepSeek R1 這樣的強大 AI 模型運行在個人電腦上,不僅僅是展示一項引人注目的技術,更是我們對未來人工智能發展方向的一種探索。這樣做讓高級語言模型的強大功能直接落在我們的手中,使得個性化定制、深入實驗以及更好的隱私保護成為可能。讓我們想象以下幾種可能:
開發者可以為特定領域創建出高度定制化的 AI 助手。
研究人員在沒有云服務依賴的情況下,可以更自由地試驗 AI 模型。
對于那些注重隱私的用戶,他們可以利用先進的 AI 技術,而無需擔心個人數據泄露。
這一切都指向一個無限的可能性世界!