并且在這個過程中,它曾一度讓美股市值一晚上蒸發超1萬億美金,英偉達股價單日下跌16%。
能獲得這個成就的原因只有一個,那就是:他們發布了一個免費,且無比聰明的模型——DeepSeek R1。
尤其是“聰明”這個特性,讓大量的提示詞技巧開始失效,你只需要很簡單地表述你的需求,便能獲得超出預期的回答。如果回顧大語言模型發展歷程的話,2025年1月20日DeepSeek R1的發布會是一個注定被記錄的時間節點,2022年11月30日ChatGPT的發布讓大模型進入了大眾視野,而2年后的DeepSeek R1則是讓一個足夠優秀的模型變得觸手可及。
作為一名在B站/YouTube做了一年多ChatGPT等AI產品教學,教學視頻播放量超400萬的AI博主,一方面我很高興原來教授的技巧成了無用的屠龍之術,有更多人可以更輕松容易的使用AI去輔助自己的工作、學習和生活了。
另一方面,經過我這幾天每天5小時以上的爆肝體驗,以及看了一些網友們的測試之后,我發現,很多人對大語言模型依然懷著錯誤的認知和預期,而這很可能會阻礙使用R1的體驗。
所以,更符合實際的情況是…
你不再需要那么多的提示詞技巧,但是還有兩點非常關鍵:
1)你需要理解大語言模型的工作原理與局限,這能幫助你更好的知道AI可完成任務的邊界;
2)在和R1合作時,你最好有管理者的思維和經驗,你需要知道如何向R1這個聰明程度比你高很多的下屬布置你的任務。
所以,帶著這樣的預期,我為你準備了19條幫助你更好使用DeepSeek R1的經驗,包括5個大語言模型的特點,7項與R1對話的技巧,以及7種驗證無效你可以舍棄的提示策略。
這篇長文主要包含以下四個部分:
第一部分,我會向你解釋DeepSeek R1模型和你可能使用過的豆包、ChatGPT等產品的差異,為什么這個模型可以使用更簡單的提示策略了。
第二部分,我會向你介紹大型語言模型最重要的5個特點,讓你理解為什么AI在完成某些任務時很糟糕,以及它的能力與知識邊界是什么樣的。
第三部分則會向你介紹使用DeepSeek R1的所謂「技巧」,其實這些技巧你更多可以理解為是作為領導向聰明的下屬布置任務時所需要關注的點。
第四部分則是會談及此前很有效,但是現在已失效的提示策略,如果你有豐富的大模型使用經驗了,你可以在這里看看你可以舍棄什么。
不過,在做任何深入的介紹之前,如果你還沒使用過DeepSeek的話,強烈建議你先去做一些嘗試,再返回看文章,效果會更加,你有兩種官方使用方式:
訪問DeepSeek官網:https://chat.deepseek.com/
在AppStore或安卓應用商店搜索「DeepSeek」下載免費使用即可
在使用時,注意聊天輸入框下方的兩個選擇「深度思考R1」和「聯網搜索」:
關于「深度思考R1」
當你需要更簡單快速的回答時,不必打開「深度思考」,使用默認模型V3即可;
當你需要完成更復雜的任務,你希望AI輸出的內容更結構化,更深思熟慮時,你應該打開「深度思考R1」選項,這也是今天我這篇文章主要在討論的模型;
關于「聯網搜索」
當你的任務所涉及的知識在2023年12月之前時,你無須打開「聯網搜索」功能,大模型本身就有此前被充分訓練過的語料知識;
當你的任務所涉及的知識在2023年12月及之后時,比如昨天NBA比賽的賽果,硅谷對DeepSeek R1的評價等,你必須打開「聯網搜索」功能,否則大模型在回答時會缺乏相應的知識。
在闡述任何技巧之前,你最先需要知道的事,DeepSeek的R1是個與你日常使用的對話類AI非常不同的模型。
像OpenAI的GPT-4o、DeepSeek V3、豆包等都屬于指令模型(instruct model),這類模型是專門設計用于遵循指令生成內容或執行任務的。
而DeepSeek R1屬于推理模型(reasoning model),專注于邏輯推理、問題解決的模型,能夠自主處理需要多步驟分析、因果推斷或復雜決策的任務。
實際上,還有一個知名的模型,也就是OpenAI的o1也是推理模型,但你必須每個月花20美元成為plus會員才能使用,且每周只有50次的使用權限。想要更多,那請掏出200美金/每月,也就是1437元。
而DeepSeek R1現在完全免費!!
從我實際的體驗來說,R1在大量的寫作、寫代碼的任務上甚至比o1更強。
按理說,R1擅長數學推理、編程競賽是很合理的事,它也只應該擅長這些任務。但是令人意外的是,有了超強的推理能力之后,R1似乎在所有任務上都獲得了質的飛躍,“涌現”出了意料之外的技能。
在原本指令模型的時代,AI的能力受到了很強的限制,你需要通過提示詞的各類技巧才能激發模型更好的表現,而對普通人來說,學這些技巧實在讓人頭大不矣。
在DeepSeek R1模型下,你只需要清晰、明確地表達你的需求就好了。就像你擁有一個比你聰明得多的清北畢業的具有10年工作經驗的下屬,你不需要一步步套路它,指導它的工作,你只需要把所有他需要知道的信息告訴他,然后將你的任務布置下去即可。
但,如何布置任務呢?首先你需要知道這個下屬的特點。
盡管像DeepSeek R1這樣的推理模型相比指令模型有了非常大的進步,你不需要那么多技巧了,但他依然是個大型語言模型(LLM),他依然存在語言模型的局限性,理解它的特點將會幫助你更好的應用他。
在理解模型行為之前,我們需要了解它是如何'學習'的。大型語言模型的預訓練本質上是讓模型建立文本片段之間的關聯規律。為了實現這個目標,所有訓練數據(包括書籍、網頁、對話記錄等)都會經過特殊處理:首先將文本切割成稱為token的基本單元(類似文字的'碎片'),然后將這些token轉化為數字編碼。這個過程就像把現實世界的語言,翻譯成只有模型能理解的'密碼本'。
在推理模型出來之前,很多人非常喜歡用來考察大模型智商的一個問題是:Strawberry這個單詞中有幾個r字母?
此前像GPT-4、GPT-4o這類被認為很強大的大模型也沒法把這個問題回答準確,這不是因為模型不夠「聰明」,而是它在被訓練時的特點導致了這一結果。
而所謂的token化就是大模型為了訓練會將部分單詞、中文字符進行拆分分解,比如在GPT3.5和GPT4的訓練中,「詞」這個字就被拆成了兩個token,Strawberry則被拆成三個token,分別是「Str」「aw」「berry」。這種切割方式取決于訓練時采用的tokenizer算法,也可能把生僻詞拆解成無意義的片段。
舉這個例子是想告訴你,大模型所看到的世界和你所看到的不一樣。當你在數字母時看到的是連續的字符流,而模型看到的卻是經過編碼的token序列。所以,類似于數單詞中的字母數量,或者精確要求大模型為你輸出特定字數的內容都是有些強模型所難的,他的機制決定了他不擅長處理這些任務。
當然,現在推理模型理論上可以完成我例子中的任務,但是你看看他推理的過程...是不是覺得還是有些費勁,有些于心不忍。
雖然DeepSeek R1在2025年1月才正式發布,但其基礎模型的訓練數據窗口期早在數月前就已關閉。這就像出版一本百科全書——從資料收集到最終付印需要完整的生產周期。具體來說存在三重時間壁壘:1)預訓練階段需要處理PB級原始數據;2)數據清洗需要經歷去重、脫敏、質量驗證等工序;3)后期還要進行監督微調、強化學習、基于人類反饋的強化學習(RLHF)等迭代優化。
這種知識滯后性會帶來一系列的問題和幻覺,比如DeepSeek R1目前還認為GPT-4是世界上最強的模型,GPT-4o、Claude 3.5 Sonnet等2024年后發布的模型它是不知道的;它也無法告訴你2024巴黎奧運會賽事結果,無法2025年春晚或春節檔的電影表現。
這些都是模型訓練的特點導致的,很多人拿類似任務去問R1,發現R1答非所問,輕易得出R1模型太差的結論。事實上這就像要求2020年出版的《辭?!繁仨氂涊d2021年的新詞——本質是知識載體的物理特性使然。
要突破這種知識限制,也有方法:
激活聯網搜索功能:給R1提供自主搜索查找信息的權力;
補充必要知識:你可以通過上傳文檔、在提示詞中提供充足的信息之后,再讓R1去為你執行具有更近時效性的任務。
DeepSeek R1或者任何模型其實都缺乏「我是誰」的概念,如果他自發有了,那可能說明AGI臨近,我們可能反而該警惕了。
很多模型都不知道自己叫xx模型,這是很正常的現象,除非大模型廠商在部署的時候在系統提示詞中做了設定,或者預訓練完成后用了特定的語料進行微調。
以及,因為這種自我認知的缺乏會帶來兩個問題:
1)AI有時候會給出錯誤的自我認知,比如deepseek以及很多別的模型都可能認為自己是ChatGPT,因為ChatGPT發布后,很多人將自己與ChatGPT的對話內容發布在了網上。所以你在問一個模型“你是誰”“who are you”的時候,模型偶爾的幻覺是很常見的現象。
2)你沒法讓DeepSeek R1來告訴你它自己有什么樣的特點,使用它有哪些技巧等等。這也是我依然需要大量依靠自己的腦力算力去寫作這篇文章的原因。
多數大模型都有上下文長度的限制,deepseek R1目前提供的上下文只有64k token長度(官方API文檔的說明,實際聊天對話的長度待確認),對應到中文字符大概是3-4萬字,這帶來的問題是,你沒法一次投喂太長的文檔給他,以及你沒法與他進行太多輪次的對話。
當你發送的文檔長度超過3萬字時,你可以理解為他是通過RAG,也就是檢索增強的方式去選取你文檔中的部分內容作為記憶的一部分來展開與你的對話的,而不是全部內容。而當你與他對話的輪次過多時,他很可能會遺忘你們最初聊天的內容。
這部分的限制在你開展讓AI寫代碼的任務時會感受尤其明顯。
相比上下文對話的輸入長度,大模型的輸出長度則會更短得多,多數大模型會將輸出長度控制在4k或者8k,也就是單次對話最多給你2-4千中文字符。
所以,你沒法復制一篇萬字長文讓DeepSeek一次性完成翻譯,也不能讓DeepSeek一次性幫你寫一篇5000字以上的文章,這些都是模型輸出長度限制導致,你需要理解這個問題的存在。
如果要解決這個問題的話,翻譯類的任務你可以通過多次復制,或者自己寫代碼去調用API多次執行任務完成一篇長文甚至一本書的翻譯。而長文寫作類的任務,比較妥當的做法是先讓R1梳理框架列出提綱目錄,再根據目錄一次次分別生成不同階段的內容。
能說清楚的信息,不要讓DeepSeek去猜。DeepSeek雖然很聰明,但它不是你肚子中的蛔蟲,你需要明確告訴DeepSeek需要他幫你做什么,做到什么程度。比如:如果你復制一段英文文本給它,你需要明確表達你的指令,也就是你需要它做什么。否則,DeepSeek并不會理解你想要做什么。是翻譯?總結?還是你要學英語讓他出題?這些信息不要讓R1去猜。
又比如,你想寫一篇500字的公眾號文章,那你就明確表達你寫的文章主題需要500字,雖然我們前面提過了大模型并不擅長計算數字,它大概率只會給你返回300-700之間長度的文章,但這至少是大致符合你的篇幅要求的。
錯誤示范
為跨境電商平臺寫個用戶增長方案
優化方案
為服飾跨境電商平臺設計30天新用戶增長計劃,我們期望重點突破東南亞市場(目標國家:印尼/越南/泰國)。你的方案中需包含:社交媒體運營策略、KOL合作框架、ROI預估模型
具有思維鏈的R1在進行特定風格的寫作時,相比其他模型,我發現R1已經出現了斷層領先的水平,比如讓R1用李白的風格寫詩,按貼吧暴躁老哥的風格罵人,用魯迅的文風進行諷刺,或者模仿任意作家風格進行寫作,按脫口秀演員風格創作脫口秀腳本等,其他模型在這方面的表現都追不上R1的車尾。
在這個模式下,有個很有效的表述方式是讓R1“說人話”,或者讓R1認為“你是初中生”,他就能將復雜概念簡化為你提供更易理解的解釋。
又或者,你完全可以嘗試特定風格的寫作:用半佛仙人的風格寫一篇吐槽虎撲步行街用戶的公眾號文章
R1甚至連配什么表情包都幫我想好了??
當你讓DeepSeek幫助你完成某項工作時,提供充分的上下文背景信息,告訴他你為什么做這件事,你面臨的現實背景是什么或問題是什么,讓DeepSeek將其納入所生成文本的思考中,這可以讓結果更符合你的需要。
比如當你要DeepSeek幫你生成減肥計劃時,你最好告訴他你的身體狀況,你目前的飲食攝入和運動情況是什么樣的。
錯誤示范
幫我生成為期一個月的減肥計劃。
優化方案
我是男性,目前身高175,體重160斤,每天運動量是步行1公里,我希望1個月內瘦到150斤,請幫我制定一個運動及飲食減肥計劃。
當你向DeepSeek尋求知識型幫助時,最好能明確標注自己相對應的知識狀態。就像老師備課前需要了解學生學力水平,清晰的知識坐標能讓AI輸出的內容精準匹配你的理解層次。
像我們前面提到了告訴R1「我是初中生」或者「我是小學生」是個把自己放置在一個知識背景約等于0的知識狀態的好方式,但是當某些內容你希望能和AI深入探討時,你最好更清晰表達你在該領域的知識狀態,或者你是否存在關聯領域的知識,這能能讓AI更理解你,為你提供更精確的回答。
錯誤示范
給我講講機器學習
優化方案
我是剛接觸AI的文科生,請用生活案例解釋什么是機器學習,要求300字以內,避免數學公式
進階示例
我有三年Python開發經驗,正在學習Transformer架構,請對比RNN和Transformer在長文本處理中的性能差異,需包含注意力機制的核心公式
R1作為推理模型,現在完成任務的思維過程非常令人印象深刻。所以我很建議你提供清楚你的目標讓R1具備一定的思考空間去幫助你執行得更好,而非提供一個機械化執行指令。你應該像產品經理提需求般描述「要什么」,而不是像程序員寫代碼般規定「怎么做」。
比方說,你的產品評審會可能需要整理錄音文字稿,一種做法是直接要求如何整理,比如「刪掉語氣詞,按時間分段,每段加小標題」這也是個非常清晰明確的優質提示語;但是你同樣可以進一步思考下這段錄音文字稿所總結出的材料要如何使用,為R1提供目標,讓他創造性地為你完成任務。
普通示范
優化下面這段錄音轉錄的文字稿,刪掉語氣詞,按時間分段,每段加小標題
優化方案
優化下面這段錄音轉錄的文字稿,需要整理成可供新員工快速理解的會議紀要,重點呈現功能迭代決策與風險點
我們在第二部分提到過,AI模型具有「知識截止時間」的特性,當任務涉及模型訓練截止后的新信息(如2024年賽事結果、行業趨勢)時,或者你們公司有一些內部信息是AI不具備的時,你需要像拼圖者般主動填補缺失的圖塊。通過結構化輸入幫助AI突破知識限制,避免因信息缺乏導致出現錯誤回答。
錯誤示范
分析2024年巴黎奧運會中國代表團的金牌分布
優化方案
***上傳《2024巴黎奧運會中國奪金項目統計表》***基于我提供的奧運會數據,請分析2024年巴黎奧運會中國代表團不同運動項目的金牌貢獻率
R1的思維鏈是全透明在你明前展開的,我常常會覺得我從R1思考的過程中能收獲的信息比他給我提供的結果還多,尤其是他在展開思考你提的需求時,會做一個可能性的推測。有時,在看到這部分推測后你才發現原來自己沒有考慮到某些方面的信息,如果把對應的內容補充得更完善的話,就不需要R1去猜了。
由此,R1也能為你提供更精準的符合你需要的結果。
比方說,在下面這個案例中,R1在思考時為我們提供了三種不同的漲價方法(分階段漲價、增加產品價值、通過營銷活動轉移注意力),以及預測了我們可能具有的兩種深層需求(保持市場份額or提升品牌形象)。我們可以借此思考自己傾向的方法和目標是什么,對提示詞進行進一步的收斂,那么接下來能得到的回答也將會更加精準。
在使用R1時,以下prompt策略經驗證已基本失效,甚至部分會技巧會起反作用,比如:
1、思維鏈提示,比如要求模型一步步思考,或者提供解答問題的思維思路等,這都是完全無效甚至起反作用的策略,R1通過強化學習自己能產生更好的思維鏈了。
2、結構化提示詞,可以有,但也沒那么需要,你依然可以使用markdown格式的語句去讓信息結構更清晰,人類查看和機器閱讀的時候更好理解,但是因為你需要提示的內容少了, 所以必要性也大大衰減。
3、要求扮演專家角色,已經變得完全沒必要,現在R1本身就是專家模型專家思維,除非你是需要R1從特定學科視角為你提供解答,在那種情況下,你只需要去提示學科即可,不需要藥企專家了。
4、假裝完成任務后給獎勵之類的小技巧,也無效,甚至會被R1是笑話,所以就不要再騙AI了,省得他覺醒之后要來找你麻煩的。
5、少示例提示(few-shot),這是DeepSeek團隊在發布R1技術報告時明確建議規避的一個提示技巧,不要有示例你說清楚要求比給示例更重要。
6、角色扮演,R1不太擅長,你很難用R1去搭建一個AI女友/男友,可能是因為情感化的對話都是依賴直覺,是反深思熟慮的。
7、對已知概念進行解釋,沒必要進行解釋,比如我們文章前面提到的,當你讓AI去模仿某個作家、名人的風格時,你沒必要解釋那個作家是誰,他的風格是什么樣的,AI有自己的理解,并且在思考過程中對你所提供的概念能完成豐富和深入的解構。
??都看到這里,點贊、關注、轉發都會是對我最好的支持