精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
國內首個對標o1的推理模型發布:DeepSeek-R1-Lite初體驗!
userphoto

2024.11.21 浙江

關注

2024年9月12日,OpenAI的首個推理模型o1重磅發布。從該模型的命名也可以看出,o1走的路和GPT系列模型不是同一條,否則它就應該被命名為GPT-5了。

推理模型的推理二字,是指模型在回答問題前會主動思考,將一個復雜問題拆解為多個子問題,逐個擊破,再生成最終答案。這種方式和我們人類解決難題的過程是一樣的,回想如果我們面對一道數學難題,是不是也是同樣的思路,先思考,然后一步步解答。這個思考過程被稱為內部思維鏈(internal chain of thought)。關于思維鏈更詳細的介紹,可以看我這篇文章:《思維鏈(Chain-of-Thought)技術的背后,是人類思考問題的方式!》。

o1模型經過了思維鏈的加持后,在物理、化學和生物學等復雜學科的高難度基準任務上,表現幾乎與博士生相當。在數學編碼領域則更加出色。在國際數學奧林匹克(IMO)資格考試中,o1模型的正確率達到了驚人的83%,作為對比,GPT-4o的正確率為13%。在Codeforces編程競賽中,o1的表現達到了第89百分位(即表現超過了89%的評估對象,排名前11%)。

在接下來的幾個月里,國內的不少AI公司也在紛紛嘗試,但更多的是在應用方面,如Kimi、智譜、天工和360的推理型AI搜索。單就推理模型而言,除了上周月之暗面(Kimi)官宣的數學推理模型k0-math,并沒有太多的更新。但由于k0-math還處于PPT階段,并未真正開放使用,真實體驗如何還未可知。

然而,今天文章的主角并不是月之暗面的k0-math,而是DeepSeek(中文名:深度求索)的DeepSeek-R1-Lite。和k0-math的宣傳預熱階段不同,DeepSeek-R1-Lite是已經切切實實發布了的對標o1的國產推理模型。

關于DeepSeek

DeepSeek由知名量化私募幻方量化于2023年成立的AI初創公司,專注于開發通用人工智能(AGI)底層模型和技術。DeepSeek的產品和技術以開源為主,包括多個百億級參數的模型,如DeepSeek-LLMDeepSeek-Coder,以及混合專家模型(MoE)DeepSeek-V2V2.5。值得一提的是,該公司以高性價比和性能著稱,被稱為“AI界的拼多多”。比如,DeepSeek-V2的API定價為每百萬Tokens輸入1元、輸出2元。

在LMSYS聊天機器人競技場排名榜中,目前DeepSeek-V2.5模型綜合排名為22名。

關于DeepSeek-R1-Lite

DeepSeek-R1-Lite是DeepSeek于2024年11月20日發布的推理模型,目前已經發布的為預覽版(和OpenAI的o1一樣)。根據DeepSeek官方介紹,R1系列模型使用強化學習訓練,推理過程包含大量反思和驗證,思維鏈長度可達數萬字。該系列模型在數學、代碼以及各種復雜邏輯推理任務上,取得了媲美o1-preview的推理效果,并為用戶展現了o1沒有公開的完整思考過程。

下面是DeepSeek官方放出的基準測試對比圖。

DeepSeek-R1-Lite初體驗

目前DeepSeek-R1-Lite在DeepSeek官網上免費可用,每用戶每天使用數量限制為50次。在這里不得不吐槽Kimi探索版,每人每天只能用5次,我做個測試還得分幾天才能測試完。

DeepSeek官網:https://chat.deepseek.com/

另外需要指出的是,和o1一樣,DeepSeek-R1-Lite也是個純文本模型,目前不支持解析文件。

1. 幾何推理

一個圓的半徑為10,在其內部隨機選擇兩點,計算這兩點之間的平均距離。

先上結果。這道需要用到積分的題目結果完全正確

附上DeepSeek-R1-Lite長達61秒的思考過程。

2. 組合數學

一個班有12名男生和10名女生,要從中選出6人組成一個小組,要求至少有2名女生,問有多少種不同的選法?

19秒就得到了答案65769,完全正確。并且還附上了一個反向思考的驗證過程,有點厲害。

3. 邏輯推理

觀察以下數列,推斷規律并預測下一個數字:2,6,15,31,56

這道題目,相鄰數字的差值為遞增的平方數4,9,16,25。所以下一個數字應該是56加36,92。回答正確

4. 真假話推理

三個囚犯 A、B 和 C,分別戴著紅帽或藍帽(但無法看到自己的帽子)。守衛說:“至少有一個囚犯戴著紅帽。” A 說:“我不知道我的帽子顏色。” B 說:“我也不知道。” C 說:“我知道了。” 問 C 的帽子是什么顏色?

總算有一道題難倒DeepSeek-R1-Lite了,回答錯誤。這道題其實可以簡單思考,只有A藍B藍的情況下,C才能根據“至少有一個紅帽”來斷定自己的帽子顏色。所以C應該是紅色。

經過檢查DeepSeek-R1-Lite的思維鏈,我發現它把自己繞進去了,直到最后也沒能繞出來,屬于“過度思考”了。

作為對比,附上o1-preview的答案。

結語

在測試過程中,我還遇到了中英文思考、輸出混亂的問題。但綜合來看,DeepSeek-R1-Lite已經展現出了一個推理模型應有的推理能力,并且還是免費使用,值得嘗試。

本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
大模型“618大促”,硝煙下的真相
蘋果研究員質疑大模型!我們測試了6款,發現了4大真相
中國大模型價格戰背后的真相
大模型價格戰,還能再狠一點
GPT-4現場被端側小模型“暴打”,商湯日日新5.0:全面對標GPT-4 Turbo
烏鴉AI日報:小紅書內測自研大模型“小地瓜”,OpenAI 在歐盟面臨隱私投訴
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 柘荣县| 同江市| 芒康县| 芷江| 木兰县| 图们市| 琼结县| 大邑县| 个旧市| 连山| 淳安县| 杨浦区| 淳化县| 唐山市| 中阳县| 彭泽县| 新晃| 芦山县| 玉门市| 甘洛县| 仪征市| 濮阳市| 西林县| 长治市| 博白县| 册亨县| 蓝田县| 卢龙县| 广宗县| 温州市| 北宁市| 五指山市| 社旗县| 扬州市| 石林| 通州区| 彭州市| 巴里| 阿坝县| 多伦县| 田阳县|