久久精品夜色噜噜亚洲A∨,图片区,欧美在线看费视频在线

2024年9月12日，OpenAI的首個推理模型o1重磅發布。從該模型的命名也可以看出，o1走的路和GPT系列模型不是同一條，否則它就應該被命名為GPT-5了。

推理模型的推理二字，是指模型在回答問題前會主動思考，將一個復雜問題拆解為多個子問題，逐個擊破，再生成最終答案。這種方式和我們人類解決難題的過程是一樣的，回想如果我們面對一道數學難題，是不是也是同樣的思路，先思考，然后一步步解答。這個思考過程被稱為內部思維鏈（internal chain of thought）。關于思維鏈更詳細的介紹，可以看我這篇文章：《思維鏈(Chain-of-Thought)技術的背后，是人類思考問題的方式！》。

o1模型經過了思維鏈的加持后，在物理、化學和生物學等復雜學科的高難度基準任務上，表現幾乎與博士生相當。在數學和編碼領域則更加出色。在國際數學奧林匹克（IMO）資格考試中，o1模型的正確率達到了驚人的83%，作為對比，GPT-4o的正確率為13%。在Codeforces編程競賽中，o1的表現達到了第89百分位（即表現超過了89%的評估對象，排名前11%）。

在接下來的幾個月里，國內的不少AI公司也在紛紛嘗試，但更多的是在應用方面，如Kimi、智譜、天工和360的推理型AI搜索。單就推理模型而言，除了上周月之暗面（Kimi）官宣的數學推理模型k0-math，并沒有太多的更新。但由于k0-math還處于PPT階段，并未真正開放使用，真實體驗如何還未可知。

然而，今天文章的主角并不是月之暗面的k0-math，而是DeepSeek（中文名：深度求索）的DeepSeek-R1-Lite。和k0-math的宣傳預熱階段不同，DeepSeek-R1-Lite是已經切切實實發布了的對標o1的國產推理模型。

關于DeepSeek

DeepSeek由知名量化私募幻方量化于2023年成立的AI初創公司，專注于開發通用人工智能（AGI）底層模型和技術。DeepSeek的產品和技術以開源為主，包括多個百億級參數的模型，如DeepSeek-LLM、DeepSeek-Coder，以及混合專家模型（MoE）DeepSeek-V2和V2.5。值得一提的是，該公司以高性價比和性能著稱，被稱為“AI界的拼多多”。比如，DeepSeek-V2的API定價為每百萬Tokens輸入1元、輸出2元。

在LMSYS聊天機器人競技場排名榜中，目前DeepSeek-V2.5模型綜合排名為22名。

關于DeepSeek-R1-Lite

DeepSeek-R1-Lite是DeepSeek于2024年11月20日發布的推理模型，目前已經發布的為預覽版（和OpenAI的o1一樣）。根據DeepSeek官方介紹，R1系列模型使用強化學習訓練，推理過程包含大量反思和驗證，思維鏈長度可達數萬字。該系列模型在數學、代碼以及各種復雜邏輯推理任務上，取得了媲美o1-preview的推理效果，并為用戶展現了o1沒有公開的完整思考過程。

下面是DeepSeek官方放出的基準測試對比圖。