精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
學會反思的國產大模型,真變強了?

真正能夠像人類一樣進行邏輯推理的大模型,距離我們還有多遠?

隨著OpenAI推出更側重推理能力的 o1大模型,推理大模型正成為行業新的競爭方向。本周一,月之暗面推出的Kimi探索版,成為國產推理大模型的最新代表。

讓大模型學會推理的訣竅是什么?各家廠商都提到了一個關鍵詞——反思。通過將復雜問題一步步拆分,并且對每一步的輸出結果進行反思檢驗,是降低大模型幻覺的有效途徑。而這樣的思路,看上去與人類的邏輯推理確實有一定相似性。

不過經過實測,我們發現現有大模型的邏輯推理能力仍然難以讓人滿意,這背后可能仍然繞不開大模型底層原理的限制。

但有趣的是,為了提高推理能力,國產大模型在使用工具的路上越走越遠,反而可能是當下最現實的大模型落地途徑之一。

推理大模型,真的會做題嗎?

上周五,月之暗面宣布推出Kimi探索版,并于本周一正式上線。

據官方介紹,Kimi探索版具備AI自主搜索能力,可以模擬人類的推理思考過程,多級分解復雜問題,執行深度搜索,并即時反思改進結果,提供更全面和準確的答案,幫助你更高效地完成分析調研等復雜任務。

那么實測來看,Kimi探索版實力究竟如何?

談到推理能力,人們往往最先想到的是數學。很多測評都使用高等數學題目去測試大模型的推理能力,并且往往能夠取得不錯的效果。

不過從實用層面來看,大部分用戶的需求并不是求解高數,而是解決日常生活中的應用題。

所以,我們打算讓Kimi替最近上市的新車樂道L60算筆賬。

蔚來換電體系下獨特的BaaS電池租賃方案,讓不少消費者在計算用車成本的時候也感到頭疼,樂道L60發布會后,到底怎么買更劃算引起了網友熱烈討論,不少網友甚至搬出了專業的會計知識。

我們問Kimi的問題是這樣的:分析樂道L60車輛采用BaaS方案下的每年用車成本,BaaS方案和電池買斷方案哪個更劃算。

可以看到,Kimi正確理解了BaaS的含義,雖然沒有意識到樂道是換電而不是充電,不過按充電成本算也沒有太大出入,整個邏輯基本是清晰的。

問題在于,雖然一開始提到了購車價格,但是在總用車成本的計算上,Kimi卻并沒有加上購車成本的折舊,沒達到我們想要的效果。

于是,我們要求Kimi把折舊成本考慮進去,結果是這樣的:

在最后的結論里,Kimi對購車價格和折舊成本進行了重復計算,顯然是錯誤的。而這個錯誤,恰恰說明Kimi對于成本和折舊的邏輯理解還存在不足。

作為對比,我們用ChatGPT-4o mini測試了相同的問題,發現4o mini可以正確理解包括折舊、BaaS在內的各項成本的邏輯,可是卻沒有正確獲得車輛的價格。

也就是說,Kimi并沒有表現出比GPT-4更好的邏輯能力,但是在中文信息檢索能力上卻更加優秀。事實上,后者也是Kimi真正的強項所在,后面我們會再次討論這一點。

不過在此之前,我們還發現了一個相對小眾的選手——學而思九章大模型,也相當值得關注。

提到學而思,大家都知道它是以教培起家,尤其擅長數學教學。而九章大模型也繼承了學而思的特長,專攻教育領域,并且宣稱有更好的數學能力。

當我們以上述問題測試九章大模型時,它的表現非常出色——不僅能正確理解車輛殘值、成本均攤等邏輯概念,還具體獲得了樂道BaaS“滿四減一”優惠、實際電耗水平等信息,因此給出的答案更能解決問題。

但美中不足的是,它并沒有給出車輛折舊的具體數字,導致最終沒有輸出一個明確的答案。

這究竟是一個缺點,還是優點?其實從邏輯來看,九章這么做的原因,應該是同樣出于“具體問題具體分析”的理念,由于自己沒辦法確定相關車輛的具體折舊率,因此就直接說明自己的不確定,充分保證了答案的嚴謹性。

看上去,九章的確更像是一個嚴謹、可靠的數學模型。

AI可能還沒有學會推理

強化大語言模型的推理能力,在技術上是怎么實現的?大家都提到了一個關鍵詞——反思。

月之暗面方面指出:就像人一樣,Kimi探索版可以借助反思能力,來提升和改進回答的質量。面對開放探索型問題,Kimi探索版發現第一次回答的信息存在缺失,會主動補充回答更多。面對數字相關的搜索問題,Kimi了解更多信息后如果發現了數據沖突,則會及時補充提供多方視角的信息供參考決策。

從上面的演示中可以看到,Kimi會把自己的思考過程展示出來,讓用戶明確看到自己進行了一次補充檢索。

九章大模型負責人白錦峰進一步解釋說,同大模型類似,人類在幼年時期同樣缺乏邏輯能力,會產生幻覺。但隨著人類的成長,會逐漸學會邏輯推理,讓自己的觀點在邏輯上自洽,并拿觀點去跟已經存在的事實進行校驗,從而消除幻覺。

白錦峰表示,目前大語言模型的第一性原理是Next Token Prediction,也就是通過預測下一個字符的方式給出答案,而這種預測是基于概率的,這決定了大模型一定會有出錯的概率。

為了提升準確率,目前的推理大模型普遍應用了CoT(思維鏈)和Voting&Verifier兩種算法,前者將復雜問題拆分為多個步驟,后者則對于每一步的結果進行反思,多做幾次檢驗來找到一致性最高的答案。

這兩種算法模仿了人類思維方式中的校驗過程,但其實仍然是基于概率,而不是邏輯推理。白錦峰指出,為了真正保證結果的正確性,大模型還需要應用定律的技術,例如學會使用數學定律來解決問題。

但是在應用定律方面,大模型仍然存在根本性的難點。白錦峰舉例說,像加法交換律(a+b=b+a)這樣簡單的定律,人類可以直接理解公式,但是大模型只能通過窮舉大量的案例(1+2=2+1等)來悟到這個規律。

因此,對于當前的大模型技術能否真正實現推理能力,很多人并不樂觀。美國著名AI科學家Yann LeCun近日就尖銳地表示,當下的模型“似乎在進行推理,但實際上它們只是在重復已經訓練過的信息”,按照現有訓練方式,無論多少GPU都不會讓我們實現AGI。

蘋果AI團隊的最新研究也認為:大語言模型在相同問題的不同版本上表現出高性能差異、難度略微增加時性能大幅下降以及對無關信息的敏感性,表明其推理能力很脆弱。它可能更像是復雜的模式匹配,而不是真正的邏輯推理。

從大模型到Agent

盡管以AGI的標準來衡量,目前的推理大模型還遠遠不夠完善,但是從實用層面,國產大模型正在這輪推理競賽展現出了一個重要進化——調用工具。

例如,九章大模型在解決數學問題的時候,采用了一個看似原始卻非常實用的辦法——直接調用計算器。就像人類一樣,學會使用工具,也是AI應當具備的能力。

Kimi調用的工具則是搜索引擎。Kimi探索版在回答問題時,最高能夠搜索并精讀500個網頁,相較于此前版本提升了10倍。

而且我們在實測中發現,Kimi列出的參考頁面普遍都來自較為權威的站點,內容質量也相對較高。在開放性的問題中,Kimi能夠充分保證輸出的客觀和準確性,這才是探索版給我們印象最深刻的地方。

Kimi 探索版產品負責人表示,“如果 Kimi 搜不到的信息,那大概率用戶也很難自己通過傳統搜索引擎找到。未來搜索引擎會成為AI更擅長調用的工具,人只需要專注于提出好的問題,AI就可以結合模型本身的能力在龐大的互聯網中自主海量搜索,不斷反思迭代,更精準地找到所需答案。”

對于大部分普通用戶來說,這話并不夸張。

從本質上講,調用工具使得這些模型更接近于AI Agent的概念。尤其是對于Kimi探索版,相當于替用戶完成了網頁檢索的任務,并且能夠幫助用戶去除搜索引擎中大量的低質量和營銷內容,實用性極強。

如果說,當前的AI理論本身就限制了大模型難以實現真正的邏輯能力,那么在理論突破之前,如何最大化模型的實用性,讓AI從Copilot向Agent盡可能地邁進,就是當下最重要的命題。

此外,從Kimi、九章的表現來看,國產大模型如今繼續提升實用性的方式,并不一定是增加規模,或者提出什么獨特的算法,而是通過專注于自己最擅長的垂直領域來提升準確率,并形成獨特護城河。

白錦峰舉例說,對于教育大模型來說,能答對問題和能教好學生之間,仍然存在區別。例如同樣是除法,用除號還是用分號來表示,在教學中就是不一樣的。對于小學生來說,因為還沒有學過分數,所以用分號就是錯誤的回答。因此,學而思利用自己長期積累的教材和教師資源,能夠做出更好的教育大模型。

專注垂直,也能夠讓成本更加可控。學而思方面人士向觀察者網直言,大模型初期投入是不可避免的,目前也看不到直接的回報,但投入又是必須要做的,否則等到技術成熟再發力,早就失去了上牌桌的機會。

但是學而思并沒有選擇去自己研發基座大模型,而是基于開源大模型的基礎,在百度云上進行千卡規模的訓練,以可控的成本實現了不錯的性能。

因此,國產推理大模型當下給我們的最大啟示,或許仍然是實用為王。

本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
用AI搜索【kimi探索版】來輔助股票投資,效率提升10倍!
大模型開啟「長」時代,楊植麟的新公司把對話框容量做到了世界第一
12個問題帶你系統認識AI
Kimi試水商業化,為什么從打賞開始?
免費的大模型長文本來了,但要多久才能徹底改變我們的生活?
Kimi掀起國產大模型長文本競賽 推動AI應用端預期提升
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 武城县| 洛川县| 突泉县| 南溪县| 樟树市| 凤冈县| 沂南县| 沽源县| 临城县| 团风县| 临江市| 万荣县| 湖北省| 汉中市| 朝阳区| 福建省| 平顺县| 大悟县| 疏勒县| 桂东县| 拉萨市| 桑植县| 屏边| 青浦区| 荔波县| 珠海市| 揭阳市| 常德市| 广汉市| 富平县| 威远县| 永州市| 内江市| 老河口市| 信阳市| 封开县| 濮阳市| 遂平县| 万载县| 太谷县| 韩城市|