精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
用AI做考研數學一,我得了136分
技術進步,特別是AI,已經在很多領域帶來了革命性的變化。現在有很多人對于大模型的應用還存在有一定的排斥,尤其在日常的大學數學學習與教學中,認為大模型的出現不利于學生更扎實、認真地的學習。其實,任何技術的出現都有其雙面性,在大學數學基礎課的學習過程中,我們認為,好的大模型對于咱們更好地理解問題,打牢基礎,解題能力和學習效率的提升還是具有很大作用的,尤其能夠彌補像高等數學、線性代數、概率論與數理統計這樣的大班教學與學習環節中的實時反饋的不足,針對學生日常遇到的基礎、常規性的問題能夠提供及時的互動。
當前國產大模型的大學數學基礎課程的解題能力究竟如何,它們又能怎樣促進我們解題能力的提升,及時幫助我們解決學習中遇到的問題呢?我們借助2025年考研數學一試卷(相對來說考研數學一、二、三中,應該數學一最難,覆蓋內容最廣),一起來測試一下當前具有代表性的四家國產大模型,看看它們的真實智商水平到底如何。我們選擇的四家大模型及版本如下(都選擇電腦網頁版):
  • Kimi:點選新推出的Kimi k1 視覺思考版,如下圖,打開網站后點擊下面的“Kimi k1 視覺思考模型搶先體驗”,進入最新的思考模型版本。網址:
https://kimi.moonshot.cn
  • DeepSeek:打開“深度思考”,如下圖,打開網站后點擊下面的“深度思考”開關,使其從黑色變為藍色即為打開狀態。網址:
https://chat.deepseek.com
  • 字節豆包:處理方式沒有選擇,選用默認模式。可以在操作時點擊列出的“解題答疑”,如下圖,也可以不選擇直接輸入。網址
https://www.doubao.com/chat
  • 文心一言:非會員默認為文心大模型3.5,為了測試的公正性,咱們選擇了會員版的最高級版本:文心大模型4.0 Turbo.  同樣輸入會話框沒有選擇,采用默認模式。網址:
https://yiyan.baidu.com
2025年考研數學一試卷的測試題目來源于公眾號:考研競賽數學 排版推送的推文,在以圖片方式輸入時使用的是帶有水印的圖片,答案也對照推文中的答案(點擊查看).  
那么,這些大模型在解題過程中給出的步驟究竟如何,能夠給與我們怎樣的解題、學習,答疑解惑的提示呢?哪個模型給出的解題思路更完整、更規范,哪個的參考性與實用性最大呢?我們分兩種方式一起來測試一下。
批量問題求解風格對比
首先,我們將所有選擇題集中到一張圖片來測試四個大模型的圖片識別與批量解題能力,提示詞統一為:給出這10個選擇題的求解過程與正確選項。上傳的圖片如下:
測試過程中對于結果對的直接給5分;對于得到了可以直接判定結果的表達式,而選項錯誤的題目給2.5分,過程沒有直接可以得到結果的表達式和答案都錯的給0分。最終四個模型分數(總分50分)及對比分析如下:

  • Kimi視覺思考版(37.5)
    兩次測試綜合得分37.5分,Kimi最大的優勢是針對每個題目都提供了詳細的探索過程,批量圖片識別和解題能力還是比較完美和值得肯定的。尤其是每個題目都給出了必要的分析、求解過程,既使沒有做對,也可以給與我們解題過程一定的啟示。如下圖。

  • DeepSeek深度思考模型(15分)
    不管是深度思考過程和解答過程都非常簡單,沒有必要的求解步驟和過程,最終得分也不是很理想,得分僅僅15分。

  • 豆包(10分)
    求解過程相對于DeepSeek有所完善,但是正確率不高,綜合得分10分。

  • 文心一言
    對于這樣批量輸入一次求解基本上沒法執行,每個題目都沒有明確的結果,給出的說明、提示也模棱兩可,完全需要用戶重新思考與探索。

對于批量題目圖片上傳測試結果來看,Kimi視覺思考版結果相對來說還是比較滿意的,對比而言優勢比較明顯。那么,對于單個題目它們的表現如何呢,我們也一起來測試對比一下。
單個題目求解分數對比
測試說明:為了真實測試四個大模型的真實數學解題能力,我們以完整題目的Latex文本格式,或者單個題目圖片上傳的方式逐題進行測試,對于四個大模型采取了兩次測試的方式獲取分數,如果第一次就測試正確,則不使用第二次;如果第一次不正確,則重新做一遍,兩次不對就不再測試。對于簡答題,根據解答過程給出了步驟分,而對于19題的證明題,導數單調證明不等式成立的過程都比較嚴謹,第二步的證明大體都差不多,所以統一給出了6分。最終分數對比如下:
最終的測試結果來看,本次考研數學初試數學成績,Kimi視覺思考模型、DeepSeek深度思考模型達到了不可思議的130分以上,豆包92分也及格了,文心一言82分也接近及格。
我記得今年年初的時候,感覺一些大模型做數學題還完全不盡人意,經常答非所問,沒想到到了今年年底,卻有如此進步,確實難得!
對于單個題目的求解風格,我們在選擇題(概率論與數理統計題)、填空題(線性代數題)、解答題(高等數學題)中各選題目的解答過程對比一起來分析一下。

單個題模型解題風格對比

1、選擇題測試選擇題第8題

Kimi視覺思考版解答過程:
DeepSeek深度思考模型解答過程
豆包解答過程
文心一言解答過程
測試結果點評對于概率論與數理統計的考研題,四個模型解答過程、結果都不錯,而且都是一次答對!這也反映出歷屆考研試題中出現的概率統計題應該普遍都是比較經典的問題,題型、解題方法比較固定!具體表現如下:
  • Kimi解答過程規范,過程詳盡,可閱讀性強,比較符合咱們的自己常見的求解思路與過程。有些求解過程有明確的解題步驟提示,思路過程分析,具有自我糾錯和結果驗證過程,對于我們日常解題訓練具有比較好的指導意義和參考價值
  • DeepSeek:最終給出的過程簡明扼要,不足的是最終的結果顯示為一個代碼。而其深度思考、分析過程則非常詳盡,并且給出了結果的檢驗過程和各種情況的討論,對于其中涉及到的知識點、方法有一定的啟示意義。最終給出的過程選擇的最值確定方法和Kimi思路一致。可閱讀性需要進一步加強,尤其是最終結果的顯示一般為Latex文本。
  • 豆包:豆包給出的過程步驟明確,并且附帶了相關知識點、公式的回顧,然后代入公式計算得到結果,其最值的確定則選用了均值不等式,簡明扼要,也不缺少必要的步驟。
  • 文心一言:步驟過程簡明扼要,只是排版不是很規范,選用的最值確定方法與豆包相同。

2、填空題測試填空題第11題

Kimi視覺思考版解答過程:
DeepSeek深度思考模型解答過程
豆包解答過程
文心一言解答過程
測試結果點評:對于線性代數的考研題,可能這個題目原因,條件理解的復雜性,模型對問題的理解不是很到位,雖然三個模型做對,但是解答過程不是很符合題目的條件,也不完全符合填空題的求解思路。
  • Kimi:題目意思理解不完全正確。但是給出的討論步驟卻還可以。行列式的計算采用降階法,利用行列式等于0得到了結果。不過后面又多了很多冗余的步驟,當然,自己也說明了自己的討論可能沒有必要!最后進一步明確了結果,總體來說,還不錯
  • DeepSeek:深度思考和最終給出的過程比Kimi相對簡明扼要,當然也出現了多余的討論步驟,同樣的不足的是最終的結果顯示為一個代碼。其求解分析步驟和Kimi差不多,不過Kimi降階法的過程更詳細,對于我們理解這一方法更有實際意義
  • 豆包:對于這個題目的表現應該來說還不錯,其給出的過程有助于我們進一步了解兩個方程組的解的關系的判定。行列式的計算同樣選擇了降階法,并且給出了詳細步驟,它的第2步完全可以作為這個題目的求解過程使用
  • 文心一言:彎彎繞繞分析一大堆,最終沒有給出需要的結果,對于這個題目的求解應該來說完全失敗,而且分析過程也不完整,讓人總感覺意猶未盡!而且兩次測試都做錯,并且得到的結果都是負1.
3、簡答題測試
簡答題第17題:
Kimi視覺思考版解答過程:
DeepSeek深度思考模型解答過程
豆包解答過程
文心一言解答過程
測試結果點評:對于這個高等數學的考研題,應該是非常經典的問題,有理函數的定積分。總體來說前三個模型表現不錯,給出正確求解過程對于這類問題的求解具有參考借鑒意義!
  • Kimi過程規范,完全可以作為這個題目的標準解答過程
  • DeepSeek:過程相對規范,不過給出的最終解答過程沒有Kimi詳細,對于有一定基礎的同學能夠直接理解其各中間過程,其思路方法、包括深度思考分析也和Kimi差不多。
  • 豆包:同樣對于這個題目的表現應該來說還不錯,其給出的過程雖然稍顯啰嗦,但是對于對于相關步驟的理解具有一定的參考意義
  • 文心一言:最大的失誤竟然是部分分式分解錯誤. 如果這個部分不錯,后面的積分過程還是一個有效過程,個人認為這是一個不應該出現的錯誤,畢竟屬于初等數學的內容!而且兩次測試都出錯了!
對于四個模型Kimi和DeepSeek對于解題相對來說過程一般就題論題,解答過程比較專業、嚴謹,正確率比較高!測試過程中表現出來的解題思路,兩個模型的相似度比較大而豆包與文心一言的解題過程與步驟則有類似的地方,不過豆包相對來說比文心一言表現要好!它們兩個最大的一個不同就是,在題目的最后給出了與當前問題密切相關的知識點、方法擴展性內容提示。
比如點擊豆包后面的“常用的積分方法有哪些?”,系統會給出一些常用的計算方法的基本原理適用的情況,如下圖。
這些總結性的內容對于我們加強相關知識點的復習很有參考價值,而且還會繼續給出相關內容的提示與引導,從而在層層推進中更加系統化深入理解某些專題內容。
在測試過程中還發現一個有意思的過程:Kimi的多次驗證確保正確的過程分析
這樣的過程不是針對于每個題目都會出現,而且每次測試的時候返回的結果與過程也不一樣!不過對于這個題目一般都可以得到正確的結果!這樣的分析過程對于相關問題的求解思路方法的理解,使用過程中要注意的事項都提供了一個比較好的分析
同樣過程也出現在DeepSeek的深度思考過程中,并且通過對比分析最終選擇一個相對有效的過程給出解答過程!而這樣的過程在豆包和文心一言中不會出現,一般都是相對比較直接的得到結果。

總  結

通過全套試卷的測試對比,可以看到:
  • Kimi視覺思考版和DeepSeek的深度思考模型:在批量題目的解答上,Kimi的優勢非常明顯,解答過程也更規范,排版效果非常直觀,對于有些題目的執行過程還有自我糾錯、結果驗算的過程;而DeepSeek的深度思考過程,也給出解答過程的思路分析和探索過程,最終給出的答案是經過多重遴選的結果。

    總的來說,Kimi的思路探索、解題步驟,尤其是對圖片的識別表現非常出色,136分的表現令人驚喜

  • 豆包和文心一言:豆包相對來說表現比較穩定,給出的推導步驟相對來說比較簡潔,正確率還是有一定的保證。同時,對于有些問題的求解條理非常清晰,過程步驟比較明顯,很多時候還給出了知識點提示。相對來說,文心一言可能側重點不同,對于一些非常常規的問題能夠給出簡要解答過程和正確結果,但是對于一些簡單問題也不能完成基本的計算,另外不同的一點是,不像Kimi和DeepSeek,在做不出來的時候,它們會進行各種嘗試,可以說會窮舉很多與問題相關的方法,盡一切可能來探索問題的求解思路,而文心一言則僅僅給出文字思路提示,告訴我們它做不下去了!

    不過豆包和文心一言比較的好的地方是,它們在解答之后會給出進一步探討的三個提示詞鏈接,點擊可以進一步了解與問題相關的知識點、方法,有助于咱們進一步加強與提交問題相關的內容的理解與系統化學習。

以上是咱號對于四個大模型的比較分析,其中優劣應該從以上的測試結果和對比分析中應該有所認識,實際效果需要學友們進一步自行檢測,畢竟每次提交可能結果都可能不相同,有時候還會差別比較大!以上測試過程除了文心一言使用的是會員版的模型外,其他模型只要注冊就可以免費使用,至少在測試過程中貌似沒有任何限制。
本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
Kimi的數學模型來了,這次甚至能挑戰高考
豆包揭示了字節未來布局的野心,12家大模型公司的未來發展分化已有征兆
幻方大模型概念股梳理
AI寫作|國產最強AI寫作大模型,不是KimiChat(內附指令)
火山引擎“奇襲”阿里云
大模型“價格戰”爆發,誰能搶占商業化制高點?|價格戰
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 大英县| 邵阳县| 富锦市| 枣强县| 黄冈市| 修武县| 宝鸡市| 黎川县| 安新县| 石泉县| 钟祥市| 两当县| 土默特左旗| 定西市| 西充县| 时尚| 固阳县| 崇仁县| 绥化市| 牟定县| 墨竹工卡县| 诏安县| 万载县| 巴彦淖尔市| 岳阳县| 庄河市| 益阳市| 富民县| 龙岩市| 施甸县| 阜新市| 安吉县| 辽宁省| 平陆县| 清原| 玛曲县| 巩留县| 辽中县| 拉孜县| 祁东县| 黔西|