精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
DeepSeek新模型霸榜,寫代碼與o1相當,網友:今年編程只剩Tab鍵

夢晨 西風 發自 凹非寺

量子位 | 公眾號 QbitAI

DeepSeek版o1,有消息了。

還未正式發布,已在代碼基準測試LiveCodeBench霸榜前三,表現與OpenAI o1的中檔推理設置相當

注意了,這不是在DeepSeek官方App已經能試玩的DeepSeek-R1-Lite-Preview(輕量預覽版)

而是摘掉了輕量版的帽子,稱為DeepSeek-R1-Preview(預覽版),意味著替換了規模更大的基礎模型

LiveCodeBench團隊透露,他們正在與DeepSeek合作評估新模型的能力,在合作過程中,DeepSeek團隊還幫他們找出并解決了評分系統的一些bug。

與此同時,他們還曬出了目前僅有的一張DeepSeek-R1-Preview的思考過程。

鑒于DeepSeek此前已宣布R1模型將開源,有網友表示,與OpenAI o1編程能力相當的開源模型即將發布,2025年的編程就只剩下按Tab鍵了。

DeepSeek推理大模型滿血版

兩個月前,DeepSeek在官網上線DeepSeek-R1-Lite-Preview時曾透露:

DeepSeek-R1-Lite-Preview使用強化學習訓練,推理含大量反思和驗證,遵循新的Scaling Laws——

推理越長,表現越強。

在AIME測試基準中,隨著推理長度的增加,DeepSeek-R1-Lite-Preview表現出穩定的得分提升。

DeepSeek-R1-Lite推理的特點在網友們的后續測試中也得到了驗證:

在某些情況下,模型似乎能夠在生成推理步驟時自我糾正,表現出類似原生“自我反思”的能力。不過,沒有訓練數據、模型架構和技術報告/論文的細節,很難確認這一點。

期待未來的開源模型和API!

摘掉Lite的帽子,變成DeepSeek-R1-Preview,意味著換了更大的基礎模型。

之前Lite版就在難度較高數學和代碼任務上超越o1-preview,大幅領先GPT-4o。

這次在LiveCodeBench上,這次的DeepSeek-R1-Preview的表現又與OpenAI o1-Medium相當,網友們更加期待開源模型和API了。

LiveCodeBench由UC伯克利、MIT和康奈爾大學團隊推出,旨在對大模型的代碼能力進行全面且無污染的評估。

具體避免測試數據泄露的方法,是隨著時間的推移不斷從人類的編程競賽平臺收集新的題目。

除了代碼生成,還會評估模型在代碼自修復、執行和測試輸出預測等方面的能力。

這樣實時更新、確保公平性和可靠性的測試方法,獲得了開發者社區的認可。

還有程序猿喊話Cursor直接把R1-Preview集成到Agent mode里:

One More Thing

趕在春節前,許多還在做訓練的國產大模型團隊,都把自家模型更新了一遍:

MiniMax開源4M超長上下文新模型!性能比肩DeepSeek-v3、GPT-4o

全球首次!國產AI開源端側GPT-4o海外爆火,8B參數iPad就能跑

國內數學最強!實測訊飛版o1:上能打奧賽卷高考,下能輔導寒假作業

阿里開源首個視覺推理模型,擊敗GPT-4o,網頁一度404

……

OpenAI似乎要趁這邊放假開始搞事情了(狗頭),奧特曼發帖透露:

o3-mini完成外部合作測試,已確定最終版,將在幾周內推出,會同時上線API和ChatGPT。

在后續對話中,奧特曼還確認了未來模型更多基本情況:

  • o3-mini的速度會非常快
  • o3-mini大多數情況下不如o1-pro
  • o3 pro收費從$200/月起步
  • OpenAI正在關注如何讓AI一次性輸出更多內容
  • 2025年計劃把GPT系列和o系列合并

參考鏈接:
[1]https://x.com/StringChaos/status/1880317308515897761
[2]https://x.com/deepseek_ai/status/1859200149844803724
[3]https://x.com/sama/status/1880356297985638649

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態

本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
OpenAI 的 o1 模型為何不被稱為 GPT-5?
考研數學得126分、還能編寫小游戲,智譜首個推理模型來了,人人免費用
國內首個對標o1的推理模型發布:DeepSeek-R1-Lite初體驗!
大模型“618大促”,硝煙下的真相
中國大模型價格戰背后的真相
2024,“大模型六小虎”逐夢AI圈
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 库车县| 金山区| 阿城市| 互助| 永嘉县| 都昌县| 隆尧县| 云南省| 淅川县| 华安县| 布尔津县| 香格里拉县| 仁布县| 灯塔市| 连平县| 军事| 铜鼓县| 天柱县| 社会| 娱乐| 疏勒县| 米脂县| 玉龙| 宝清县| 鹤峰县| 宜宾市| 鹤庆县| 岫岩| 积石山| 贵州省| 安多县| 永仁县| 扶沟县| 吉水县| 鄱阳县| 新泰市| 福建省| 阜宁县| 正蓝旗| 肃宁县| 平安县|