精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
炸場硅谷,大模型“蒸汽機”迎來“瓦特時刻”

大模型這臺蒸汽機,

急需要一個“瓦特”

作者 | 曾響鈴

文 | 響鈴說(xiangling0815)

中國大模型又在包括硅谷在內(nèi)的全球AI圈炸場了。

兩天前,幻方量化旗下AI公司深度求索(DeepSeek),以及月之暗面相隔20分鐘相繼發(fā)布了自家最新版推理模型,分別是DeepSeek-R1以及Kimi 全新多模型思考模型k1.5,且都給出了非常詳盡的技術(shù)報告, “中國雙子星”很快引發(fā)全球AI圈的關(guān)注。

在社交軟件X上,包括英偉達(dá)AI科學(xué)家Jim Fan在內(nèi)的全球AI從業(yè)者紛紛發(fā)出了自己的感嘆:

相關(guān)數(shù)據(jù)顯示,區(qū)別于過往類o1-preview模型,這次兩家中國公司正面硬剛OpenAI o1,發(fā)布的都是滿血版o1,而Kimi k1.5還是具備視覺思考的多模態(tài)。

表面上,是中國大模型某種程度上又一次在技術(shù)能力上直起了腰,而全球AI從業(yè)者的“圍觀”,本質(zhì)上則透露出業(yè)界對大模型這臺“蒸汽機”能夠盡快出現(xiàn)屬于自己的“瓦特”的期許。

01

大模型這臺蒸汽機,急需要一個“瓦特”

大模型對時代的意義,不亞于蒸汽機之于工業(yè)革命。

但正如蒸汽機是在發(fā)明之后,是經(jīng)過一段時間的改進(jìn),尤其是瓦特的改進(jìn)后才正在成為工業(yè)革命驅(qū)動力一樣,大模型這臺“蒸汽機”要想大展拳腳,還一直處在不斷改進(jìn)之中。

那個屬于它的“瓦特”,還一直沒有到來,所有從業(yè)者都在熱切期待這個時刻。

參與的人越多,“瓦特時刻”出現(xiàn)的可能性就越大,只有一個遙遙領(lǐng)先的OpenAI未必符合業(yè)界的普遍期許,當(dāng)出現(xiàn)了與之肩并肩的DeepSeek、Kimi,關(guān)鍵進(jìn)化的可能性變得更大,炸場AI圈就成為普遍期待下的必然。

而回看DeepSeek與Kimi這對中國雙子星,他們發(fā)布的模型呈現(xiàn)了很多相似之處,都側(cè)重以強化學(xué)習(xí)(RL)為核心驅(qū)動力(即在僅有極少標(biāo)注數(shù)據(jù)的情況下,極大提升模型推理能力)。

具體來說,二者在實現(xiàn)方式上都不需要進(jìn)行像 MCTS 那樣復(fù)雜的樹搜索(只需將思維軌跡線性化,然后進(jìn)行傳統(tǒng)的自回歸預(yù)測即可),也不需要配置另一個昂貴的模型副本的價值函數(shù)、不需要密集獎勵建模,只盡可能多的依賴事實和最終結(jié)果。

很明顯,這些,都在提升推理模型的運行效率、降低資源需求,而有意思的是,這同樣是當(dāng)年瓦特改造蒸汽機的方向,他在眾多改造中最完美地實現(xiàn)了這些目標(biāo)。

歷史,總是驚人的相似。

值得一提的是,在這次中國雙子星炸場的過程中,OpenAI薩姆·奧爾特曼也加入其中,只不過他發(fā)揮了一貫的“陰陽”技能,“AGI不會下個月就到來”,在一片贊譽甚至狂歡中,暗地里諷刺社交平臺的關(guān)注是不是太過瘋狂。

實際上,AGI確實不是短期能做到的,但這并不是制止全球從業(yè)者歡欣鼓舞的理由。蒸汽機花了很長時間才完成進(jìn)化能夠走入工廠,大模型也需要這樣的過程才能實現(xiàn)對社會進(jìn)步的全面賦能,也正因為如此,每一次對這個進(jìn)程的縮短,都值得每一個從業(yè)者欣慰。

02

中國雙子星,讓業(yè)界看到“瓦特”的更多可能性

具體到技術(shù)層面,當(dāng)仔細(xì)分析中國雙子星尤其是Kimi的SOTA模型能力后,就會發(fā)現(xiàn)業(yè)界人士的驚喜有著充分的理由。

以“蒸汽機”類比,瓦特的改進(jìn)首先是直接提升了運行效率,提升了蒸汽轉(zhuǎn)化為機械動力的能力,從而能夠由“試驗裝置”走向真正的“機器”。

這次發(fā)布的模型首先也是在推理能力上大幅跨越,發(fā)布的都是真正的“滿血版o1”,而不是其他各家所發(fā)布的“準(zhǔn)o1”,或者得分差得太遠(yuǎn)的o1,有著絕對實力上的領(lǐng)先而非只是小小的一次迭代。

更進(jìn)一步看,瓦特對蒸汽機的改進(jìn)還在機器對不同生產(chǎn)環(huán)境的適應(yīng)能力上進(jìn)行了改造,對應(yīng)到大模型這里,則是推理大模型的多模態(tài)進(jìn)化。

目前,DeepSeek R1只能識別文字、不支持圖片識別不同,Kimi k1.5則能進(jìn)行一步多模態(tài)推理,且在數(shù)學(xué)、代碼、視覺等復(fù)雜任務(wù)上的綜合性能提升,成為OpenAI之外首個多模態(tài)類o1模型。

以Kimi k1.5為例:

一方面模型在數(shù)學(xué)和代碼能力上的推理能力和正確率(諸如 pass@1、EM等指標(biāo))大幅領(lǐng)先或趕超其他主流對比模型;

另一方面模型在在視覺多模態(tài)任務(wù)上,無論是對圖像中信息的理解、還是進(jìn)一步的組合推理、跨模態(tài)推理能力,都有顯著提升。

截取Kimi的發(fā)布Paper原文,其長文本處理能力大幅提升,支持高達(dá)128ktokens 的 RL生成,采用部分展開方式進(jìn)行高效訓(xùn)練,且在訓(xùn)練策略上有包括在線鏡像下降法等在內(nèi)的多項改進(jìn)。

在長思考模式(long-CoT)下,Kimi K1.5在數(shù)學(xué)、編程和視覺任務(wù)中的表現(xiàn)與OpenAI o1的性能水平接近。

而到了短思考模式(short-CoT)下,Kimi k1.5 更是讓業(yè)界驚喜,做到了某種程度上的“遙遙領(lǐng)先”,其數(shù)學(xué)、代碼、視覺多模態(tài)和通用能力,大幅超越了全球范圍內(nèi)短思考SOTA模型GPT-4o和Claude 3.5 Sonnet的水平,領(lǐng)先達(dá)到550%。

這種領(lǐng)先,得益于Kimi k1.5獨特的“Long2Short”訓(xùn)練方案,顧名思義,即先利用較大的上下文窗口讓模型學(xué)會長鏈?zhǔn)剿季S,再將“長模型”的成果和參數(shù)與更小、更高效的“短模型”進(jìn)行合并,然后針對短模型進(jìn)行額外的強化學(xué)習(xí)微調(diào)。

這種做法,最大化保留了原先長模型的推理能力,避免了常見的“精簡模型后能力減弱”難題,又能同時有效挖掘短模型在特定場景下的高效推理或部署優(yōu)勢,是一次推理模型的重要創(chuàng)新。

“Long2Short”訓(xùn)練方案在算力與性能平衡方面實現(xiàn)了成功探索,改變了OpenAI o1以時間換空間的做法(犧牲實際應(yīng)用時的用戶體驗來提升性能,這種做法一直存在爭議),有業(yè)界人士表示將會是未來新的研究方向。

而從更宏觀的視角看,這樣的創(chuàng)新,除了給Kimi帶來更亮眼的模型表現(xiàn),毫無疑問也在讓大模型“蒸汽機”的“瓦特時刻”變得越來越近。

03

更密集的突破,才能爭搶“瓦特”

Kimi k1.5的出現(xiàn)顯然不會是一蹴而就的,是多次進(jìn)化迭代的結(jié)果,但最令人關(guān)注的,是迭代的速度。

僅僅在三個月前的2024年11月,月之暗面就推出了初代版本的Kimi K0-math。過了1個月,k1視覺思考模型誕生,繼承了K0-math的數(shù)學(xué)能力,又成功解鎖了視覺理解能力,“會算”+“會看”。緊接著又1個月后,也就是這次的K1.5發(fā)布,在數(shù)理化、代碼、通用等多個領(lǐng)域中,刷新了SOTA,直接媲美世界頂尖模型。

三個月三次突破,密集創(chuàng)新迭代才帶來炸場的效果與成果。

在關(guān)鍵的歷史節(jié)點,業(yè)界期待“瓦特”,與此同時,業(yè)界也在爭當(dāng)“瓦特”,大模型只會越來越卷。

好在,無論是基礎(chǔ)設(shè)施的建設(shè),還是以中國雙子星為代表的模型能力建設(shè),中國都已經(jīng)搶占了先機,這一次不會再處于被動地位——在Kimi的規(guī)劃中,其將繼續(xù)發(fā)力多模態(tài)推理,快速迭代出更多模特、更多領(lǐng)域、更具備通用能力的Kn系列模型。

相信,大模型的“瓦特時刻”,同樣會是中國大模型贏得話語權(quán)的時刻。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
對比分析通義、訊飛星火、豆包、Kimi、文心一言、智譜清言大模型
大模型開啟「長」時代,楊植麟的新公司把對話框容量做到了世界第一
對話月之暗面楊植麟:Kimi推理模型對標(biāo)OpenAI o1, 預(yù)訓(xùn)練還有提升空間
12個問題帶你系統(tǒng)認(rèn)識AI
2024,“大模型六小虎”逐夢AI圈
國產(chǎn)AI卷翻硅谷,奧特曼發(fā)文“陰陽”,類o1模型都在卷什么?
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 张家港市| 乐东| 罗田县| 宁乡县| 桂林市| 富民县| 台北县| 唐河县| 白河县| 黄浦区| 郧西县| 临潭县| 淮北市| 永州市| 江门市| 娄底市| 海口市| 香格里拉县| 克什克腾旗| 株洲县| 屏山县| 陇川县| 福泉市| 奇台县| 吉木萨尔县| 梨树县| 洪湖市| 五河县| 赤城县| 宁蒗| 班玛县| 和政县| 仪陇县| 遵义市| 盐津县| 平原县| 开化县| 乐业县| 马山县| 哈尔滨市| 修水县|