精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
開通VIP
中國(guó)工程院院士揭秘:DeepSeek究竟厲害在哪里
轉(zhuǎn)載自:    鳳凰網(wǎng)




快科技1月17日消息,在AI領(lǐng)域,DeepSeek帶來的影響力,一點(diǎn)也不亞于“六代機(jī)”。那么,DeepSeek究竟厲害在哪里?

據(jù)新浪科技報(bào)道,今日,中國(guó)工程院院士、清華大學(xué)計(jì)算機(jī)系教授鄭緯民指出了DeepSeek其成功出圈的關(guān)鍵所在。

目前,業(yè)界對(duì)于DeepSeek的喜愛與贊美,主要集中在三個(gè)方面。

第一,在技術(shù)層面,DeepSeek背后的DeepSeek-V3及公司新近推出的DeepSeek-R1兩款模型,分別實(shí)現(xiàn)了比肩OpenAI 4o和o1模型的能力。

第二,DeepSeek研發(fā)的這兩款模型成本更低,僅為OpenAI 4o和o1模型的十分之一左右。

第三,DeepSeek把這一兩大模型的技術(shù)都開源了,這讓更多的AI團(tuán)隊(duì),能夠基于最先進(jìn)同時(shí)成本最低的模型,開發(fā)更多的AI原生應(yīng)用。

DeepSeek是如何實(shí)現(xiàn)模型成本的降低的呢?鄭緯民指出,“DeepSeek自研的MLA架構(gòu)和DeepSeek MOE架構(gòu),為其自身的模型訓(xùn)練成本下降,起到了關(guān)鍵作用。”

他指出,“MLA主要通過改造注意力算子壓縮了KV Cache大小,實(shí)現(xiàn)了在同樣容量下可以存儲(chǔ)更多的KV Cache,該架構(gòu)和DeepSeek-V3模型中FFN 層的改造相配合,實(shí)現(xiàn)了一個(gè)非常大的稀疏MoE 層,這成為DeepSeek訓(xùn)練成本低最關(guān)鍵的原因。”

據(jù)了解,KV Cache是一種優(yōu)化技術(shù),常被用于存儲(chǔ)人工智能模型運(yùn)行時(shí)產(chǎn)生的token的鍵值對(duì)(即key- value數(shù)值),以提高計(jì)算效率。

具體而言,在模型運(yùn)算過程中,KV cache會(huì)在模型運(yùn)算過程中充當(dāng)一個(gè)內(nèi)存庫的角色,以存儲(chǔ)模型之前處理過的token鍵值,通過模型運(yùn)算計(jì)算出注意力分?jǐn)?shù),有效控制被存儲(chǔ)token的輸入輸出,通過“以存換算”避免了多數(shù)大模型運(yùn)算每次都是從第一個(gè)token開始運(yùn)算的重復(fù)計(jì)算,提升了算力使用效率。

此外,據(jù)鄭緯民透露,DeepSeek還解決了“非常大同時(shí)非常稀疏的MoE模型”使用的性能難題,而這也成了“DeepSeek訓(xùn)練成本低最關(guān)鍵的原因”。

“DeepSeek比較厲害的是訓(xùn)練MoE的能力,成為公開MoE模型訓(xùn)練中第一個(gè)能訓(xùn)練成功這么大MoE的企業(yè)。”鄭緯民說

此外,DeepSeek還充分利用專家網(wǎng)絡(luò)被稀疏激活的設(shè)計(jì),限制了每個(gè)token被發(fā)送往GPU集群節(jié)點(diǎn)(node)的數(shù)量,這使得GPU之間通信開銷穩(wěn)定在較低的水位。

早先,圖靈獎(jiǎng)得主、主導(dǎo)Meta AI研究的首席科學(xué)家楊立昆(Yann LeCun)認(rèn)為,DeepSeek成功的最大收獲并非中國(guó)競(jìng)爭(zhēng)對(duì)其他國(guó)家?guī)砀笸{,而是AI開源的價(jià)值使任何人都能受益。

“對(duì)那些看到DeepSeek表現(xiàn)并認(rèn)為'中國(guó)在AI領(lǐng)域正超越美國(guó)’的人而言,你的解讀錯(cuò)了”,楊立昆在Threads寫道,“正確解讀應(yīng)是'開源模型正超越專有模型’”。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
幻方大模型概念股梳理
君弘資訊
OpenAI停服,國(guó)產(chǎn)大模型免費(fèi)用!開發(fā)者Token自由實(shí)現(xiàn)了
中國(guó)大模型價(jià)格戰(zhàn)背后的真相
大模型“免費(fèi)”送,廠商們圖什么?
性能匹敵GPT
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 齐齐哈尔市| 托里县| 广安市| 玛多县| 甘德县| 舒兰市| 新巴尔虎右旗| 江津市| 色达县| 昔阳县| 桃园市| 大同市| 大理市| 宣恩县| 阳信县| 嵊州市| 衡南县| 勐海县| 航空| 敦化市| 且末县| 新乐市| 台安县| 于都县| 博湖县| 涞源县| 盘锦市| 神农架林区| 新竹县| 沅江市| 铜川市| 蓝山县| 西乌| 奉节县| 香河县| 三原县| 仙游县| 武安市| 河东区| 宁武县| 鹿邑县|