在全球人工智能模型快速發(fā)展的浪潮中,DeepSeek-V3和Qwen 2.5系列的亮相為開源模型注入了新的活力。這兩大模型通過技術(shù)創(chuàng)新和高效優(yōu)化,成功將訓(xùn)練成本和資源消耗降至最低,同時實現(xiàn)了與閉源頂級模型相媲美的性能。
報告內(nèi)容詳見:
https://wcn4il2c5x2d.feishu.cn/wiki/G28mwxSAsis8Zykfyqbcsdzenbf
DeepSeek-V3模型–一個100%開源的LLM,在許多基準上擊敗了GPT 4o和Claude 3.5 Sonnet;一個強大的混合專家(MoE)語言模型,總參數(shù)為671B,每個token激活了37B。DeepSeek團隊在HuggingFace上共享了模型,并在他們的“DeepSeek-V3技術(shù)報告”中提供了有關(guān)模型的詳細信息。
DeepSeek MoE架構(gòu)是一個精細的MoE,每個token有1個共享專家和256個路由專家,8個活躍路由專家。該架構(gòu)還包括多頭潛在注意力,具有低等級聯(lián)合壓縮,用于關(guān)注鍵和值。它還具有多token預(yù)測,有助于投機解碼和更好地利用訓(xùn)練數(shù)據(jù)。
Deepseek-V3使用14.8萬億個token進行訓(xùn)練,使用了2788K H800 GPU小時,成本僅為560萬美元。DeepSeek-V3的這種具有成本效益的訓(xùn)練是由于精細的MoE架構(gòu),在訓(xùn)練中使用FP8混合精度,以及在訓(xùn)練期間調(diào)整和擴展上下文長度。
他們通過算法-框架-硬件共同設(shè)計克服了大型MoE模型訓(xùn)練中的通信瓶頸,實現(xiàn)了在訓(xùn)練中有效使用計算。兩階段的上下文長度擴展首先將上下文從4k令牌擴展到32k令牌,然后擴展到128k令牌。與Llama、Claude和類似的人工智能模型相比,這些優(yōu)化的綜合結(jié)果是訓(xùn)練效率極高,成本降低了10倍。
訓(xùn)練后使用SFT和RL來與人類的偏好保持一致,并提煉DeepSeek-R1推理能力,他們的推理模型,這增強了其推理和數(shù)學(xué)能力。多令牌預(yù)測(MTP)可用于增強模型性能,并實現(xiàn)推理加速的投機解碼。
DeepSeek-V3對MoE LLM的基準非常令人印象深刻,只有37B個活動參數(shù):MMLU上88.5,GPQA上59.1,MMLU-Pro上75.9,MATH上90.2,CodeForces上51.6等。DeepSeek-V3是目前最強的開源模型,其性能可與GPT-4o和Claude-3.5-Sonnet等領(lǐng)先的閉源模型相媲美。
報告內(nèi)容詳見:
https://wcn4il2c5x2d.feishu.cn/wiki/PwpEwDPdMiJetPkaKY9cK4XFnOg
Qwen 2.5系列LLM于9月發(fā)布,從那時起,阿里巴巴Qwen團隊發(fā)布了有用的更新,包括Qwen-2.5編碼器32B模型,擴展了100萬個令牌上下文支持,以及基于Qwen 32B的推理人工智能模型Qwen QwQ。本周,他們發(fā)布了QvQ,這是一個基于Qwen2-VL-72B的視覺推理模型。這一系列版本使Qwen成為領(lǐng)先的LLM家族,擁有一些用于編碼、推理和本地使用的最佳人工智能模型。
阿里巴巴Qwen團隊發(fā)布了Qwen2.5技術(shù)報告,以提供有關(guān)該開放式權(quán)重系列LLM的更多詳細信息。Qwen2.5系列由幾個開放式權(quán)重基礎(chǔ)和指令調(diào)整模型組成,參數(shù)范圍從0.5B到72B。此外,還有兩種專有的混合專家(MoE)型號,Qwen2.5-Turbo和Qwen2.5-Plus。開放式Qwen2.5-72B-Instruct的性能可與Llama-3-405B-Instruct相媲美。
一些關(guān)鍵功能&以前版本的對比
Qwen2.5 LLMs維護基于變壓器的解碼器架構(gòu),利用分組查詢注意力(GQA)、SwiGLU激活、旋轉(zhuǎn)位置嵌入(RoPE)、QKV偏置和RMSNorm。令牌化采用字節(jié)級字節(jié)對編碼(BBPE),并具有擴展的控制令牌集。
Qwen團隊將訓(xùn)練前數(shù)據(jù)集擴展到18萬億個代幣,納入了更多樣和高質(zhì)量的數(shù)據(jù)。預(yù)培訓(xùn)包括復(fù)雜的數(shù)據(jù)過濾、專注于知識、代碼和數(shù)學(xué)的戰(zhàn)略數(shù)據(jù)混合以及長上下文培訓(xùn)。
對于訓(xùn)練后,他們使用了超過100萬個樣本的復(fù)雜監(jiān)督微調(diào)(SFT),并結(jié)合了多階段強化學(xué)習(xí)(DPO,然后是GRPO)。兩階段強化學(xué)習(xí)涉及用于復(fù)雜推理的離線學(xué)習(xí)和用于細微差別輸出質(zhì)量的在線學(xué)習(xí)。
這些模型利用YARN和Dual Chunk Attention(DCA)來延長上下文長度,Qwen2.5-Turbo高達100萬個代幣。
訓(xùn)練的這些進步導(dǎo)致了更好的人類偏好調(diào)整,增強了長文本生成,并改善了結(jié)構(gòu)化數(shù)據(jù)分析。
評估展示了在語言理解、數(shù)學(xué)、編碼和人類偏好調(diào)整方面的頂級表現(xiàn),該報告還強調(diào)了Qwen2.5的長上下文能力。例如,Qwen2.5-Turbo在1M令牌密碼檢索任務(wù)中實現(xiàn)了100%的準確率。Qwen2.5進一步成為他們最新和最偉大的專業(yè)模型的基礎(chǔ):Qwen2.5-Math、Qwen2.5-Coder、QwQ和QvQ等多模態(tài)模型。
雖然大多數(shù)專有人工智能模型供應(yīng)商都對技術(shù)細節(jié)保密,但Qwen團隊和DeepSeek團隊通過各自的技術(shù)報告對他們的模型及其細節(jié)進行了令人耳目一新的開放。這些模型的發(fā)布不僅標志著開源技術(shù)的進步,也凸顯了開放性在推動行業(yè)前行中的關(guān)鍵作用。隨著這些領(lǐng)先團隊的不斷努力,開源模型正在快速縮小與閉源頂級模型的差距,為全球人工智能的發(fā)展注入新的動力。
感謝你們的閱讀和喜歡,作為一位在一線互聯(lián)網(wǎng)行業(yè)奮斗多年的老兵,我深知在這個瞬息萬變的技術(shù)領(lǐng)域中,持續(xù)學(xué)習(xí)和進步的重要性。
為了幫助更多熱愛技術(shù)、渴望成長的朋友,我特別整理了一份涵蓋大模型領(lǐng)域的寶貴資料集。
這些資料不僅是我多年積累的心血結(jié)晶,也是我在行業(yè)一線實戰(zhàn)經(jīng)驗的總結(jié)。
這些學(xué)習(xí)資料不僅深入淺出,而且非常實用,讓大家系統(tǒng)而高效地掌握AI大模型的各個知識點。如果你愿意花時間沉下心來學(xué)習(xí),相信它們一定能為你提供實質(zhì)性的幫助。