性能全面超越LLaMA2,0門檻商用,這個國產(chǎn)大模型要改變開源競爭格局了
開源大模型領(lǐng)域的進(jìn)化節(jié)奏,越來越快。今年 7 月,Meta 開源了 LLaMA2,以強大的性能和免費商用的特質(zhì),受到了開發(fā)者和眾多企業(yè)的擁護(hù)。基于 LLaMA2 各個版本微調(diào)的落地成果不斷涌現(xiàn),大模型領(lǐng)域的競爭格局迅速發(fā)生變化。業(yè)界普遍認(rèn)為,在開源大模型的攻勢下,一部分閉源大模型廠商的「護(hù)城河」將慢慢瓦解。難以負(fù)擔(dān)大模型 API 高昂調(diào)用成本的中小企業(yè)和開發(fā)者,有了另一條更具性價比的出路。與此同時,國產(chǎn)大模型開源力量也在技術(shù)上不斷追趕加速。近日,一項重磅開源吸引了領(lǐng)域內(nèi)的高度關(guān)注:昆侖萬維大語言模型「天工」Skywork-13B 系列正式宣布開源。之所以說是「重磅」,是因為 Skywork-13B 不僅在 C-Eval,MMLU 等基準(zhǔn)測試上全面超越了 LLaMA2-13B,而且這次開源范圍包括了 Skywork-13B-Base 模型、Skywork-13B-Math 模型以及每個模型的量化版模型。此外,昆侖萬維還同時開源了 600GB、150B Tokens 的高質(zhì)量中文語料數(shù)據(jù)集「Skypile/Chinese-Web-Text-150B」。昆侖萬維還宣布,Skywork-13B 系列大模型將全面開放商用 —— 開發(fā)者無需申請,0 門檻商用。- Skywork-13B 下載地址(Model Scope):https://modelscope.cn/organization/skywork
- Skywork-13B 下載地址(Github):https://github.com/SkyworkAI/Skywork
- 技術(shù)報告地址:https://arxiv.org/pdf/2310.19341.pdf
昆侖萬維董事長兼 CEO 方漢在云棲大會 AI 大模型新勢力分論壇現(xiàn)場分享 Skywork-13B 系列大模型開源與 AI 場景應(yīng)用落地這次 Skywork-13B 系列的發(fā)布,可以說是國產(chǎn)開源大模型的又一力作。Skywork-13B-Base 模型基于高質(zhì)量清洗過濾的 3.2 萬億個多語言(主要是中文和英文)和代碼數(shù)據(jù)的訓(xùn)練,在多種評測和各種基準(zhǔn)測試上全面超越了 LLaMA2-13B 等開源大模型,在同等參數(shù)規(guī)模下為最優(yōu)水平。評測 Benchmark 包括 C-Eval,MMLU,CMMLU,GSM8K。遵循之前的評估流程,C-Eval、MMLU、CMMLU 測試 5-shot 結(jié)果,GSM8K 測試 8-shot 結(jié)果。可以看到,Skywork-13B-Base 模型在中文開源模型中處于前列,多項測評為同等參數(shù)規(guī)模下為最優(yōu)水平。截止至 10 月 25 日數(shù)據(jù)。對于密切關(guān)注大模型領(lǐng)域進(jìn)展的人來說,上述與 Skywork-13B 進(jìn)行對比的開源大模型系列的名字并不陌生。過去一段時間里,各個系列開源大模型版本迭代讓人應(yīng)接不暇。這是一場火熱的開源競逐,對于整個大模型領(lǐng)域有著絕對的積極意義。任何一個技術(shù)領(lǐng)域的生態(tài)構(gòu)建,前沿技術(shù)的普及與真正落地,都離不了開源社區(qū)的力量。知識的共享、交流、碰撞,反過來也會加速技術(shù)的創(chuàng)新和商業(yè)化落地,讓人們享受到更多 AI 技術(shù)帶來的革新體驗。昆侖萬維向機器之心表示,Skywork-13B 系列大模型的開源,正是希望讓更多開發(fā)者們參與到 AIGC 的技術(shù)發(fā)展中,在共創(chuàng)和共享中推動技術(shù)的提升。事實上,自大模型概念誕生之初,「開源」和「閉源」兩條路線就同時存在,只不過二者所指向的資金、人才和商業(yè)模式的理念截然不同。五年前,OpenAI 開始 GPT 系列研發(fā)的時候,也曾是開源路線的堅定擁護(hù)者。不過這家公司逐漸走向了封閉,以至于今天我們都無從求證 ChatGPT 背后是多少參數(shù)量的模型。緊跟其后的谷歌同樣只公布了一篇未透露任何關(guān)鍵信息的 PaLM-2 技術(shù)報告,被譽為「OpenAI 最強競對」的 Anthropic 更是直接選擇不發(fā)布 Claude 技術(shù)報告。既然「OpenAI 們」不再「Open」,除了「重新造輪子」這個選項之外,人們的目光迅速轉(zhuǎn)向開源的力量。選擇加入這場開源大模型的競爭,并不是昆侖萬維「臨時起意」。昆侖萬維董事長兼 CEO 方漢是最早參與到開源生態(tài)建設(shè)的「開源老兵」,也是中文 Linux 開源最早的推動者之一。作為「開源老兵」,方漢判斷,當(dāng)前,大模型開源至少還有三大痛點:2、模型訓(xùn)練細(xì)節(jié)不公開比如 LLaMA2 這樣的開源大模型,僅發(fā)布了原始模型權(quán)重與推理腳本,不支持訓(xùn)練 / 微調(diào),也未提供數(shù)據(jù)集,且訓(xùn)練數(shù)據(jù)里中文語料僅占 0.13%,更不用說復(fù)雜的「可商用協(xié)議」了。方漢曾向機器之心表示,LLaMA2 開源并沒有對外披露數(shù)據(jù)層的具體信息,因此復(fù)現(xiàn) LLaMA2 成為一件受限制的事情。「比如一座樓房,你只能在這個基礎(chǔ)之上去裝修卻做外設(shè),但是你沒有辦法去改變它的鋼混結(jié)構(gòu),你沒有訓(xùn)練它底座的權(quán)限和能力,所以它的性能很難突破,逼近 GPT-4 這個事情是不可能的。」對開源大模型有需求、也真正接觸過此類開源大模型的人大概都能感受到,這樣做的結(jié)果就是:開源了,但沒完全開源。國產(chǎn)開源大模型的趕超,完全可以從上述三個痛點入手。首先,數(shù)據(jù)的質(zhì)量會對大模型的性能起到至關(guān)重要的作用,有了足夠多的可公開訪問的網(wǎng)絡(luò)數(shù)據(jù),更容易訓(xùn)練出高質(zhì)量的大語言模型。正因此,很少有大模型廠商會將其共享出來,而清洗好的中文數(shù)據(jù)更是眼下的稀缺資源。在構(gòu)建 Skywork-13B 的過程,昆侖萬維整理了一個超過 6 萬億個 Token 的高質(zhì)量語料庫「SkyPile」。訓(xùn)練完成后,他們精選出一個 600GB、150B Tokens 的高質(zhì)量中文語料數(shù)據(jù)集 Skypile/Chinese-Web-Text-150B,包含大量根據(jù)精心過濾的數(shù)據(jù)處理流程從中文網(wǎng)頁中篩選出的高質(zhì)量數(shù)據(jù),直接公開發(fā)布。這也是目前最大的開源中文數(shù)據(jù)集之一。關(guān)于「Skypile/Chinese-Web-Text-150B」的數(shù)據(jù)收集方法和過程,昆侖萬維在技術(shù)報告中進(jìn)行了詳細(xì)介紹,供所有研究者和從業(yè)者參考。其次,昆侖萬維還公開了訓(xùn)練 Skywork-13B 模型使用的評估方法、數(shù)據(jù)配比研究和訓(xùn)練基礎(chǔ)設(shè)施調(diào)優(yōu)方案等技術(shù)細(xì)節(jié)。在訓(xùn)練方法上,為了更加精細(xì)化利用數(shù)據(jù),Skywork-13B 開源系列模型采用了兩階段訓(xùn)練方法,第一階段使用通用語料進(jìn)行模型通用能力學(xué)習(xí),第二部分加入 STEM(科學(xué),技術(shù),工程,數(shù)學(xué))相關(guān)數(shù)據(jù)進(jìn)一步增強模型的推理能力、數(shù)學(xué)能力、問題解決能力。在模型結(jié)構(gòu)上,Skywork-13B 模型采用相對 LLaMA2-13B 更加瘦長的網(wǎng)絡(luò)結(jié)構(gòu),層數(shù)為 52 層,同時將 FFN Dim 和 Hidden Dim 縮小到 12288 和 4608,從而保證模型參數(shù)量和原始 LLaMA-13B 模型相當(dāng)。根據(jù)前期實驗,相對瘦長的網(wǎng)絡(luò)結(jié)構(gòu)在大 Batch Size 訓(xùn)練下可以取得更好的泛化效果。Skywork-13B 和 LLaMA-2-13B 模型的對比。如此一來,開發(fā)者可以最大程度地借鑒技術(shù)報告中大模型預(yù)訓(xùn)練的過程和經(jīng)驗,深度定制模型參數(shù),有針對性地進(jìn)行訓(xùn)練與優(yōu)化。更關(guān)鍵的一點便是「可商用協(xié)議」,領(lǐng)域內(nèi)寄希望于開源大模型加速商業(yè)化落地,但現(xiàn)在開源社區(qū)用戶通常需要進(jìn)行復(fù)雜的商用授權(quán)申請流程,在某些情況下,甚至對公司規(guī)模、所在行業(yè)、用戶數(shù)等維度有明確規(guī)定不予授權(quán)。這似乎與開源的宗旨背道而馳了。而 Skywork-13B 系列在商用層面制定的規(guī)則是「沒有限制」—— 全面開放,開發(fā)者無需額外申請,即可直接商用。用戶在下載模型后同意并遵守《Skywork 模型社區(qū)許可協(xié)議》后,不必再次申請授權(quán)即可將大模型進(jìn)行商業(yè)用途。這種徹底的開源行為在行業(yè)內(nèi)十分少見,將授權(quán)流程做到極簡,取消對行業(yè)、公司規(guī)模、用戶等方面的限制,足以看出昆侖萬維以 Skywork-13B 系列推動開源社區(qū)發(fā)展的決心。大模型時代的序幕已拉開,就像今天的水電煤一樣,大模型會成為未來社會的基礎(chǔ)設(shè)施。模型開源能夠幫助用戶簡化模型訓(xùn)練和部署的過程,使其不必從零開始訓(xùn)練,只需下載預(yù)訓(xùn)練好的模型進(jìn)行微調(diào),就可快速構(gòu)建高質(zhì)量的模型。更進(jìn)一步說,開源大模型能夠降低企業(yè)和開發(fā)者的研發(fā)門檻和使用成本,最大化共享技術(shù)能力和經(jīng)驗,讓更多人參與到 AI 引領(lǐng)的科技變革中去。自從 LLaMA2 之后,開源大模型的實力跨越了商用門檻,已經(jīng)能夠與閉源大模型相抗衡。而 Skywork-13B 系列的面世,讓用戶有了一項更好的選擇。在方漢看來,技術(shù)本身會快速迭代演進(jìn),只有開源才能滿足各種長尾需求,真正做到百花齊放,而不會出現(xiàn)由大型互聯(lián)網(wǎng)公司獨霸 AI 基礎(chǔ)設(shè)施的局面。當(dāng)然,想要做好開源不僅僅依靠決心,還需要深厚的實力做底牌。昆侖萬維董事長兼 CEO 方漢在云棲大會 AI 大模型新勢力分論壇現(xiàn)場分享 Skywork-13B 系列大模型開源與 AI 場景應(yīng)用落地憑借對科技發(fā)展趨勢的超前預(yù)判,昆侖萬維早在 2020 年便已開始布局 AIGC 領(lǐng)域。至今,已積累近三年的相關(guān)工程研發(fā)經(jīng)驗,并建立了行業(yè)領(lǐng)先的預(yù)訓(xùn)練數(shù)據(jù)深度處理能力,昆侖萬維也在人工智能領(lǐng)域取得了重大突破,目前已形成 AI 大模型、AI 搜索、AI 游戲、AI 音樂、AI 動漫、AI 社交六大 AI 業(yè)務(wù)矩陣,是國內(nèi)模型技術(shù)與工程能力最強,布局最全面,同時全身心投入開源社區(qū)建設(shè)的企業(yè)之一。在北京市經(jīng)濟(jì)和信息化局公布的《北京市通用人工智能產(chǎn)業(yè)創(chuàng)新伙伴計劃成員名單》中,昆侖萬維憑借在 AIGC 領(lǐng)域的前沿探索和投資布局,成為了第一批模型伙伴和投資伙伴。回望過去一年,大模型的熱潮最初由 ChatGPT 開始,卻因 LLaMA2 等開源成果的出現(xiàn)走到了一個更加好用、易用的時代。開源與閉源大模型在互相競爭,實質(zhì)上也是在相互促進(jìn),共同推進(jìn)了大模型生態(tài)的繁榮。
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點擊舉報。