人工智能[1233]
當大模型公司都在卷大參數,面壁智能卻在盡可能把參數做小
在通往 AGI 的路上,絕大多數公司的路線是不斷做大參數,但面壁智能卻走了一條相反的路線——盡可能把模型參數做小。
2 月 1 日,面壁智能推出了只有 2B(注:20 億)參數量級的模型 MiniCPM,而其性能卻超過了大參數模型 Mistral-7B(法國大模型公司 Mistral 旗下知名模型)、且部分超越 Llama-13B(Meta 旗下知名開源大模型)等,內部稱之為「以小博大」。
這個結果揭露了這樣一個事實:很多超大參數的大模型,它們的模型效率或許并沒有最大化。
「我們希望探索模型性能的天花板。」面壁智能聯合創始人劉知遠教授稱。他認為,從技術研判而言,2023 年 ChatGPT 和 GPT-4 的推出,表明大模型技術路線已經基本確定,接下來就是要探索其科學機理,并極致地優化效率。
他表示,在 Mistral-6B 的同一模型水平下,面壁智能團隊的模型參數量是最小的。這或許意味著模型的效率被提升到了最高水平?!肝矣X得我們做了一件挺牛的事?!顾χf。
MiniCPM 在多項主流評測榜單、中英文平均成績超越 Mistral-7B | 面壁智能
面壁智能成立于 2022 年,由清華 NLP 實驗室的劉知遠副教授帶頭成立。這是國內最早研發大模型的團隊之一,早在 2020 年,團隊就發布了全球首個 20 億級中文開源大模型 CPM。直到去年 4 月,面壁智能接受了知乎投資,不久后知乎 CTO 李大海成為面壁智能 CEO。這家公司開始完成從學術界到商業界的轉身。(見極客公園專訪《對話面壁智能:和知乎的優勢互補,會加速大模型的研發》)
此次面壁智能做小參數模型背后,不僅是為了挑戰模型訓練技術,更有深遠的現實和商業意義。
更小的參數意味著更低的部署門檻、更低的使用成本——這意味著它能在手機等終端上運行,甚至僅靠一塊 CPU 就能運載,面壁智能因此將 MiniCPM 稱為端側大模型——它帶來的意義是,模型能被更廣大人群應用、也有更好的商業化前景。
「無論是面壁還是清華 NLP 實驗室,我們的夢想就是實現 AGI(通用人工智能)。任何完成這個目標需要做的,就是我們要做的事情。」關于 MiniCPM 背后的思考決策,劉知遠如此說道。
模型訓練不再「玄學」
面壁團隊之所以嘗試「以小博大」路線,跟 Mistral-7B 有些淵源。
去年 9 月,剛發布的 Mistral 7B 是「以小博大」的標桿之作:它只有 7B 大小,卻擊敗了參數量大得多的 Llama(注:所有基準測試中均優于 Llama 2 13B、并在許多基準測試中均優于 Llama 1 34B)。這引起了整個大模型行業的廣泛關注。劉知遠說,自此之后他心里就種下種子,希望讓團隊也嘗試一下模型「以小博大」。
這極其考驗模型的訓練技術和效率。
一直以來,大模型的訓練過程被戲稱為「煉丹」:核心是加大參數,整個訓練過程卻難以捉摸、全憑感覺,很少沉淀為科學系統的訓練技術——不過,各大模型團隊都在為此努力,希望將自家的訓練技術從「玄學」變成「科學」。
面壁智能也在做這樣的嘗試。2023 年,團隊做了上千次的「沙盒實驗」(注:在擬真測試環境下,通過控制變量等方法,找到模型訓練背后的科學原理和規律),對大模型的訓練機理有了較為深刻的理解?!妇拖裨祜w機需要空氣動力學的支持,我們團隊致力于把大模型的研究科學化。」劉知遠說。
這也是他想研發 MiniCPM 的重要原因,「我想檢驗一下我們(總結)的訓練科學,是不是真的科學?!顾f。
面壁智能模型「沙盒試驗」| 面壁智能
結果驗證了他的期待。僅通過兩周的訓練,MiniCPM 就成功實現了以小博大。這證明了團隊的訓練技術符合一定科學。劉知遠稱,此次結果是過往沙盒實驗「厚積薄發」的結果?!肝覀兿Mㄟ^ MiniCPM 讓大家認識到,即使 2B 尺寸大模型的效果極限,還沒有被充分挖掘出來,這是一個科學問題也是一個技術問題,需要大家共同探索?!顾f。
目前,面壁智能團隊已將 MiniCPM 背后的訓練方法、過程寫成文章,發布到 Github 上。
當然,除了訓練技術本身,其他的要素也很重要——比如優質數據集、Infra(AI 基礎設施層的軟件) 等。此次,面壁智能僅靠 1TB 的精選數據訓練就完成了模型的「以小博大」,當問到數據的來源是否跟知乎有一定關系時,「知乎起了很重要的作用,但最終還是算法自動選取的結果。」李大海對極客公園說。
Infra 方面,面壁智能表示,團隊全流程優化加速工具套件平臺,可以實現 10 倍推理加速,90% 成本降低。
面壁智能闡述如何讓模型「以小博大」| 面壁智能
或許因為諸多因素才研發出了 MiniCPM,所以團隊并不擔心公開訓練的方法、過程。「說實話就算我寫出來了,別人也不一定能做出來。這或許就是我們的壁壘?!筂iniCPM 的模型訓練負責人、面壁智能研究員胡聲鼎說。
端側小模型,「直供」手機廠
作為一款小參數模型,MiniCPM 能部署在手機等終端設備上,主要被定位為端側模型。目前,MiniCPM 已跑通了國際主流手機品牌和終端 CPU 芯片。
為什么有了云端模型,依然要端側模型?從用戶的角度來說,假設遇到極端的斷網等情況(面壁團隊現場舉了戶外探險的例子),用戶依然可以通過端側模型獲得服務。這實際上拓寬了用戶使用模型的場景。
MiniCPM 可搭載的手機型號 | 面壁智能
而從開發者的角度來說,端側模型能幫助他們減輕算力負擔、降低算力成本。
以算力負擔為例,李大海稱假設大模型領域出現了超級應用,需要成百上千萬人同時在線,用戶都在云端使用模型的話,算力帶寬和成本,對于創業團隊來說都將難以承受。
以算力成本為例,李大海現場用一臺搭配驍龍 855 芯片(高通于 2018 年推出的手機芯片)的手機做了一道數學題。按照運行 5 年計算,每秒 7.5 tokens,那么 170 萬 tokens 的推理成本僅需人民幣 1 元,成本僅為 Mistral-Medium 的百分之一。
劉知遠認為,未來大模型一定是云端共存、協同的模式——就像人類的智能需要分布于大腦、小腦,未來的大模型的智能也會分布于云、端——它們各有不同的分工,就像大腦負責高級智能、小腦負責基礎智能一樣,未來大模型的高級智能將由云端實現,而基礎智能將由終端實現。
自去年 7 月以來,大模型上終端一直是行業普遍趨勢。榮耀、華為、小米、OPPO、vivo 等手機廠商均推出了自己的終端大模型。當問到相比手機廠商,面壁智能做終端大模型的優勢是什么時,李大海稱未來如果云端需要聯動,由同一個模型廠商做會更高效。
目前,面壁正在跟許多終端廠商溝通,探討將 MiniCPM 這款小模型落地的可能。
面壁智能 CEO 李大海、聯合創始人兼首席科學家劉知遠。圖源 | 面壁智能
如果說云端模型主要賣的是 API 調度費、解決方案,那么端側模型的商業模式或有所不同——李大海表示,目前 MiniCPM 已經開源、經授權后可商用,未來將主要從模型授權費中獲取商業收入?!付藗饶P陀卸藗饶P偷穆涞啬J胶蛨鼍埃ㄔ贫耍┐竽P陀校ㄔ贫耍┐竽P偷穆涞啬J胶蛨鼍??!顾f。
和 Meta 一樣,面壁也是將 MiniCPM 這樣的端側大模型和其它規模較小的大模型開源,將旗下 CPM-Cricket 等千億大模型閉源。目前,面壁智能的模型收入主要來自 B 端,主要集中在金融、營銷等領域,目前已有招商銀行、易車網、義烏小商品集團等客戶。
談及面壁智能未來的發展規劃,李大海稱,一方面是繼續加強模型能力,無論是小模型還是大模型,并在此基礎之上繼續探索 Agent、上層應用的發展。另一方面則是探索落地和商業化。
「說實話我對我們的模型技術能力有信心,所以未來我們的重心會放在商業化上?!顾f。
附:
GitHub 項目地址
https://github.com/OpenBMB/MiniCPM
HuggingFace 項目地址
https://huggingface.co/openbmb/MiniCPM-2B-sft-bf16
我是一位75歲以上的老人!本站主要是些學習體驗與分享(其中會引用一些作品的原話并結合我的一生體會與經驗加工整理而成!在此一并感謝!如有不妥之處敬請與我聯系,我會妥善處理,謝謝!)我寫的主要是中老年人各方面應注意的事兒!退休后我希望通過這個平臺廣交朋友,互助交流,共筑美好生活?。。。。?!