2 月 1 日,面壁智能與清華大學自然語言處理實驗室共同開源了系列端側語言大模型 MiniCPM,主體語言模型 MiniCPM-2B 僅有 24 億(2.4B)的非詞嵌入參數量。
在綜合性榜單上與 Mistral-7B 相近,在中文、數學、代碼能力表現更優,整體性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。
具體開源模型包括:
開源地址(內含技術報告):
MiniCPM GitHub:https://github.com/OpenBMB/MiniCPMOmniLMM
GitHub:https://github.com/OpenBMB/OmniLMM
“用最小的規模,做最強的 AI。”面壁智能 CEO 李大海說道。“以小搏大”的典型是 Mistral-7B,其在業內收獲了很多贊譽,一度被譽為“開源模型的新王者”,其公司 Mistral AI 也被稱為“歐洲 OpenAI”。
面壁智能的 MiniCPM 一定程度上直接對標了 Mistral-7B。在多項主流測評中,MiniCPM-2B 的中英文平均成績均超過了 Mistral-7B。“Mistral-7B 用 7B 戰勝了 LLaMA-13B 的模型,我們用 2B 干掉 LLaMA 的 13B。”面壁智能 CTO 曾國洋說道。
李大海表示,“跟微軟相比我們有兩大優勢,2B 性能小鋼炮同等規模能力領先,主流表現大幅超越,能力更全、更強。與 13、20B 和 40B 規模的模型也有掰手腕的能力。”
添加圖片注釋,不超過 140 字(可選)
在英文能力上,MiniCPM 的得分超越了 Llama2-13B、Falcon-40B:
添加圖片注釋,不超過 140 字(可選)
在當前最接近用戶體感的評測集 MTBench 上,MiniCPM-2B 超越了 Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha 等眾多代表性開源大模型。
添加圖片注釋,不超過 140 字(可選)
語言能力方面, MiniCPM 可以一下寫十個“深夜憂傷”文案:
添加圖片注釋,不超過 140 字(可選)
也能陪你“cosplay”:
添加圖片注釋,不超過 140 字(可選)
或許小時候出去玩,老師還要求寫游記的“頭痛”可以緩解下:
添加圖片注釋,不超過 140 字(可選)
此外,MiniCPM 不僅知道黃山、泰山準確海拔,還能計算差值:
添加圖片注釋,不超過 140 字(可選)
當不同語言混在一起時,MiniCPM 可以把兩種不同的語言識別出來并自動進行翻譯:
添加圖片注釋,不超過 140 字(可選)
編程能力上,MiniCPM 也會寫代碼,可以讓它自己“開發”自己:
視頻請到原文觀看
MiniCPM 也具有多模態能力,比如拍個不知名的蘑菇問問它是不是可以吃:
視頻請到原文觀看
如果在野外時,從帳篷里面看到一條蛇怎么處理:
視頻請到原文觀看
根據清華大學計算機系博士胡聲鼎的說法,MiniCPM 大約用了兩周的時間進行訓練。隨著硬件的發展,未來在手機上跑 7B 甚至幾十 B 的模型也是有可能的。
以 MiniCPM-2B 為基礎,團隊還構建了端側多模態大模型 MiniCPM-V。MiniCPM-V 可以部署在大多數 GPU 卡和個人計算機上,甚至可以部署在手機等端側設備上,并支持中英文雙語多模態交互。
在視覺編碼方面,團隊通過 perceiver 重采樣器將圖像表示壓縮為 64 個 tokens,明顯少于其他基于 MLP 架構的 lms(通常要大于 512tokens)。這使得 MiniCPM-V 在推理過程中以更少的內存開銷和更高的速度運行。
在多個基準(包括 MMMU、MME 和 MMbech 等)中,MiniCPM-V 實現了更先進的性能,超越了基于 Phi-2 構建的現有多模態大模型,甚至達到了與 9.6B Qwen-VL-Chat 相當或更好的性能。
添加圖片注釋,不超過 140 字(可選)
測試下 MiniCPM-V 的圖像識別能力,它成功識別出了圖片中有一只貓,并且正睡在毛毯上,并告訴我們不要打擾它。
添加圖片注釋,不超過 140 字(可選)
面壁智能表示,在進行 Int4 量化后,MiniCPM 只占 2 GB 空間,具備在端側手機進行模型部署的條件,消費級顯卡也能流暢玩轉大模型。
此外,面壁智能還開源了擅長視覺和語言建模的大型多模態模型 OmniLMM,目前發布了 兩個特色版本,OmniLMM-12B 和 OmniLMM-3B。
在多模態視覺交互問答上,OmniLMM 與純文本的 ChatGPT3.5 結合,表現出了多重能力:實時動作識別,理解玩游戲的取勝策略等:
視頻請到原文觀看
面壁智能也把多模態能力集成到更多圖片細節觀察能力上,比如導盲犬沒有穿標識服裝,也可以通過“手杖”和“挽具”推測出它是一個導盲犬:
添加圖片注釋,不超過 140 字(可選)
對于錯位圖片,OmniLMM 也能夠識別出來,實際上是一個人坐在椅子上,另一個人走在路上:
添加圖片注釋,不超過 140 字(可選)
對于幽默向的圖片,它也可以識別出來:一只狗穿著藍色襯衫和短褲在自拍,這不是一只狗的典型行為。
添加圖片注釋,不超過 140 字(可選)
目前,團隊已經針對不同的操作系統進行了不同的適配。對于 Android、Harmony 系統,用戶需要使用開源框架 MLC-LLM 進行模型適配,支持文本模型、多模態模型,適用于 MiniCPM-2B-SFT-INT4、MiniCPM-2B-DPO-INT4、MiniCPM-V;對于 iOS 系統,則需使用開源框架 LLMFarm 進行模型適配,僅支持文本模型,適用于 MiniCPM-2B-SFT-INT4、MiniCPM-2B-DPO-INT4。
添加圖片注釋,不超過 140 字(可選)
在不同手機型號上的相關驗證數據
李大海表示,端側模型能夠為大模型和 Agent 服務,因為端跟云的協同能夠讓應用更好地落地。端側模型是大模型技術的積累,讓模型小型化、云上模型能夠用更小的規模實現更好的效果,與大模型技術是一脈相承的。
“省錢大模型”是面壁智能對 MiniCPM 另一個稱呼。
在李大海看來,成本會在未來大模型競爭成為隱性競爭優勢。“端側模型的另外一點就是成本,成本是大模型的利潤率,2023 年我們做非常多商業化實驗的時候發現,客戶在很多應用場景下都非常關注模型的成本。雖然千億模型效果很好,但真要大規模部署時還是有很多障礙。”
當前,MiniCPM 的 int 4 量化版本壓縮了 75% 的尺寸,但性能幾乎無損,大大降低了模型對于內存和閃存的需求。
以 OPPO 手機為例,驍龍 855 芯片,成本 600 元, 一共運行 5 年報廢,每秒運行 7.5 tokens。以 5 年時間計算,170 萬 tokens 的推理成本僅為 1 元。這是幾乎只有在云端運行 Mistral-medium 成本的 1%。而 GPT-4 的推理成本則是 4700 tokens 1 元。
添加圖片注釋,不超過 140 字(可選)
除了在端側推理之外,MiniCPM 還有持續的成本改進,因為它足夠小,只需要 1 臺機器持續參數訓練、1 張顯卡進行高效參數微調。
添加圖片注釋,不超過 140 字(可選)
李大海表示,當前手機推理未曾深入進行優化,而 GPU 加速已采用各種采樣加速進行優化,未來手機推理成本還可以進一步降低。
“凡是能在端側用戶手里解決的算力,就不要到云側運算,否則承擔的算力成本是不可想象的。”清華大學長聘副教授劉知遠說道。而對于未來更大算力問題的解決,劉知遠表示答案一定是云端協同。端側大模型要找到它的天花板,并把天花板不斷抬高,這對商業化的大模型非常重要。
李大海表示,小尺寸是模型技術的極限競技場。那么,面壁智能團隊如何實現“以小博大”?
“Infra 是大模型創業護城河,決定了公司的技術上限。”團隊 2021 年開發的高效訓練框架 BMTrain,是業界 SOTA 的分布式實現,將千億模型訓練門檻拉低到 64 卡;高效推理框架 BMInf 高效采樣加速算法,采用稀疏激活方法實現 3 倍推理加速;高效壓縮框架 BMCook 進行 Int4 無損壓縮,可實現 5 倍以上推理加速,降低 70% 的存儲開銷;高效微調框架 BMTune 內含各種工具包。
算法論是面壁智能在過去三年實踐中總結出來的訓練方法論,把大模型變成了實驗科學,面壁智能的團隊希望未來將其變成理論科學。
面壁智能技術團隊提出在小模型上進行廣泛的實驗,通過可遷移的配置,獲得大模型的最優訓練方法。具體而言,團隊進行了 Hyper-paramters、Batch size、Learning Rate、Learning Rate Scheduler、Data Strategy 五個方面的模型沙盒研究。
添加圖片注釋,不超過 140 字(可選)
在超參穩定的模型規模擴增上,團隊對模型的各參數模塊之間進行了連接權重的調整、以及對模型初始化的調整,部分調整接近 Cerebras-GPT。
Batchsize 決定了模型的收斂速度和消耗計算資源的平衡。對此,團隊在 0.009B,0.036B,0.17B 的模型上分別進行了 6 個 batchsize 的訓練實驗,最終觀察到了最優 batchsize 隨著 C4 數據集上的 loss 的偏移規律。根據這個規律,團隊預估了 2B 模型達到 C4 損失 2.5 左右,4M 是比較合適的 Batchsize。
最優學習率上,團隊通過在 0.04B, 0.1B, 0.3B, 0.5B 上分別做的 6 組學習率實驗發現,雖然模型大小擴大了 10 倍,但是最優學習率偏移并不明顯,均在 0.01 左右。在 2.1B 的規模上進行了簡單驗證,發現在 0.01 的學習率確實能取得最低的 Loss。
此外,團隊還提出了一種新的學習率調度策略:Warmup-Stable-Decay(WSD)調度器。這種學習率調度器分為三個階段,warmup 階段(用 W 表示 warmup 階段結束時的步數 / 訓練量)、穩定訓練階段(用 S 表示穩定訓練階段結束時的步數 / 訓練量)和退火階段(用 D 表示退火階段的訓練量)。
由于 WSD 調度器可以在任何階段退火,取得該階段最優的模型,因此團隊也探索了如果持續訓練一個大小為 N 的模型,最優情況下能超過多大參數量的 Chichilla-optimal 模型。
結果顯示,如果一個模型用面壁智能團隊的 WSD 調度器訓練,在消耗等量計算量時,可以達到約 5 倍模型參數量的 Chinchilla-optimal 模型。而持續訓練下去,有可能超越更大的 Chinchilla-optimal 模型。
同時團隊預測,9B 模型的 Chinchilla Optimal 的終態 C4 Loss 約為 2.40,7B 模型約為 2.45。MiniCPM 的最終 C4 Loss 為 2.41,接近于 9B 的 Chinchilla Optimal 模型。
發布 MiniCPM 之前,團隊做了上千次的模型沙盒實驗,探索出的最優配置為:WSD LRS,batchsize 為 3.93M,Max Learning Rate 為 0.01。
除了技術積累之外,面壁智能在 MiniCPM 的訓練中,也追求數據的極致高效。
這次,MiniCPM 公開了訓練的兩個數據配方。在穩定訓練階段,團隊使用了 1T 的去重后數據,其中大部分數據從開源數據中收集而來:
添加圖片注釋,不超過 140 字(可選)
退火階段,SFT 數據配比如下:
添加圖片注釋,不超過 140 字(可選)
“用更低的成本完成最小的模型,我們沒有在追趕,我們一直領先。”劉知遠說道。
更多技術細節可以查看:
https://shengdinghu.notion.site/MiniCPM-c805a17c5c8046398914e47f0542095a
作為 2024 年的首次對外發布,李大海也回顧了面壁智能的成長歷程:
“面壁智能是最早的大模型研究團隊之一。2018 年,我們脫胎于清華 NLP 實驗室發布 ERNIE 模型,ERNIE 模型是全球首個知識指導的預訓練模型;2020 年 12 月,我們是悟道大模型首發主力陣容;2022 年 4 月,OpenBMB 開源社區成立;2022 年 8 月,面壁智能公司化運作;2023 年,經歷了兩輪融資,其中第一輪是知乎獨家天使輪融資,也是這一年,面壁智能領跑 Agent 研究發布了 AgentVerse、ChatDev、XAgent 等框架。”
如今已經擁有超 100 人的科研團隊,其中“清華”含量 80%,平均年齡 28 歲,還有來自阿里、字節、百度等公司的人才。
未來,面壁智能表示將貫徹“大模型 +Agent”雙引擎戰略,致力于更小規模、更快速度和更低成本的實現。
原文鏈接:
https://www.infoq.cn/news/dQmGdaleo5P0I2NVCxpZ