手機(jī)上跑大模型，有必要嗎？

作者｜武靜靜

編輯｜栗子

小米的大模型在雷軍2023年年度演講中首次公開亮相。

雷軍提到，和很多互聯(lián)網(wǎng)平臺的思路不同，小米大模型的重點突破方向是輕量化和本地部署，能在手機(jī)端側(cè)跑通。

他稱，目前，13億參數(shù)規(guī)模的MiLM1.3B模型已經(jīng)在手機(jī)上跑通，且效果可以媲美60億參數(shù)的大模型在云端運算的結(jié)果。在他曬出的成績單中，小米端側(cè)大模型在CMMLU中文評估的各項主題中都比智譜AI的ChatGLM2-6B模型表現(xiàn)好，和百川智能的Baichuan-13B大模型的得分差距約在5分左右。

（圖源：小米）

此前，小米開發(fā)的大規(guī)模預(yù)訓(xùn)練語言模型MiLM-6B/1.3B已經(jīng)登陸代碼托管平臺GitHub，并在C-Eval總榜單排名第十、同參數(shù)量級排名第一，在中文大模型基準(zhǔn)“CMMLU”上，“MiLM-6B”排名第一。

當(dāng)然，由于這些測試榜單的維度都是公開的，根據(jù)測試任務(wù)進(jìn)行刷榜刷分對于很多大模型公司并非難事，所以這些測評結(jié)果只能作為參考，并不意味著效果上的絕對優(yōu)秀。

同時，雷軍也宣布小愛同學(xué)作為小米大模型第一個應(yīng)用的業(yè)務(wù)，已經(jīng)進(jìn)行了全新的升級，并正式開啟邀測。

這是從今年4月宣布新設(shè)立大模型團(tuán)隊以來，小米在4個月時間中做出的階段性大模型成果。

小米的實踐給大模型落地帶來什么新思考？對于借助新技術(shù)迭代的手機(jī)廠商而言，又意味著什么？

1.小米不做通用大模型，核心團(tuán)隊約30人

小米在大模型路線上屬于理性派——不追求參數(shù)規(guī)模，不做通用大模型。

此前在財報電話會上，小米集團(tuán)總裁盧偉冰就對外稱，小米會積極擁抱大模型，方向是與產(chǎn)品和業(yè)務(wù)深度結(jié)合，不會像OpenAI一樣去做通用大模型。

根據(jù)深燃此前的報道，小米集團(tuán)AI實驗室主任王斌博士曾說，小米不會單獨發(fā)布一款類ChatGPT產(chǎn)品，自研大模型最終會由產(chǎn)品帶出來，相關(guān)投入約幾千萬人民幣級別。

他說：“對于大模型，我們屬于理智派。小米有應(yīng)用場景優(yōu)勢，我們看到的是大模型跟場景結(jié)合的巨大機(jī)會?！?/span>

他透露，在ChatGPT誕生之前，小米內(nèi)部做過大模型相關(guān)的研發(fā)和應(yīng)用，當(dāng)時是通過預(yù)訓(xùn)練＋下游任務(wù)監(jiān)督微調(diào)的方式來做人機(jī)對話，參數(shù)規(guī)模在28億到30億。這主要是在預(yù)訓(xùn)練基座模型的基礎(chǔ)上，通過對話數(shù)據(jù)的微調(diào)實現(xiàn)的，并非現(xiàn)在所說的通用大模型。

根據(jù)公開資料，目前小米大模型團(tuán)隊負(fù)責(zé)人為AI語音方向?qū)＜覚鑴?，向技術(shù)委員會副主席、AI實驗室主任王斌匯報。整個大模型團(tuán)隊有30人左右。

欒劍曾是智能語音機(jī)器人“微軟小冰”首席語音科學(xué)家及語音團(tuán)隊負(fù)責(zé)人，曾任東芝（中國）研究院研究員、微軟（中國）工程院高級語音科學(xué)家。加入小米后，欒劍曾先后負(fù)責(zé)語音生成、NLP等團(tuán)隊，以及相關(guān)技術(shù)在小愛同學(xué)等產(chǎn)品中落地。王斌2018年加入小米，2019年起負(fù)責(zé)AI實驗室，加入小米前曾是中國科學(xué)院信息工程研究所研究員、博導(dǎo)，在信息檢索與自然語言處理領(lǐng)域有近30年研究經(jīng)驗。

做大模型也依托于小米背后的AI團(tuán)隊，雷軍稱，小米的AI團(tuán)隊經(jīng)過7年時間，6次擴(kuò)展，已經(jīng)超過3000人，覆蓋了CV、NLP、AI影像、自動駕駛、機(jī)器人等多個領(lǐng)域。

（圖源：小米）

2.谷歌、高通、華為紛紛入局

小米之外，讓大模型跑在手機(jī)上是很多科技公司當(dāng)前的重點目標(biāo)。

科技公司正在想象大模型帶來這樣一種可能性：不管你打開的是WPS、石墨文檔還是郵件，只要輸入寫作等指令，手機(jī)就可以調(diào)用本地能力生成完整的一篇文章或者一封郵件。手機(jī)端，所有的App都可以隨時調(diào)用本地的大模型來幫忙處理工作和解決生活問題，人和手機(jī)上各種App的交互也不再是頻繁的點擊，而是通過語音就能進(jìn)行智能召喚。

很多公司正在想方設(shè)法地壓縮模型體積，讓大模型在手機(jī)上的本地運行變得更實用且經(jīng)濟(jì)。在今年5月的Google I/O大會上，谷歌發(fā)布PaLM2時，按照規(guī)模大小分為四種規(guī)格，從小到大依次為Gecko、Otter、Bison和Unicorn，其中體積最小的Gecko可以在手機(jī)上運行，并且速度很快，每秒可處理20個標(biāo)記，大約相當(dāng)于16或17個單詞，也可支持手機(jī)離線狀態(tài)運行。但當(dāng)時谷歌沒說這款模型會具體用在哪一款手機(jī)上。

目前已經(jīng)拿出具體成績的是高通。在今年3月的2023MWC上，高通在搭載第二代驍龍8的智能手機(jī)上，運行了超過10億參數(shù)的文生圖模型Stable Diffusion。演示中，工作人員在一部沒有聯(lián)網(wǎng)的安卓手機(jī)上用Stable Diffusion生成了圖像，整個過程用了15秒。

6月的計算機(jī)視覺學(xué)術(shù)頂會CVPR上，高通又展示了在安卓手機(jī)上運行15億參數(shù)規(guī)模的ControlNet模型，出圖時間僅用了11.26 秒。高通產(chǎn)品管理高級副總裁兼AI負(fù)責(zé)人Ziad Asghar稱：從技術(shù)上，把這些超10億參數(shù)大模型搬進(jìn)手機(jī)，只需要不到一個月的時間。

最新的動作是高通宣布和Meta合作，探索基于高通驍龍芯片，在不聯(lián)網(wǎng)的情況下，在智能手機(jī)、PC、AR / VR頭顯設(shè)備、汽車等設(shè)備上，運行基于Llama 2模型的應(yīng)用和服務(wù)。高通稱，和基于云端的LLM相比，在設(shè)備本地運行Llama 2 等大型語言模型，不僅成本更低，性能更好，且不需要連接到在線服務(wù)，服務(wù)也更個性化、更安全和更私密。

尚未官宣任何大模型動作的蘋果也正在探索大模型在設(shè)備端側(cè)的落地。據(jù)《金融時報》報道，蘋果正在全面招聘工程師和研究人員來壓縮大語言模型，以便它們能夠在iPhone和iPad上高效運行，主要負(fù)責(zé)的團(tuán)隊是機(jī)器智能和神經(jīng)設(shè)計 (MIND) 團(tuán)隊。

目前，在Github上，一個熱門的開源模型MLC LLM項目就可以支持本地部署，它通過仔細(xì)規(guī)劃分配和積極壓縮模型參數(shù)來解決內(nèi)存限制，可以在iPhone等各類硬件設(shè)備上運行AI模型。該項目是由CMU助理教授，OctoML CTO陳天奇等多位研究者共同開發(fā)的，團(tuán)隊以機(jī)器學(xué)習(xí)編譯（MLC）技術(shù)為基礎(chǔ)來高效部署AI模型。MLC-LLM上線不到兩天，GitHub的Star量已經(jīng)接近一千。有人已經(jīng)測試了在iPhone的飛行模式下本地跑大語言模型。

和國外谷歌、高通強(qiáng)調(diào)大模型在端側(cè)本地部署，可以離線運行不同，目前國內(nèi)手機(jī)廠商優(yōu)先考慮的是將大模型落地在手機(jī)語音助手或者現(xiàn)有的圖片搜索功能上，這種升級本質(zhì)還是調(diào)用更多云端能力來使用大模型。

此次，小米就是將大模型用在了語音助手小愛同學(xué)上。但由于目前小米端側(cè)大模型相關(guān)信息尚未披露，無法準(zhǔn)確判斷之后小米大模型的發(fā)展路徑。從雷軍強(qiáng)調(diào)的本地部署和輕量化的方向來看，未來小米可能會嘗試大模型在手機(jī)端離線運行。

華為也在嘗試大模型在手機(jī)端的落地，不過重點瞄準(zhǔn)的依舊是手機(jī)語音助手和搜圖場景。此前4月，華為新發(fā)布的手機(jī)P60上，智慧搜圖新功能背后就是多模態(tài)大模型技術(shù)，過程中在手機(jī)端側(cè)對模型進(jìn)行小型化處理。近期，華為新升級的終端智能助手小藝也基于大模型進(jìn)行體驗優(yōu)化，可以根據(jù)語音提示推薦餐廳、進(jìn)行摘要總結(jié)等新功能。

OPPO、vivo也在這個方向發(fā)力，8月13日，OPPO宣布，基于AndesGPT打造的全新小布助手即將開啟體驗，從資料中可以看到，小布助手集合大模型能力之后，在對話、文案撰寫等方面的能力會有所加強(qiáng)。AndesGPT是OPPO 安第斯智能云團(tuán)隊打造的基于混合云架構(gòu)的生成式大語言模型。

對于手機(jī)廠商而言，不管是本地部署，還是調(diào)用云端能力，大模型之于手機(jī)，都是一個不可錯失的新機(jī)會。

3.大模型跑在手機(jī)上，關(guān)鍵難題在哪兒？

讓大模型跑在手機(jī)上不是一件容易的事。

算力是首要問題。在手機(jī)端使用大模型，不僅需要調(diào)用云端算力還需要調(diào)用終端設(shè)備的算力，由于大模型的大資源消耗，每一次的調(diào)用都意味著很高的成本。Alphabet董事長John Hennessy曾提到，用大語言模型的搜索成本比此前的關(guān)鍵詞搜索成本高出10倍。去年，谷歌有3.3萬億次搜索查詢，成本約為每次五分之一美分。華爾街分析師預(yù)測，如果谷歌用大語言模型來處理一半的搜索問題，每次提供的答案為50個單詞左右，到2024年，谷歌可能面臨60億美元的支出增長。

（圖源：路透社）

手機(jī)端運行大模型面對類似的成本難題，在高通發(fā)布的《混合AI是AI的未來》報告中提到，就像傳統(tǒng)計算從大型主機(jī)和客戶端，演變?yōu)楫?dāng)前云端和邊緣終端相結(jié)合的模式一樣，端側(cè)運行大模型也需要混合AI架構(gòu)，讓云端和邊緣終端之間分配并協(xié)調(diào)AI工作負(fù)載，從而能讓手機(jī)廠商利用邊緣終端的計算能力降低成本。讓大模型實現(xiàn)本地部署就是出于這一成本問題的考量。

此外，手機(jī)作為每個人的私人物品，是數(shù)據(jù)產(chǎn)生的地方，本地也存放著大量的私人數(shù)據(jù)，如果能夠?qū)崿F(xiàn)進(jìn)行本地部署，在安全性、隱私等方面為個人提供了保障。

這就帶來了第二個難題，如果想更多地調(diào)用端側(cè)能力來運行大模型，如何讓手機(jī)的能耗很低，同時還能讓模型的效果很強(qiáng)？

高通曾對外稱，之所以能將大模型部署到手機(jī)等本地設(shè)備上，關(guān)鍵能力在于高通軟硬件全棧式的AI優(yōu)化，其中包括高通AI模型增效工具包（AIMET）、高通AI引擎和高通AI軟件棧等相關(guān)技術(shù)，可以壓縮模型體積，加速了推理，并降低運行時延和功耗。高通全球副總裁兼高通AI研究負(fù)責(zé)人侯紀(jì)磊曾提到，高通在高效能AI研發(fā)中，一個重要的部分是整體模型效率研究，目的是在多個方向縮減AI模型，使其在硬件上高效運行。

單模型壓縮就是一個不小的難點。有的模型壓縮會對大模型的性能造成損失，有一些技術(shù)方式可以做到無損壓縮，這些都需要借助各種工具進(jìn)行不同方向的工程化嘗試。

這些關(guān)鍵的軟硬件能力對于手機(jī)廠商而言都是很大挑戰(zhàn)。如今，很多手機(jī)廠商都邁出了在手機(jī)上跑大模型的第一步。接下來，如何讓更好的大模型，更經(jīng)濟(jì)、更高效地落在每一部手機(jī)中反而是更難、更關(guān)鍵的一步。

冒險才剛剛開始。

（封面圖來源：小米）

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

1.小米不做通用大模型，核心團(tuán)隊約30人

2.谷歌、高通、華為紛紛入局

3.大模型跑在手機(jī)上，關(guān)鍵難題在哪兒？

2.谷歌、高通、華為紛紛入局