今天,全球首個端側(cè)全模態(tài)理解開源模型 Megrez-3B-Omni 正式發(fā)布!它專為手機、平板等設(shè)備設(shè)計,體積輕巧、速度飛快,能夠處理圖片、音頻和文本三種模態(tài)數(shù)據(jù),堪稱全能選手。
該模型采用30億參數(shù)的黃金尺寸,主干網(wǎng)絡(luò)參數(shù)僅2.3B,卻在精度上超越了14B模型,并在推理速度上領(lǐng)先同級模型300%。不僅性能卓越,還能滿足端側(cè)設(shè)備的算力限制。
在多種測評基準(zhǔn)中,Megrez-3B-Omni表現(xiàn)驚艷:綜合性能甚至超越了34B的大模型。在圖像、文本、音頻三大模態(tài)的同尺寸測試中,它始終穩(wěn)居第一。
作為無問芯穹“端模型+端軟件+端IP”戰(zhàn)略的重要組成,Megrez-3B-Omni不僅是技術(shù)的突破,更是實現(xiàn)端側(cè)AGI不可或缺的一環(huán),將推動智能設(shè)備的理解力進入全新高度。
通過 Megrez-3B-Omni,用戶能享受更高效的日常交互,比如圖像識別、語音提煉或文本處理,均可輕松應(yīng)對。
Megrez-3B-Omni 在圖像理解領(lǐng)域表現(xiàn)卓越,憑借僅3B的體量,在OpenCompass、MME、MMMU、OCRBench等測試集中超越34B模型,成為目前精度最高的圖像理解模型之一。
在場景理解任務(wù)中,Megrez-3B-Omni能精準(zhǔn)洞察任意比例圖像的內(nèi)容,輕松解析復(fù)雜場景。這種能力讓它可以協(xié)助用戶高效完成商品選擇等實際應(yīng)用。
OCR任務(wù)中,Megrez-3B-Omni不僅能準(zhǔn)確識別模糊印刷字體,還能解析復(fù)雜手寫字,無論內(nèi)容多樣還是格式復(fù)雜,都能快速提取關(guān)鍵文本信息。
Megrez-3B-Omni在文本理解方面展現(xiàn)了極高水平,將上一代14B大模型的能力壓縮至3B規(guī)模,同時顯著降低計算成本,提升效率,實現(xiàn)了性能與資源利用的最佳平衡。
在 C-EVAL、MMLU/MMLU Pro、AlignBench 等權(quán)威測試集上,Megrez-3B-Omni 穩(wěn)居榜首,成為端側(cè)模型精度的全球領(lǐng)先者。其表現(xiàn)為設(shè)備智能化開辟了新路徑。
憑借高效的架構(gòu)設(shè)計,Megrez-3B-Omni 以更少的資源實現(xiàn)更高的性能,為文本理解提供了強大的支持,進一步突破了精度與速度的傳統(tǒng)邊界,為端側(cè)應(yīng)用帶來更多可能性。
Megrez-3B-Omni 在音頻理解上效果卓越,支持中英文語音輸入,能夠處理復(fù)雜的多輪對話場景。同時,用戶還能通過語音對圖片或文字提問,實現(xiàn)跨模態(tài)自由切換。
通過語音指令,Megrez-3B-Omni 可直接生成文本響應(yīng),無需額外操作,讓交互更加直觀自然。無論是提問圖片內(nèi)容還是聽口令生成長文,都能輕松應(yīng)對。
在多模態(tài)交互中,用戶可隨時切換語音與文本輸入模式。Megrez-3B-Omni 的設(shè)計降低了用戶操作門檻,大幅提升了端側(cè)設(shè)備在多模態(tài)場景下的交互效率和體驗感。
Megrez-3B-Omni 的推理效率堪稱行業(yè)標(biāo)桿。憑借軟硬件協(xié)同優(yōu)化策略,該模型將參數(shù)設(shè)計與主流硬件深度適配,充分發(fā)揮硬件性能,實現(xiàn)速度與精度的完美平衡。
與其他端側(cè)大語言模型相比,單模態(tài)版本 Megrez-3B-Instruct 推理速度提升顯著,最高可領(lǐng)先同精度模型300%,即使在復(fù)雜場景下也能流暢運行。
這表明,模型規(guī)模并非速度的唯一決定因素。通過精準(zhǔn)優(yōu)化,Megrez-3B-Omni 打破了體量與性能的限制,為端側(cè)設(shè)備的智能化處理樹立了全新標(biāo)桿。
Megrez-3B-Instruct提供了WebSearch功能,能夠智能判斷何時調(diào)用外部網(wǎng)頁搜索來輔助回答用戶問題。這使用戶可以構(gòu)建屬于自己的AI搜索系統(tǒng),實時獲取最新信息,彌補小模型在知識儲備上的局限。
模型在回答問題時會根據(jù)實際需求智能切換:當(dāng)內(nèi)置知識足夠時,可直接完成推理;當(dāng)需要更全面的信息時,自動調(diào)用網(wǎng)絡(luò)搜索。這種動態(tài)調(diào)整避免了過度依賴搜索影響速度,也解決了完全不搜索帶來的回答不準(zhǔn)確問題。
WebSearch的引入不僅提升了回答的精準(zhǔn)度,還能輸出帶參考來源的結(jié)構(gòu)化信息,為用戶提供可靠的答案。配合強大的上下文理解能力,Megrez-3B-Instruct在復(fù)雜場景中表現(xiàn)尤為出色。
此外,用戶可通過System Prompt自定義模型行為,靈活切換搜索與對話模式。這種高自由度設(shè)計,讓端側(cè)設(shè)備既保留輕量化特性,又能享受AI搜索帶來的智能輔助,滿足多元化應(yīng)用需求。
無問芯穹團隊源自清華大學(xué)NICS-EFC實驗室,在模型壓縮、推理加速和硬件優(yōu)化領(lǐng)域積累了豐富經(jīng)驗。基于軟硬件協(xié)同的理念,Megrez-3B-Omni 開啟了端側(cè)智能的新篇章,為輕量化模型的高效運行樹立了標(biāo)桿。
除了Megrez-3B-Omni,無問芯穹還推出端上推理軟件和IP設(shè)計方案。這些解決方案支持CPU、GPU和NPU同時推理,通過跨軟硬件的優(yōu)化,性能可提升70%。適配從手機到智能眼鏡的多種設(shè)備,覆蓋豐富的生活和工作場景。
未來,無問芯穹將持續(xù)迭代Megrez系列,推動自動化水平進一步提升。通過“端模型+端軟件+端IP”一體化設(shè)計,降低能耗、提升推理速度,力求在端側(cè)設(shè)備上實現(xiàn) AGI 的早日到來。
目前,Megrez-3B-Omni已在Github、HuggingFace、ModelScope等社區(qū)開放下載,并提供在線體驗或API接口。無問芯穹正攜手智能設(shè)備和芯片廠商,共同推進端側(cè)智能邁向新高度。
如果你覺得這篇文章對你有所幫助,歡迎點贊、收藏以及轉(zhuǎn)發(fā)分享。同時,請關(guān)注我,以獲取更多關(guān)于人工智能的最新資訊和見解!
Github:https://github.com/infinigence/Infini-Megrez
HuggingFace:https://huggingface.co/Infinigence/Megrez-3B-Omni
Infini-AI異構(gòu)云:https://cloud.infini-ai.com/genstudio/model/mo-c73owqiotql7lozr
Modelers:https://modelers.cn/models/INFINIGENCE-AI/Megrez-3B-Omni
ModelScope:https://www.modelscope.cn/models/InfiniAI/Megrez-3B-Omni
參考:
https://mp.weixin.qq.com/s/aWtZnw3nf4Fpx_xRGN-REw