掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
Bunny 團隊推出第一個基于 Llama-3 的多模態大模型!Bunny-Llama-3-8B-V 正式上線,超越一眾如 LLaVA-7B、LLaVA-13B、Mini-Gemini-13B模型。在眾多主流 Benchmark 上表現良好,具有更好的識別、數學和推理能力。
項目主頁:
https://github.com/BAAI-DCAI/Bunny
Bunny 模型采用了經典的 Encoder+Projector+LLM 架構,提供了一個可擴展的組合框架。支持多種 Vision Encoders,如 EVA CLIP、SigLIP 等,以及多種 LLM Backbone,包括 Phi-1.5、Phi-2、StableLM-2、Llama-3 等。靈活的架構設計便于用戶基于Bunny開展大模型研究。
Bunny-Llama-3-8B-V可以精確理解圖片并識別物體:
在這個餐廳中,Bunny-Llama-3-8B-V 理解并很好地描述了圖片:
模型也有很強的OCR能力:
場景理解能力:
在 Bunny 數據集上訓練好的 Bunny-Llama-3-8B-V 已經開放下載:
GitHub: https://github.com/BAAI-DCAI/Bunny
HuggingFace: https://huggingface.co/BAAI/Bunny-Llama-3-8B-V
Modelscope: https://modelscope.cn/models/BAAI/Bunny-Llama-3-8B-V
Wisemodel: https://wisemodel.cn/models/BAAI/Bunny-Llama-3-8B-V
預計會在未來發布性能更強悍的版本,STAY TUNED!
何愷明在MIT授課的課件PPT下載