各位星友好,今天我們要為大家介紹一款名為MiniGPT-4的神奇人工智能模型。這款模型基于大名鼎鼎的GPT-4技術(shù),能夠在多模態(tài)生成能力方面實現(xiàn)突破性進展,為我們展示了人工智能發(fā)展的新高峰。
相信大家都見證了ChatGPT 的對話能力,無論是文本生成能力,還是寫代碼的能力,甚至是上下文的關(guān)聯(lián)對話能力,無不一次又一次地震撼著我們。
最具有劃時代意義的是GPT-4實現(xiàn)了多模態(tài)的進階發(fā)展,所謂的多模態(tài),通俗來說,就是多個領(lǐng)域的技術(shù)融合與打通,我們知道,AI人工智能領(lǐng)域包含CV計算機視覺,以及NLP自然語言處理方向,二者是AI方向的不同專業(yè)領(lǐng)域,CV是計算機視覺的圖像方向,NLP則是自然語言處理的文本方向,所謂的多模態(tài)方向則是將視覺與文本方向進行對齊融合,實現(xiàn)圖像與文本數(shù)據(jù)的融合,完成更加復(fù)雜的處理任務(wù)。結(jié)合MiniGPT-4的模型,可以實現(xiàn)以下的功能:
我們大概可以對以上實現(xiàn)功能進行總結(jié),其實多模態(tài)方向?qū)崿F(xiàn)的就是“Text to image”或者“Image to text”,從而實現(xiàn)文本信息與圖像信息的融合交互。類似畫一個網(wǎng)站的草圖,GPT4 就可以立馬生成網(wǎng)站的 HTML 代碼。怎么樣是不是很酷炫!
但是GPT-4大模型,目前的功能還沒有開源這一部分功能,沒想到,我看到了這么一個項目。該項目名為 MiniGPT-4,是阿卜杜拉國王科技大學(xué)的幾位博士做的,而且項目是完全開源的,以下是Demo測試網(wǎng)頁效果圖,可以直接體驗效果。
在線體驗的網(wǎng)頁社區(qū)地址:https://minigpt-4.github.io,但是可能是在線體驗的人太多了,OpenAI的官方暫時將其后臺的接口進行了下架,不過今天(5月4號)我發(fā)現(xiàn)這個接口又重新上架了。
MiniGPT-4相比于GPT-4的最顯著的特點,顧名思義是模型體積優(yōu)化了不少,使得計算的延時也降低了不少,得益于MiniGPT-4 是在一些開源大模型基礎(chǔ)上訓(xùn)練得到的,fine tune 分為兩個階段,先是在 4 個 A100 上用 500 萬圖文對訓(xùn)練,然后再用一個一個小的高質(zhì)量數(shù)據(jù)集訓(xùn)練,單卡 A100 訓(xùn)練只需要 7 分鐘。
GPT-4承諾的實現(xiàn)的多模態(tài),以下是官方提供的一些圖像解釋的演示示例:
我們從以上的兩個官方演示示例中可以看到,MiniGPT-4實現(xiàn)了“描述圖片內(nèi)容”的功能,打通了圖像到文字的壁壘。大家可以使用自己的圖片試一試,而且回答不僅僅只限定是英文,以下是千尋使用網(wǎng)絡(luò)來源圖進行嘗試得到的實驗結(jié)果。
目前使用MiniGPT-4服務(wù)的人數(shù)較多,如果有技術(shù)基礎(chǔ)的小伙伴們,可以進行自己的模型服務(wù)部署,代碼部署流程如下:
1、拷貝官方代碼,并且配置運行環(huán)境:
2、準(zhǔn)備預(yù)訓(xùn)練的Vicuna權(quán)重,在模型配置文件,修改模型的路徑。
3、準(zhǔn)備預(yù)訓(xùn)練的MiniGPT-4模型權(quán)重,根據(jù)您準(zhǔn)備的Vicuna模型,下載預(yù)訓(xùn)練的MiniGPT-4模型
4、配置完畢,輸入指令運行:
運行過程需要保證有網(wǎng)絡(luò)鏈接,需要下載一些 BLIP 之類的依賴庫。如果覺得本地進行運行,自己配置深度學(xué)習(xí)環(huán)境比較麻煩,也可以直接使用開源的谷歌實驗室Colab的MiniGPT-4體驗地址:Jupyter Notebook
各位星球的小伙伴,大家趕快動手試試吧,嘗試一下MiniGPT-4,相信不久的將來,真正發(fā)布的GPT-4不僅僅是可以多模態(tài)輸入,還可以多模態(tài)輸出。AI 能根據(jù)我們的需求,生成我們需要的文本、圖像、音頻、甚至是視頻,擁抱ChatGPT改變生活,賦能創(chuàng)業(yè)生產(chǎn)。
第一次寫技術(shù)分享,給大家簡單介紹一下我自己,我是千與千尋,Top2計算機碩士,目前在大廠擔(dān)任研發(fā)工程師,專注于算法工程與后端研發(fā)領(lǐng)域,希望和星友一起學(xué)習(xí)ChatGPT,努力跟隨易洋哥做人工智能時代的“弄潮兒”。