精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
超越GPT-4!華人團隊爆火InstructBLIP搶跑看圖聊天,開源項目橫掃多項SOTA
GPT-4看圖聊天還沒上線,就已經(jīng)被超越了。
近來,華人團隊開源了多模態(tài)基礎(chǔ)模型InstructBLIP,是從BLIP2模型微調(diào)而來的模型。

BLIP家族中增加了一個新成員:InstructBLIP
據(jù)介紹,InstructBLIP模型更擅長「看」、「推理」和「說」,即能夠?qū)?fù)雜圖像進行理解、推理、描述,還支持多輪對話等。
比如,下圖這一場景可能發(fā)生了什么?
InstructBLIP推理出,可能颶風,或者惡劣的天氣因素造成的。
給我介紹下這幅畫
進行多輪對話
研究人員表示,正是基于強大BLIP-2,才使得InstructBLIP「看」的更好。
最最重要的是,InstructBLIP在多個任務(wù)上實現(xiàn)了最先進的性能,甚至在圖片解釋和推理上表現(xiàn)優(yōu)于GPT4。
為啥如此之強?

新王者:InstructBLIP


InstructBLIP的主要意義就在于解決視覺-語言指令微調(diào)中的挑戰(zhàn),并對模型未見過的數(shù)據(jù)和任務(wù)的改進泛化能力進行系統(tǒng)研究。

論文地址:https://arxiv.org/pdf/2305.06500.pdf
在論文中,研究人員首先介紹了指令微調(diào)數(shù)據(jù)的構(gòu)建,然后則是具體的訓(xùn)練過程。
之后,分別從模型和數(shù)據(jù)的角度闡述了兩種提高指令微調(diào)性能的技術(shù)。
為了保證指令微調(diào)數(shù)據(jù)的多樣性,同時考慮到它們的可及性,研究人員收集了大量公開可用的視覺語言數(shù)據(jù)集,并將它們轉(zhuǎn)化為指令微調(diào)格式。
下圖中,研究人員最終收集的數(shù)據(jù)涵蓋了11個任務(wù)類別和28個數(shù)據(jù)集。
其中包括圖像字幕、帶有閱讀理解的圖像字幕、視覺推理、圖像問題回答、基于知識的圖像問題回答,帶閱讀理解的圖像問題回答,圖像問題的生成(與QA數(shù)據(jù)集相反),視頻問題回答,視覺對話問題回答,圖像分類,以及LLaVA-Instruct-150K。
對于每一項任務(wù),研究人員都會用自然語言制作10-15個不同的指令模板。這些模板是構(gòu)建指令微調(diào)數(shù)據(jù)的基礎(chǔ),它闡明了任務(wù)并劃定了目標。
對于固有的偏向于短反應(yīng)的公共數(shù)據(jù)集,研究人員在一些相應(yīng)的指令模板中使用較短的術(shù)語,以減少模型適應(yīng)總是生成短回應(yīng)的風險。
對于LLaVA-Instruct-150K數(shù)據(jù)集,研究人員沒有加入額外的指令模板,因為它是自然結(jié)構(gòu)的指令格式。
現(xiàn)有的零樣本圖像到文本的生成方法,包括BLIP-2,在提取視覺特征時采取了與指令并無關(guān)系的方法。
也就是說,LLM中的視覺輸入是不知道指令的,這并不利于該模型在不同任務(wù)中的靈活性。
相比之下,指令感知的視覺模型可以提高模型從不同指令中學(xué)習(xí)的能力。
舉例來說,咱們考慮兩種情況:輸入同一圖像,模型被要求完成兩個不同的任務(wù);以及,給定兩個不同的圖像,模型被指示完成同一任務(wù)。
在第一種情況中,一個指令感知的視覺模型可以根據(jù)指令從同一圖像中提取不同的特征,在解決不同任務(wù)時呈現(xiàn)出更多的信息特征。
而在第二種情況中,一個指令感知的視覺模型可以利用指令中體現(xiàn)的共同知識來提取兩個不同圖像的特征,從而實現(xiàn)圖像之間更好的信息轉(zhuǎn)移。
InstructBLIP通過充分利用BLIP-2模型中的Q-Former架構(gòu),提出了一種指令感知的視覺特征提取方法。
如上圖所示,Q-Former被設(shè)計用來從一個凍結(jié)的圖像編碼器的輸出中提取視覺特征。
根據(jù)BLIP-2的論文,Q-Former已經(jīng)分成兩個階段進行了預(yù)訓(xùn)練,通過預(yù)訓(xùn)練,它學(xué)會了提取可以被LLM消化的文本對齊的視覺特征。
在推理過程中,一個指令被附加在視覺提示之后,就可以指導(dǎo)LLM按照規(guī)定執(zhí)行不同的任務(wù)。
而在InstructBLIP中,指令文本不僅作為輸入給到LLM,同時也給到了QFormer。
由于訓(xùn)練數(shù)據(jù)集的數(shù)量眾多,而且每個數(shù)據(jù)集的大小差異很大,均勻地混合這些數(shù)據(jù)集可能會導(dǎo)致模型在較小的數(shù)據(jù)集上過度擬合,而在較大的數(shù)據(jù)集上擬合不足。
為了緩解這樣的問題,研究人員建議按照數(shù)據(jù)集的大小(即訓(xùn)練樣本的數(shù)量)進行采樣,并進行平方根平滑處理。一般來說,給定D個數(shù)據(jù)集的大小:
在訓(xùn)練期間,數(shù)據(jù)樣本從數(shù)據(jù)集d中被選中的概率被表述為,
除了這個加權(quán)公式外,研究人員還對某些數(shù)據(jù)集的權(quán)重進行了手動微調(diào),以提高其收斂性。
這是必要的環(huán)節(jié),因為各種數(shù)據(jù)集和任務(wù)的內(nèi)在差異,需要不同程度的訓(xùn)練強度,即使它們有類似的規(guī)模也是如此。
具體來說,研究人員降低了A-OKVQA(多選)的權(quán)重,增加了OKVQA的權(quán)重。

實驗結(jié)果


零樣本評估
研究人員首先在13個數(shù)據(jù)集上評估InstructBLIP模型,并將InstructBLIP與之前的SOTA模型BLIP-2和Flamingo進行比較。
如表所示,InstructBLIP在所有的數(shù)據(jù)集上都取得了新的零樣本的SOTA結(jié)果。
并且在所有的LLM上都超過了BLIP-2,這表明了視覺指令微調(diào)的有效性。
此外,指令微調(diào)提高了對未見過的任務(wù)類別(如視頻QA)的零樣本泛化能力。
盡管從未用時間視頻數(shù)據(jù)進行訓(xùn)練,但InstructBLIP在MSRVTT-QA上比之前的SOTA提高了47.1%。
最后,研究人員用最小的InstructBLIP FlanT5XL(4B)在所有六個共享評估數(shù)據(jù)集上評估,其表現(xiàn)優(yōu)于Flamingo-80B,平均相對改善率為24.8%。
指令調(diào)優(yōu)的消融研究
為了研究指令感知的視覺特征提取和數(shù)據(jù)集平衡策略的影響,研究人員通過在指令微調(diào)過程中分別移除它們來進行消融研究。
在所有的數(shù)據(jù)集中,視覺特征中缺乏指令感知會使性能明顯下降。在涉及空間視覺推理(如ScienceQA)或時間視覺推理(如iVQA)的數(shù)據(jù)集中,這種性能下降更為嚴重。
在這些數(shù)據(jù)集中,給Q-Former輸入指令可,以引導(dǎo)它更多地關(guān)注信息量更大的圖像嵌入。
關(guān)于數(shù)據(jù)平衡策略,移除它會導(dǎo)致不穩(wěn)定的訓(xùn)練模式,因為不同的數(shù)據(jù)集在明顯不同的訓(xùn)練步驟中達到最佳性能。因此,這種不穩(wěn)定性損害了整體性能。
定性評估
此外,研究人員進一步使用更加多樣化的圖像和說明對Instruct-BLIP進行了定性研究。
比如使用GPT-4技術(shù)報告中的一張圖。「這張圖有什么不對勁的地方?」
從給出的回答中看出, InstructBLIP比GPT-4更全面,比LLaVA更視覺化,比MiniGPT-4更有邏輯性。
對于「蒙娜麗莎」這幅畫是誰畫的問題,InstructBLIP回答非常簡短。
在這里,研究人員認為長回應(yīng)不總是可取的。Instruct-BLIP 可以通過自適應(yīng)調(diào)整響應(yīng)長度直接解決用戶的意圖。
而其他模型傾向于生成較長的段落,以及較不相關(guān)的句子。
Instructlip能夠取得這些優(yōu)勢,是使用多樣化的指令調(diào)優(yōu)數(shù)據(jù)和有效的架構(gòu)設(shè)計的結(jié)果。
另外,通過研究發(fā)現(xiàn),指令調(diào)整是提高模型零樣本泛化能力的關(guān)鍵。
基于BLIP-2 FlanT5XL的指令調(diào)優(yōu)和多任務(wù)訓(xùn)練的比較
此外,研究人員進一步對InstructBLIP模型進行微調(diào),研究其在學(xué)習(xí)特定數(shù)據(jù)集上的表現(xiàn)。
與大多數(shù)以前的方法(如Flamingo,BLIP-2)相比,InstructBLIP在指令微調(diào)期間保持相同的圖像分辨率(224×224),并在微調(diào)期間保持視覺編碼器的凍結(jié)狀態(tài)。
這大大減少了可訓(xùn)練參數(shù)的數(shù)量,從1.2B到188M,從而大大提高了微調(diào)效率。

作者介紹


Wenliang Dai
Wenliang Dai (戴文亮)是香港科技大學(xué)的博士研究生,導(dǎo)師是Pascale Fung教授。在此之前,他曾獲得倫敦大學(xué)學(xué)院碩士學(xué)位,諾丁漢大學(xué)計算機學(xué)士學(xué)位。
Junnan Li
Salesforce亞洲研究院科學(xué)家,香港大學(xué)電子工程學(xué)學(xué)士,新加坡國立大學(xué)計算機博士,主要研究方向計算機視覺和深度學(xué)習(xí)、非監(jiān)督式學(xué)習(xí),弱監(jiān)督學(xué)習(xí),遷移學(xué)習(xí)和社交場景理解。

其他SOTA


網(wǎng)友表示,近來提出類似InstructBLIP的多模態(tài)模型還有,MiniGPT-4,以及LLaVA。
MiniGPT-4也能夠看圖聊天,比如傳一張海鮮大餐照片上去,就能直接獲得菜譜。
對于,MiniGPT-4能夠做到這么好的效果,實現(xiàn)起來卻并不復(fù)雜。
把圖像編碼器與開源語言模型Vicuna整合起來,并且凍結(jié)了這兩者大部分參數(shù),只需要訓(xùn)練很少一部分。
另外,團隊讓MiniGPT-4與ChatGPT合作創(chuàng)建了3500個圖像文本的高質(zhì)量數(shù)據(jù)集,也一并開源。
還有LLaVA,是用一個小的多模態(tài)指令數(shù)據(jù)集訓(xùn)練的,但它在一些示例上展示了與多模態(tài)模型 GPT-4 非常相似的推理結(jié)果。

參考資料:
https://twitter.com/LiJunnan0409/status/1656821806593101827
https://arxiv.org/abs/2305.06500
https://github.com/salesforce/LAVIS/tree/main/projects/instructblip

                                          

轉(zhuǎn)自:新智元

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
正面硬剛GPT-4V!浙大校友開源多模態(tài)大模型LLaVA-1.5,130億參數(shù)8個A100一天訓(xùn)完
系統(tǒng)學(xué)習(xí)大模型的20篇論文
介紹 FLAN:具有指令微調(diào)功能的更通用的語言模型
什么是LLM大語言模型?Large Language Model,從量變到質(zhì)變
Paper:《Instruction Tuning for Large Language Models: A Survey—大型語言模型的指令調(diào)優(yōu)的綜述》翻譯與解讀
LLM成功不可或缺的基石:RLHF及其替代技術(shù)
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 广宁县| 南京市| 千阳县| 沙田区| 广西| 汉川市| 沾益县| 平顶山市| 内乡县| 石首市| 鲜城| 固始县| 沾益县| 蛟河市| 开鲁县| 正阳县| 兴宁市| 田东县| 北川| 寻乌县| 军事| 萝北县| 平南县| 兰州市| 中超| 肇州县| 烟台市| 自贡市| 东乡族自治县| 乡城县| 北川| 西盟| 黎城县| 洪泽县| 淮安市| 密山市| 秦皇岛市| 福安市| 宜丰县| 漯河市| 古丈县|