精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
重磅!百度多模態(tài)模型ERNIE-ViL刷新5項(xiàng)任務(wù)記錄,登頂權(quán)威榜單VCR
機(jī)器之心報(bào)道

機(jī)器之心編輯部

近日,百度在多模態(tài)語義理解領(lǐng)域取得突破,提出知識增強(qiáng)視覺-語言預(yù)訓(xùn)練模型 ERNIE-ViL,首次將場景圖(Scene Graph)知識融入多模態(tài)預(yù)訓(xùn)練,在 5 項(xiàng)多模態(tài)任務(wù)上刷新世界最好效果,并在多模態(tài)領(lǐng)域權(quán)威榜單 VCR 上超越微軟、谷歌、Facebook 等機(jī)構(gòu),登頂榜首。此次突破充分借助飛槳深度學(xué)習(xí)平臺分布式訓(xùn)練領(lǐng)先優(yōu)勢。據(jù)機(jī)器之心了解,基于飛槳實(shí)現(xiàn)的 ERNIE-ViL 模型也將于近期開源。

多模態(tài)語義理解是人工智能領(lǐng)域重要研究方向之一,如何讓機(jī)器像人類一樣具備理解和思考的能力,需要融合語言、語音、視覺等多模態(tài)的信息。

近年來,視覺、語言、語音等單模態(tài)語義理解技術(shù)取得了重大進(jìn)展。但更多的人工智能真實(shí)場景實(shí)質(zhì)上同時(shí)涉及到多個(gè)模態(tài)的信息。例如,理想的人工智能助手需要根據(jù)語言、語音、動(dòng)作等多模態(tài)的信息與人類進(jìn)行交流,這就要求機(jī)器具備多模態(tài)語義理解能力。

近日,百度在該領(lǐng)域取得突破,提出業(yè)界首個(gè)融合場景圖知識的多模態(tài)預(yù)訓(xùn)練模型 ERNIE-ViL。百度研究者將場景圖知識融入到視覺-語言模型的預(yù)訓(xùn)練過程,學(xué)習(xí)場景語義的聯(lián)合表示,顯著增強(qiáng)了跨模態(tài)的語義理解能力。ERNIE-ViL 還在包括視覺常識推理、視覺問答、引用表達(dá)式理解、跨模態(tài)圖像檢索、跨模態(tài)文本檢索等 5 項(xiàng)典型多模態(tài)任務(wù)中刷新了世界最好效果。并在多模態(tài)領(lǐng)域權(quán)威榜單視覺常識推理任務(wù)(VCR)上登頂榜首。

  • 論文鏈接:https://arxiv.org/abs/2006.16934

  • ERNIE 開源地址:https://github.com/PaddlePaddle/ERNIE


ERNIE-ViL 登頂 VCR 榜單
 


VCR Leaderboard 最新版。子任務(wù)一:Q->A(Question Answering)。子任務(wù)二:QA→R(Answer Justification)。綜合得分:Q→AR:模型的綜合表現(xiàn)(兩個(gè)子任務(wù)都對才得分)。

上小學(xué)的時(shí)候,“看圖說話”在語文試卷中常年占據(jù)著一席之地。比如給出下面這張圖,讓我們描述圖里的人物在干什么、想什么、有著怎樣的心情。


同樣,在人工智能領(lǐng)域,機(jī)器也需要具備“看圖說話” 的能力。

如下邊這張圖,出題人問:“右邊的那個(gè)人是如何獲得她面前的錢的?”進(jìn)一步還要回答 “你為什么做出這樣的推斷?” 也就是說,模型不僅需要識別出圖像中的物體 “人”、“樂器”、“硬幣”,還需要對它們的關(guān)系 “人演奏樂器” 等進(jìn)行理解,并通過 “街頭表演掙錢” 這樣的常識進(jìn)行推理。 

  
VCR(Visual Commonsense Reasoning,視覺常識推理)就是由十幾萬這樣的圖片和問題組成的數(shù)據(jù)集。該數(shù)據(jù)集由華盛頓大學(xué)和艾倫人工智能研究所的研究者聯(lián)合創(chuàng)建,考查的是模型的多模態(tài)語義理解與推理能力。

微軟、谷歌、Facebook 等科技公司及 UCLA、佐治亞理工學(xué)院等頂尖高校都對該任務(wù)發(fā)起了挑戰(zhàn)。

6 月 24 號,該榜單被再次刷新,來自百度 ERNIE 團(tuán)隊(duì)的 ERNIE-ViL 在單模型效果和多模型效果上都取得了第一的成績,并在聯(lián)合任務(wù)上以準(zhǔn)確率領(lǐng)先榜單第二名 3.7 個(gè)百分點(diǎn)的成績登頂,超越了微軟、谷歌、Facebook 等機(jī)構(gòu)。

融合場景圖知識的 ERNIE-ViL


當(dāng)人們看到上面這張圖的時(shí)候,首先會關(guān)注圖中的物體(Objects)以及特點(diǎn)屬性(Attributes)和期間的關(guān)系(Relationships)。如:“車”、 “人”、“貓”、“房屋” 等物體構(gòu)成了圖片場景中的基本元素;而物體的屬性,如:“貓是白的”,“汽車是棕色的” 則對物體做了更精細(xì)的刻畫;物體間的位置和語義關(guān)系,如:“貓?jiān)谲嚿稀保败囋诜课萸啊?等,建立了場景中的物體的關(guān)聯(lián)。因此,物體、屬性和關(guān)系共同構(gòu)成了描述視覺場景的細(xì)粒度語義(Detailed Semantics)。

基于此觀察,百度的研究者將包含場景先驗(yàn)知識的場景圖(Scene Graph)融入到多模態(tài)預(yù)訓(xùn)練過程中,建模了視覺-語言模態(tài)之間的細(xì)粒度語義關(guān)聯(lián),學(xué)習(xí)到包含細(xì)粒度語義對齊信息的聯(lián)合表示。

如下圖所示,基于文本中解析出的場景圖,ERNIE-ViL 提出了三個(gè)多模態(tài)預(yù)訓(xùn)練的場景圖預(yù)測(Scene Graph Prediction)任務(wù):物體預(yù)測(Object Prediction)、屬性預(yù)測(Attribute Prediction)、關(guān)系預(yù)測(Relationship Prediction)。

  • 物體預(yù)測:隨機(jī)選取圖中的一部分物體,如圖中的“house”,對其在句子中對應(yīng)的詞進(jìn)行掩碼,模型根據(jù)文本上下文和圖片對被掩碼的部分進(jìn)行預(yù)測;

  • 屬性預(yù)測:對于場景圖中的屬性 - 物體對,如圖中的“<dress, blue>”,隨機(jī)選取一部分詞對其中的屬性進(jìn)行掩碼,根據(jù)物體和上下文和圖片對其進(jìn)行預(yù)測; 

  • 關(guān)系預(yù)測:隨機(jī)選取一部分 “物體 - 關(guān)系 - 物體” 三元組,如圖的“<cat, on top of, car >”,然后對其中的關(guān)系進(jìn)行掩碼,模型根據(jù)對應(yīng)的物體和上下文和圖片對其進(jìn)行預(yù)測。



通過場景圖預(yù)測任務(wù),ERNIE-ViL 學(xué)習(xí)到跨模態(tài)之間的細(xì)粒度語義對齊,如將語言中 “貓”、“車是棕色的”、“貓?jiān)谲嚿稀?等語義信息對應(yīng)到圖像中相應(yīng)的區(qū)域。

除以上提出的場景圖預(yù)測的任務(wù)外,ERNIE-ViL 的預(yù)訓(xùn)練還使用了掩碼語言模型(Masked Language Modelling)、掩碼圖像區(qū)域預(yù)測(Masked Region Prediction)、圖文對齊(Image-Text Matching)等任務(wù)。

實(shí)驗(yàn)結(jié)果

研究者通過視覺常識推理、視覺問答等多模態(tài)下游任務(wù),對 ERNIE-ViL 的模型能力進(jìn)行了驗(yàn)證。

除了在視覺常識推理任務(wù)上取得 SOTA 之外,ERNIE-ViL 在視覺問答、跨模態(tài)圖片檢索、跨模態(tài)文本檢索、引用表達(dá)式理解等任務(wù)上也刷新了 SOTA 結(jié)果。

引用表達(dá)式理解(Referring Expressions Comprehension, RefCOCO+)任務(wù)是給定一段自然語言描述,圖像中定位到相關(guān)的區(qū)域,該任務(wù)涉及到細(xì)粒度的跨模態(tài)語義對齊(自然語言短語與圖像區(qū)域),因此更加考查聯(lián)合表示對語義刻畫的精細(xì)程度,ERNIE-ViL 在該任務(wù)的兩個(gè)測試集上(testA、testB)對比當(dāng)前最優(yōu)效果均提升了 2.0 個(gè)百分點(diǎn)以上。

 
視覺問答(Visual Question Answering,VQA)任務(wù)是給定一個(gè)圖片以及文本描述的問題,要求模型給出答案。該任務(wù)需要對文本和圖像進(jìn)行更深入的理解和推理,同時(shí)該任務(wù)里的問題涉及細(xì)粒度的語義(物體、物體屬性、物體間關(guān)系),能夠檢驗(yàn)?zāi)P蛯τ趫鼍暗睦斫馍疃取RNIE-ViL 在該任務(wù)上以 74.93% 的得分取得了單模型的最好成績。

跨模態(tài)圖像 & 文本檢索 (Cross-modal Image-Retrieval,IR; Cross-modal Text-Retrieval,TR)任務(wù)是多模態(tài)領(lǐng)域的經(jīng)典任務(wù),給定圖像檢索相關(guān)的文本以及給定文本檢索相關(guān)的圖像。該任務(wù)實(shí)質(zhì)上是計(jì)算圖像模態(tài)和文本模態(tài)在語義上的相似度,要求模型同時(shí)兼顧整體語義和細(xì)粒度語義。ERNIE-ViL 在這兩個(gè)任務(wù)上分別以 R@1 提升 0.56 個(gè)百分點(diǎn)和 0.2 個(gè)百分點(diǎn)的結(jié)果刷新了 SOTA。


模型分析

百度研究者通過構(gòu)建多模態(tài)完形填空測試實(shí)驗(yàn),驗(yàn)證了 ERNIE-ViL 更強(qiáng)的跨模態(tài)知識推斷能力:給定一組圖片 - 文本對齊數(shù)據(jù),分別將文本中的物體、關(guān)系或?qū)傩栽~掩碼,讓模型根據(jù)上下文和圖片進(jìn)行預(yù)測。實(shí)驗(yàn)表明,在對文中表述細(xì)粒度語義的詞(物體、屬性、關(guān)系)進(jìn)行預(yù)測時(shí),ERNIE-ViL 表現(xiàn)更為優(yōu)越,準(zhǔn)確率分別提升 2.12%、1.31% 和 6.00%。

 
同時(shí),論文中給出了完形填空測試的若干實(shí)例,從下圖中可以看出,ERNIE-ViL 往往能夠更精確地預(yù)測出被掩碼的物體、屬性和關(guān)系,而基線模型往往只能預(yù)測出原有詞的詞性,但是很難準(zhǔn)確預(yù)測出具體的詞。


結(jié)語

聽懂、看懂、理解環(huán)境是人工智能的重要目標(biāo)之一,實(shí)現(xiàn)該目標(biāo)的首要任務(wù)是讓機(jī)器具備多模態(tài)語義理解能力。此次百度提出的知識增強(qiáng)多模態(tài)模型 ERNIE-ViL,首次將場景圖知識融入多模態(tài)模型的預(yù)訓(xùn)練過程,在視覺問答、視覺常識推理等 5 個(gè)任務(wù)上刷新紀(jì)錄,為多模態(tài)語義理解領(lǐng)域研究提供了新的思路。除了上述公開數(shù)據(jù)集效果突破外,ERNIE-ViL 技術(shù)也逐步在真實(shí)工業(yè)應(yīng)用場景中落地。未來百度將在該領(lǐng)域進(jìn)行更深入的研究和應(yīng)用,使其發(fā)揮更大的商業(yè)和社會價(jià)值。

7月11日09:00-12:00,機(jī)器之心聯(lián)合百度在WAIC 2020云端峰會上組織「開發(fā)者日百度公開課」,為廣大開發(fā)者提供 3 小時(shí)極致學(xué)習(xí)機(jī)會,從 NLP、CV 到零門檻 AI 開發(fā)平臺 EasyDL,助力開發(fā)者掌握人工智能開發(fā)技能。掃描圖中二維碼,加機(jī)器之心小助手微信邀您入群。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
【金猿技術(shù)展】文心ERNIE——基于知識增強(qiáng)的語義理解技術(shù)
百度文檔智能技術(shù)與應(yīng)用
多模態(tài) | 視覺常識推理任務(wù)榜單 top2 模型詳解
超越 GLIP! | RegionSpot: 識別一切區(qū)域,多模態(tài)融合的開放世界物體識別新方法
百度人工智能技術(shù)委員會主席何中軍:NLP技術(shù)始終走在變革的路上
文心一言是如何煉成的?
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 镇雄县| 阳春市| 阿拉尔市| 宜城市| 灵寿县| 孝义市| 长岛县| 睢宁县| 普兰县| 绥宁县| 乌拉特后旗| 晋中市| 吴川市| 景宁| 兖州市| 武川县| 鄂州市| 合山市| 中超| 清丰县| 云龙县| 通辽市| 开封县| 宜宾市| 吴忠市| 山阴县| 福清市| 商丘市| 舒城县| 成武县| 惠来县| 绵阳市| 萨嘎县| 灵武市| 新乐市| 繁峙县| 和龙市| 蓬莱市| 沁阳市| 望都县| 搜索|