精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
牛津大學提出全新生成式模型「SQAIR」,用于移動目標的視頻理解


原文來源:arXiv

作者:Adam R. Kosiorek、Hyunjik Kim、Ingmar Posner、Yee Whye Teh 

「雷克世界」編譯:嗯~阿童木呀


導語:可以這樣說,對移動目標的視頻分析和理解是很復雜的,最近,牛津大學(University of Oxford)的科學家們提出了一種全新的具有可解釋性的深度生成式模型——SQAIR,它是一種通過為每一個目標進行參與、推理、重復等操作進行視頻理解和目標檢測的模型。它能夠在整個幀序列中可靠地發現和追蹤目標,且能夠基于當前幀生成未來的幀。


在本文中,我們提出了序列參與、推理、重復(Sequential Attend, Infer, Repeat,SQAIR),這是一種用于可移動目標視頻的具有可解釋性的深度生成式模型。它可以在整個幀序列中可靠地發現和追蹤目標,還能夠基于當前幀生成未來的幀,從而模擬目標的預期運動。這是通過在模型的潛在變量中顯示地對目標的存在、位置和外觀進行編碼實現的。SQAIR保留了其前任的所有優點,參與、推理、重復(AIR,Eslami等人于2016年提出),包括以無監督的方式進行學習,并解決其缺點。我們使用移動的多MNIST數據集來顯示AIR在檢測重疊或部分遮擋目標時所存在的局限性,并展示SQAIR是如何通過利用目標的時間一致性來克服這些缺點的。最后,我們還將SQAIR應用于現實世界的行人閉路電視(Closed-Circuit Television,CCTV)數據,在那里,它學習以一種無監督的方式可靠地檢測、追蹤和生成步行的行人。

 

圖1:左:在AIR中的生成;右:在SQAIR中的生成。


可以這樣說,在他們的環境中識別目標并理解他們之間關系的能力是人類智力的基石(Kemp和Tenenbaum于2008年提出)。可以說,在這樣做的過程中,我們依賴于空間和時間一致性的概念,這個概念引發了一個期望,即目標不會憑空出現,也不會自發地消失,并且它們可以通過諸如位置、外觀以及一些解釋它們隨著時間的演變的動態行為進行描述。我們認為這種一致性的概念可以被看作是一種歸納偏差(inductive biases),可以提高我們學習的效率。同樣,我們認為將這種對時空一致性的偏差引入到我們的模型中應該會大大減少學習所需的監督量。


圖2:左:AIR中的推理;右:SQAIR中從傳播(PROP)階段開始的推理。


實現這種歸納偏差的一種方式是通過模型結構。盡管最近在深度學習方面所取得的成功表明,即使沒有明確地為模型賦予那種具有可解釋性的結構,這種進步也是可以取得的(LeCun和Bengio等人于2015年提出),但最近的研究表明,將這種結構引入深度模型確實可以導致有利的歸納偏差從而提高性能表現,如卷積神經網絡(LeCun和Boser等人于1989年提出),或那些需要關系推理的任務(Santoro等人于2017年提出)。除此之外,結構還可以通過顯著提高泛化能力、數據效率(Jacobsen等人于2016年提出),或將其能力擴展到非結構化輸入(Graves等人于2016年提出),從而使神經網絡能夠在新的環境中有用。


 圖3:左:SQAIR中PROP和DISC之間的交互;右:單一傳播塊(頂部)和發現塊(底部)中的信息流。


由Eslami等人于2016年所引進的參與、推理、重復(AIR)是這種結構化概率模型(structured probabilistic model)的一個顯著示例,它依賴于深度學習并承認有效的攤銷推理(amortized inference)。在沒有任何監督的情況下進行訓練,AIR能夠將一個可視化的場景分解為其構成組件,并生成大量(已學習)的潛變量,而這些變量能夠明確地對每個目標的位置和外觀進行編碼。雖然這種方法令人鼓舞,但它對單一(以及固有的靜態)場景建模的聚焦導致出現了許多局限性。例如,它通常將兩個靠的很近的目標合并為一個目標,因為沒有時間上下文可用于對它們進行區分。


圖4:輸入圖像(頂部)和帶有明顯閃光位置的SQAIR重構(底部)。


同樣,我們研究證明,AIR也很難識別部分遮擋的目標,例如當它們超出場景框架的邊界時(參見圖5)。


圖5:輸入,具有明顯閃光位置的重構以及閃光重構AIR(左)和SQAIR(右)。SQAIR可以通過聚合時間信息來對部分可視化和重疊的目標進行建模。


在此研究中,我們的貢獻是通過引入一個序列版本來減輕AIR的缺點,即對幀序列進行建模,使其能夠隨著時間的推移發現和追蹤目標,并在未來產生令人信服的幀外推(extrapolations of frames)。我們通過利用時間信息來學習一個更豐富、更有能力的生成式模型來實現這一目標。具體而言,我們將AIR擴展到時空狀態空間模型(spatio-temporal state-space model)中,并在動態目標的未標記的圖像序列上對其進行訓練。我們將對結果模型進行展示,并且我們將其命名為序列 AIR(Sequential Attend,Infer,Repeat,SQAIR),它在綜合和現實世界的場景中性能表現優于原始AIR的同時,還保留了原始AIR構想的優勢。


總而言之,在本文中,我們將AIR擴展到圖像序列,從而實現時間一致的重建和樣本。我們指定了一個概率模型和一個相應的實現,它們可以利用由AIR引入的結構。在這樣做的過程中,我們提高了解決重疊目標問題的能力。


就我們所知,這是第一個使用可學習似然的方法呈現無監督目標檢測和追蹤的研究,它借助于目標的生成式建模方法,特別是通過時間對其外觀和位置進行明確建模。作為一個生成式模型,它可以用于條件式生成,其中,它可以將序列推斷到未來。因此,在一個強化學習環境中,將它與Weber等人(于2017年提出)的想象力增強智能體(Imagination-Augmented Agents)一起使用,或更為普遍地作為一種世界模型(Ha和Schmidhuber于2018年提出),尤其是對于那些具有簡單背景的環境,例如,像《蒙特祖瑪的復仇》(Montezuma’s Revenge)或《吃豆人》(Pacman)這樣的游戲。


該框架為進行進一步的研究提供了各種途徑。SQAIR能夠導致具有可解釋性的表征,但是通過使用可解決目標中變化因素的可替代性目標,就可以進一步提高變量的可解釋性(Kim和Mnih于2018年提出)。此外,在目前的狀態下,SQAIR的運行只能使用簡單的背景和靜態攝像頭。而在未來的研究中,我們將會想辦法解決這個缺點,并加快序列推理過程,其復雜性與目標數量呈線性關系。生成式模型——目前假設為附加的圖像合成,性能可以進一步得以改進,例如,自回歸建模(autoregressive modelling,Oord等人于2016年提出)。它可以導致模型具有更高的保真度,且也改善被遮擋目標的處理。最后,SQAIR模型是非常復雜的,而且執行一系列消融研究以更密切地研究不同組分的重要性將是非常有用的。


原文鏈接:https://arxiv.org/pdf/1806.01794.pdf


本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
對話AAAI-17論文作者Yusuf Erol、吳翼和李磊:從預設參數濾波算法到概率編程
拯救數據科學的“半貝葉斯人”
「可解釋知識圖譜推理」最新方法綜述
讓神經網絡變得透明-因果推理對機器學習的八項助力
實現認知AI需要解決的三個核心問題
Nat.Mach.Intell.| 自適應和可解釋的藥靶預測模型
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 布拖县| 苏尼特右旗| 六枝特区| 喀喇| 拜泉县| 农安县| 白水县| 涟源市| 东乡县| 广宗县| 楚雄市| 临安市| 宜宾市| 怀仁县| 会东县| 阿瓦提县| 十堰市| 关岭| 剑阁县| 敦化市| 康乐县| 绥棱县| 五常市| 奉贤区| 宜章县| 麦盖提县| 绥中县| 胶南市| 忻城县| 固原市| 龙游县| 青冈县| 瓦房店市| 翼城县| 厦门市| 饶平县| 阜新| 尚志市| 嘉定区| 青岛市| 杨浦区|