重磅干貨,第一時間送達
摘要
當場景中存在嚴重的遮擋時,作者的視頻理解系統能感知對象嗎?為了回答這個問題,作者收集了一個名為OVIS的大規模數據集,用于遮擋視頻實例分割,即同時檢測、分割和跟蹤遮擋場景中的實例。OVIS由來自25個語義類別的296k高質量實例掩碼組成,對象遮擋通常發生在這些類別中。雖然作者人類的視覺系統可以通過上下文推理和關聯來理解那些被遮擋的實例,但作者的實驗表明,目前的視頻理解系統并不令人滿意。在OVIS數據集上,最先進的算法獲得的最高AP僅為14.4,這表明作者在理解真實場景中的對象、實例和視頻方面仍處于初級階段。在實驗中,提出了一個簡單的即插即用模塊,執行時間特征校準,以彌補遮擋導致的對象線索缺失。基于MaskTrack R-CNN和SipMask,作者在OVIS數據集上獲得了15.1和14.5的AP,在YouTube-VIS數據集上分別獲得了32.1和35.1的AP,相比最先進的方法有了顯著的改進。
總之,作者的貢獻有三方面:
·通過發布一個名為OVIS(閉塞視頻實例分割的簡稱)的新基準數據集,作者推進了視頻實例分割。OVIS的設計理念是在視頻中感知物體遮擋,這可以揭示現實場景的復雜性和多樣性。
·通過對五種最先進的視頻實例分割算法進行綜合評估,作者簡化了對OVIS數據集的研究,這可以為未來的OVIS研究提供基線參考。
·作者建議使用即插即用模塊來緩解遮擋問題。該模塊以MaskTrack R-CNN[50]和SipMask[3]為基線,在OVIS和Y ouTube-VIS上均取得了顯著的改進。
框架結構
時間特征校正的管道,可以通過改變下面的預測頭插入到不同的視頻實例分割模型中。
為了解決遮擋問題,作者還提出了一個即插即用的模塊,稱為時間特征校準。對于視頻中給定的查詢幀,作者使用參考幀來補充其缺失的對象線索。具體來說,該模塊在查詢幀的引導下學習參考幀的校準偏移量,然后利用該偏移量通過變形卷積來調整參考幀的特征嵌入。然后利用改進的參考嵌入來輔助查詢框架的對象識別。作者的模塊是一個高度靈活的插件。分別應用于MaskTrack R-CNN和SipMask,作者得到的AP為15.1和14.5,在AP上顯著優于相應基線3.3和2.8。
實驗結果
CMaskTrack R-CNN在OVIS上的定性評價
每行顯示視頻序列中5幀的結果。(a)-(c)是成功的案例,(d)和(e)是失敗的案例。
作者進一步在Y ouTube-VIS數據集上評估提出的CMaskTrack R-CNN和CSipMask。如表2所示,CMaskTrack R-CNN和CSipMask在AP方面分別超過了相應基線1.8和2.6,說明了本文提出的特征校準模塊的靈活性和泛化能力。此外,作者的方法也大大超過了其他有代表性的方法,如DeepSORT[45]、STEmSeg[1]等。在[2]中,Gedas等人提出了MaskProp,用一種新的掩模傳播機制替代了MaskTrack RCNN中的邊界盒級跟蹤。通過使用更好的檢測網絡(HybridTask Cascade network[4])、更高的分割網絡輸入分辨率和更多的訓練迭代,它在Y ouTube-VIS上獲得了更高的AP 40.0。作者相信作者的模塊也可以插入到這個強大的基線中,并且可以實現更好的性能。同時,MaskProp代碼發布后在OVIS上的性能評估也很有趣。
結論
在本研究中,作者以遮擋場景下的視頻實例分割為目標,并據此建立了一個名為OVIS的大規模數據集。OVIS由5223個嚴重閉塞實例的296k高質量實例掩碼組成。雖然OVIS是繼Y ouTube-VIS之后的第二個基準數據集,但其設計目的是檢查當前視頻理解系統在處理對象遮擋方面的能力。總的結論是,OVIS的基線性能遠低于Y ouTube-VIS,這表明未來需要更多的努力來解決對象遮擋或解除對象[51]遮擋。作者還探索了利用時間上下文線索來緩解遮擋問題的方法,并在OVIS上獲得了15.1的AP,在Y ouTube-VIS上獲得了35.1的AP,這與最先進的算法相比是一個顯著的收獲。在未來,作者感興趣的是在無監督、半監督或交互式設置下,為視頻對象分割形成OVIS的實驗軌跡。將OVIS擴展到視頻全景分割[21]也是至關重要的。最后,合成遮擋數據[33]需要進一步的探索。作者相信OVIS數據集將引發更多在復雜和多樣場景下理解視頻的研究。
論文鏈接:https://arxiv.org/pdf/2102.01558.pdf
每日堅持論文分享不易,如果喜歡我們的內容,希望可以推薦或者轉發給周圍的同學。
- END -
#投 稿 通 道#
讓你的論文被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。深度學習愛好者 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
深度學習愛好者 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?? 來稿標準:
· 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)
· 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接
· 深度學習愛好者 默認每篇文章都是首發,均會添加“原創”標志