自2020年偽裝目標檢測任務被提出后,領域內涌現出多個子任務、榜單性能不斷被刷新,2023年的我們如何快速上手偽裝場景理解?如何無痛發現最強模型是何方神圣?如何快速搶占下一個論文創新點?小編帶你一文知曉偽裝場景理解領域最新近況。
今天為大家介紹的這篇論文詳述了“偽裝場景理解”,作者團隊通過對 200多篇相關文獻進行全面調研、評測,從它們的性能、優點、缺點、復雜性等進行分析討論,強調了若干領域挑戰,構建了第一個面相應用場景的偽裝缺陷分割數據集CDS2K,并提供了多個潛在的研究方向。
論文標題:Advances in Deep Concealed Scene Understanding
綜述論文鏈接:https://arxiv.org/abs/2304.11234
項目地址:https://github.com/DengPingFan/CSU
在正式進入文章介紹前,我們先借助一張圖片來了解一下什么是“偽裝物體”,如下圖1中,左圖和右圖中分別隱藏了七只和六只小鳥,你發現了嗎?生物學家把這種現象稱為背景匹配偽裝,用于表示一個或者多個生物為了防止被發現,嘗試將其顏色與周圍環境“無縫地”匹配(答案請參見本文末圖6)。
圖1. 背景匹配偽裝示例
總結來說,偽裝場景理解(Concealed Scene Understanding, CSU)用于感知具有偽裝屬性的物體,是一個熱門的計算機視覺課題。有關“偽裝”的更多信息可以參考2022年刊表于TPAMI的期刊論文SINetV2 [1]:
◆ 論文鏈接:https://ieeexplore.ieee.org/document/9444794
◆ 中文介紹:https://cg.cs.tsinghua.edu.cn/jittor/news/2021-06-11-00-00-cod/
◆ GitHub項目:https://github.com/GewelsJI/SINet-V2
自2020年來,該領域涌現出多個任務分支和基準數據集,多個SOTA模型不斷突破性能上限。在如此蓬勃發展的技術和應用背景下,領域內亟需一個時間最新、范圍最廣、體量最大的綜述文章,以幫助那些初入領域的研究人員快速了解當前偽裝場景理解領域的整體發展近況,包括當前取得的成就以及未來的主要挑戰。
文字太長不看版本,該綜述主要提供如下四點貢獻:
◆ 針對偽裝任務背景、技術路線、數據集構建等進行了詳細回顧;
◆ 構建了當前領域內最新、最全面的偽裝目標分割測評系統,包括模型預測結果圖、基于九個評測指標數值、模型參數量、模型計算復雜度,詳細數據已經公開在GitHub網站:https://github.com/DengPingFan/CSU#csu-benchmark;
◆ 提供偽裝工業缺陷分割數據集CDS2K,包含來自多種工業場景中的困難樣例,用于驗證偽裝模型在工業應用上的可移植性;
◆ 嘗試討論了若干公開問題以及潛在的研究方向,特別是大模型的背景下偽裝視覺感知領域的發展挑戰與機遇。
▌任務背景
圖2. 七個常見的偽裝場景理解任務分類
當前偽裝場景理解領域內包含圖像和視頻兩大類型任務,其中針對圖像級別的任務有:偽裝目標分割(見圖2-a)、偽裝目標定位(見圖2-b)、偽裝實例排序(見圖2-c)、偽裝實例分割(見圖2-d)、偽裝目標計數(見圖2-e);而針對視頻級別的任務有:視頻偽裝目標檢測(見圖2-f)、視頻偽裝目標分割(見圖2-g)。作者指出,與圖像級別的偽裝場景理解任務相比,視頻級別任務發展較為緩慢,其原因是視頻數據的收集和標注過程十分耗時且耗力。
▌相關技術方案回顧
該綜述系統地回顧了近4年來基于深度學習方法的相關文獻、任務定義和數據類型,同時作者還建立了一個 GitHub 倉庫(https://github.com/GewelsJI/SINet-V2/blob/main/AWESOME_COD_LIST.md)用于持續跟蹤該領域內的最新工作。如表格1所示,作者全面回顧了在四個不同圖像偽裝場景任務中,所出現的50個技術解決方案。
表1. 針對圖像級別偽裝場景理解的技術解決方案回顧
作者還針對領域內發展相對成熟的偽裝目標分割領域進一步細分討論,根據其網絡結構分類為:多流框架(見圖3-a)、自底向上/自頂向下框架(見圖3-b)和分支框架(見圖3-c)。還針對不同方法的學習策略進行了分類,包括:單任務學習、多任務學習、數據高效學習三種策略。
圖3. 偽裝目標分割任務的網絡框架分類概覽
如表格2所示,作者進一步回顧了兩個視頻級別偽裝場景理解任務中所出現的9個不同解決方案。
表2. 針對視頻級別偽裝場景理解的技術解決方案回顧
▌相關數據集回顧
表格3總結了近年來偽裝場景理解領域中所出現的十個不同的數據集,被廣泛地應用于多個任務,包括:偽裝目標分割、偽裝實例分割、偽裝目標定位、偽裝實例排序、偽裝目標計數等。
表3. 偽裝場景理解數據集總結
▌評測基準
基于上述文獻回顧,作者進一步針對較為成熟的偽裝目標分割領域進行測評。表格4、5、6提供了當前領域內最新、最全面的偽裝目標分割測評系統,包括模型預測結果圖、基于九個評測指標數值、模型參數量、模型計算復雜度,上述詳細數據已經公開在GitHub網站中:https://github.com/DengPingFan/CSU#csu-benchmark。
表4. CAMO基準測評表格
表5. NC4K基準測評表格
表6. COD10K基準測評表格
針對那些具有尖端性能表現的模型,作者在COD10K數據集上進行了基于屬性的定性結果對比,如下圖4所示。
圖4. 在COD10K上基于屬性的定性結果對比
▌偽裝缺陷分割數據集
作者重新組織了一個用于檢測偽裝缺陷分割數據集CDS2K(見圖5),該數據集包含了來自不同工業場景的困難樣本。
圖5. 偽裝缺陷分割數據集樣本展示和統計數據
▌未來展望
最后,作者總結并討論了偽裝場景理解社區內存在的若干開放問題:
◆ 模型:最常見的做法是基于UNet架構進行模型設計,并添加注意力模塊進行特征增強。作者指出,考慮額外的先驗信息和/或引入輔助任務參與訓練,可以在一定程度上提高性能,這方面還有許多潛在的問題值得去探索;
◆ 訓練:全監督學習仍是當前偽裝目標分割領域的主流策略,但很少有研究解決數據不足或標簽不足條件下的學習問題。
◆ 數據集:現有的數據集規模不足且缺乏多樣性,社區內也需要更多專業化領域的偽裝樣本,例如自動駕駛和臨床診斷領域;
◆ 性能:基于Transformer架構和ConvNext架構的模型在性能上明顯優于其他對比模型。計算代價和模型性能的權衡仍未得到充分研究。
◆ 評價指標:當前沒有專門適用于偽裝領域的評價指標,去考慮到不同數據樣本的不同偽裝程度,從而給出一個無偏的評價結果。
最后,作者強調了若干潛在方向,旨在鼓勵這一領域的進一步研究和發展:
◆ 基于數據/標簽的高效學習策略:傳統的全監督學習策略對數據標注需求較高,十分耗費資源。在實際應用場景中,模型是否能夠在有限的資源上工作,并具有良好的可轉移性。因此,為偽裝場景理解開發高效的學習策略是一個很有前途的方向;
◆ 領域自適應:偽裝樣本通常從自然場景中收集而來,因而在自動駕駛等跨領域的特殊場景中部署模型,來檢測具有偽裝屬性的目標是一個挑戰。
◆ 高保真度數據合成:為降低算法偏差,增加數據多樣性和數據規模十分重要。在AIGC技術背景下,可以借鑒生成對抗網絡和擴散模型等思想快速創建一些合成數據集。
◆ 自動網絡架構搜索(NAS):在偽裝背景下,NAS技術可以幫助設計更有效的網絡架構,來處理復雜背景、高度變化等物體外觀和有限的標簽數據。
◆ 大模型和提示工程:Segment Anything模型的出現很大程度上變革了計算機視覺中分割領域的研究思路,盡管它在幾個偽裝場景表現不那么如何(相關討論可以參見論文:https://arxiv.org/abs/2304.06022v2 )。值得一提的是,研究者可以充分利用SAM的提示工程學習范式來簡化工作流,即:使用一個訓練好的編碼器、特定任務下的提示和多任務預測頭來進行下游微調。這種學習范式有望成為計算機視覺領域的主流趨勢。大型語言模型(LLMs)給人工智能帶來了新的機遇和挑戰,從而邁向通用人工智能進程。另外,對學術界來說,訓練耗費資源的大模型是一個挑戰,因而可能出現一個新范式,把最前沿的深度偽裝場景理解模型作為專家模型,而大模型可以作為一個外部組件,通過提供輔助決策、場景表征等來協助專家模型。
◆ 語義感知能力:現有的偽裝場景理解技術方案側重于利用外觀屬性(如顏色、紋理、邊界)來識別偽裝物體,而沒有從語義的角度(例如物體之間的關系)進行充分的場景感知和輸出。語義層面的認知是下一代偽裝視覺感知的關鍵。因此在不久未來,偽裝場景理解模型應該包含各種語義能力,包括整合高層次的語義、學習視覺語言知識以及模擬物體間的互動關系。
圖6. 針對圖1中所給出的答案,你猜對了嗎?