国产成人久久一区二区不卡,97干成人,中文无码精品欧美日韩av

團隊介紹

團隊來自深圳市威富視界有限公司、中國科學(xué)院半導(dǎo)體研究所，隊長為寧欣副研究員，成員分別為石園、劉江寬、支金林、王鎮(zhèn)、榮倩倩，排名不分先后。

珠港澳人工智能算法賽題介紹

以檢測和識別為核心的各項計算機視覺分析任務(wù)，例如行人檢測，異常檢測，屬性識別等，在過去的幾年中引起了人們的極大興趣，并且應(yīng)用到各種場景中。

本比賽主要聚集城市發(fā)展管理的核心領(lǐng)域，由珠海市香洲區(qū)人民政府為指導(dǎo)單位，珠海市香洲區(qū)科技創(chuàng)新促進(jìn)中心主辦，騰訊云啟創(chuàng)新中心（珠海）、深圳極視角科技有限公司承辦，暨南大學(xué)智能科學(xué)與工程學(xué)院/人工智能產(chǎn)業(yè)學(xué)院提供學(xué)術(shù)支持，極市平臺、騰訊云提供技術(shù)支持。并且提供了海量數(shù)據(jù)集和免費算力。

任務(wù)介紹

賽道1——短袖短褲識別

這項任務(wù)是基于現(xiàn)代化工廠的智能化需求，識別工廠安全隱患在工業(yè)安防中已成為典型需求之一。系統(tǒng)對通過短袖短褲識別算法的開發(fā)，賦能工廠更好的在監(jiān)控區(qū)域及時警示安全隱患，提升工廠管理效率，減少工廠安全事故發(fā)生頻率。

挑戰(zhàn)賽的參與者首先需要檢測出行人，給出可見身體范圍框，然后根據(jù)行人著衣情況給出對應(yīng)的類別信息，其類別為l_sleeve（長袖）、trousers（長褲）、s_sleeve（短袖）、shorts（短褲）、unsure（不確定）其中的一種或多種。數(shù)據(jù)由攝像頭采集完成，訓(xùn)練數(shù)據(jù)集包含10537張，測試數(shù)據(jù)集有4517張。

賽道2——小攤販占道識別

今年地攤經(jīng)濟對拉動經(jīng)濟發(fā)展、增加就業(yè)起到了積極促進(jìn)作用，如何避免"一管就死，一放就亂"現(xiàn)象是當(dāng)前城市管理非常重要的問題，因此如何有序管理小攤販擺設(shè)成為智慧城管一大需求。本賽題系統(tǒng)通過小攤販占道識別算法的開發(fā)，使得城市管理能更加智能高效，降低城市管理成本，減少城市小攤販占道情況的發(fā)生。

挑戰(zhàn)賽的參與者首先需要檢測出占道的小攤販，給出目標(biāo)框和對應(yīng)的類別信息，其類別為vendors。數(shù)據(jù)由攝像頭采集完成，訓(xùn)練數(shù)據(jù)集包含7592張，測試數(shù)據(jù)集有3255張。

評價指標(biāo)

本比賽最終得分采用準(zhǔn)確度、算法性能絕對值的綜合得分形式，具體形式如下：

說明：

（1）算法精度的賽道標(biāo)準(zhǔn)值是指本賽道參賽者算法精度值的最高分；算法性能指的賽道標(biāo)準(zhǔn)值是 100 FPS，如果所得性能值FPS≥賽道標(biāo)準(zhǔn)值FPS,則算法性能值得分=1；

（2）本題規(guī)定predicted bounding box和ground truth bounding box的IoU（交叉比）作為結(jié)果目標(biāo)匹配的依據(jù)，其中IoU值＞Threshold且目標(biāo)類別標(biāo)簽相匹配的目標(biāo)視為正確結(jié)果，其它視為錯誤，賽道一Threshold為0.7，賽道二中Threshold為0.75；

（3）獲獎評審標(biāo)準(zhǔn)：參賽者需要獲得算法精度和算法性能值的成績，且算法精度≥0.7，算法性能值FPS≥5，才能進(jìn)入獲獎評選；

威富視界&中國科學(xué)院半導(dǎo)體研究所兩只團隊榮獲兩項第一

賽道一：

賽道二：

賽題特點

圖像尺寸不一、近景和遠(yuǎn)景目標(biāo)尺度差異大。

無論是賽道一的數(shù)據(jù)集還是賽道二的數(shù)據(jù)集，圖片尺寸不一，相差較大。一方面，由于計算資源和算法性能的限制，大尺寸的圖像不能作為網(wǎng)絡(luò)的輸入，而單純將原圖像縮放到小圖會使得目標(biāo)丟失大量信息，特別是賽道一中行人。另一方面，圖像中近景和遠(yuǎn)景的目標(biāo)尺度差異大，對于檢測器來說，是個巨大的挑戰(zhàn)。

目標(biāo)在圖像中分布密集，并且遮擋嚴(yán)重。

數(shù)據(jù)集均是利用攝像頭從真實場景采集，部分?jǐn)?shù)據(jù)的目標(biāo)密集度較大。無論是賽道一中的行人還是賽道二中的小攤販都出現(xiàn)了頻繁出現(xiàn)遮擋現(xiàn)象，目標(biāo)的漏檢情況相對嚴(yán)重。

主要工作

主體框架選擇：

目前，基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)包括anchor-based和anchor-free兩大類。首先我們先是分析兩者的優(yōu)缺點：

anchor-based：

1）優(yōu)點：加入了先驗知識，模型訓(xùn)練相對穩(wěn)定；密集的anchor box可有效提高召回率，對于小目標(biāo)檢測來說提升非常明顯。

2）缺點：對于多類別目標(biāo)檢測，超參數(shù)scale和aspect ratio相對難設(shè)計；冗余box非常多，可能會造成正負(fù)樣本失衡；在進(jìn)行目標(biāo)類別分類時，超參IOU閾值需根據(jù)任務(wù)情況調(diào)整。

anchor-free：

1）優(yōu)點：計算量減少；可靈活使用。

2）缺點：存在正負(fù)樣本嚴(yán)重不平衡；兩個目標(biāo)中心重疊的情況下，造成語義模糊性；檢測結(jié)果相對不穩(wěn)定。

我們又考慮到比賽任務(wù)情況：

1）短袖短褲識別是行人檢測，小攤位占道識別是小攤位檢測，都屬于單類別檢測，目標(biāo)的scale和aspect ratio都在一定范圍之內(nèi)，屬可控因素。

2）比賽數(shù)據(jù)中存在很多目標(biāo)遮擋情況，這有可能會造成目標(biāo)中心重新，如果采用anchor-free，會造成語義模糊性；

3）scale和aspect ratio可控，那么超參IOU調(diào)整相對簡單；

4）大賽對模型部署沒有特殊要求，因此，部署方案相對較多，模型性能有很大改進(jìn)。

因此，在anchor-based和anchor-free兩者中，我們偏向于選擇基于anchor-based的算法。

眾所周知，YOLO系列性能在目標(biāo)檢測算法一直引人矚目，特別是最近的YOLOv5在速度上更是令人驚訝。從下圖可以看出，YOLOv5在模型大小方面選擇靈活，訓(xùn)練周期相對較短。另外，在保證速度的同時，模型精度也是可觀。因此，我們選用YOLOv5作為baseline，然后依據(jù)兩個賽道的任務(wù)情況在此基礎(chǔ)上進(jìn)行改進(jìn)。

# 賽道一短袖短褲識別

首先根據(jù)訓(xùn)練數(shù)據(jù)集進(jìn)行分析，在10537張訓(xùn)練圖像中，總共有12個組合類別、15個場景、18304個目標(biāo)框。存在以下三種情況：

（1）樣本不平衡，12個組合中，僅長袖-長褲組合占總數(shù)據(jù)的76.45%；

（2）場景樣本不均衡，商場、工廠和街拍等五個場景中占比86.18%；

（3）多種狀態(tài)行人，例如重疊、殘缺、和占比小且遮擋。

另外，要權(quán)衡檢測分類的精度和模型運行的速度，因此我們決定選用檢測分類精度較好的目標(biāo)檢測框架，同時使用模型壓縮和模型加速方法完成加速。其主體思路為：

（1）目標(biāo)檢測框架：基于YOLOv5的one-stage檢測框架；

（2）模型壓縮：基于BN放縮因子修剪主干網(wǎng)絡(luò)；

（3）模型加速：TensorRT封裝部署。

根據(jù)上述問題，采取以下策略：

（1）預(yù)訓(xùn)練模型

本地從WiderPerson和COCO公開數(shù)據(jù)集中挑選并標(biāo)注3000張行人數(shù)據(jù)，約1萬個正樣本（涵蓋了商場、街拍、工廠等場景），以該數(shù)據(jù)集訓(xùn)練的模型作為預(yù)訓(xùn)練模型，一方面可加快平臺上模型訓(xùn)練，另一方面可提高精度。

（2）數(shù)增強策略

使用albumentations完成數(shù)據(jù)增強，例如裁剪拼接、翻轉(zhuǎn)等。

（3）網(wǎng)絡(luò)框架設(shè)計

起初，我們將分類分為12類，即不確定-短褲、不確定-長褲、長袖-不確定、長袖-長褲、長袖-短褲、短袖-不確定、短袖-短褲、長褲、短褲、長袖、短袖。但是模型效果不佳，召回率較低。我們就思考，若將數(shù)據(jù)先分為兩大類，即上衣和下衣，然后再分別將這兩類分為四類，即上衣分為長袖、短袖、不確定、無；下衣分為長褲、短褲、不確定、無。從理論層面分析，上述方法可有效改善數(shù)據(jù)失衡問題，提高模型的召回率。

于是，我們就在網(wǎng)絡(luò)的分類層做了實驗，嘗試了這兩種不同策略的分類情況，通過實驗證實8類別分類器確實優(yōu)于12類別分類器，其原因在于8分類場景下訓(xùn)練樣本的類別分布更優(yōu)。

從表中可以看出12個類別中前3個類別占比太高，如果直接使用12類別分類器訓(xùn)練，模型會被引導(dǎo)至更利于檢測長袖-長褲、短袖-長褲、短袖短褲等占比較多地類別上，對于剩余的占比較低的類別檢出率會很低，最終導(dǎo)致模型測試的召回率很不理想。但是在8類別的分類器上，將前4個用于分類上衣，后4個值用于分類下衣，這樣就會改善樣本占比較少的類別的劣勢。舉例來說，長袖-長褲的樣本占比較高，會引導(dǎo)模型更好地檢出長褲，短袖-短褲樣本同樣會引導(dǎo)模型更好地檢出短褲，短褲的特征參數(shù)和長袖的特征參數(shù)已經(jīng)通過兩個樣本較多的類別訓(xùn)練完成，對于樣本數(shù)量較少的長袖-短褲樣本依舊會有較好的檢出率。

上述兩種方案的網(wǎng)絡(luò)結(jié)構(gòu)圖如下：

上述是兩種分類方式，最終選用的是基于上衣和下衣的8分類方式，具體好處改善樣本不均衡帶來的分類偏差，從而提高召回率。

（4）模型加速

由于大賽對模型部署沒有特殊要求，按照我們以往的經(jīng)驗，我們優(yōu)先了一下兩種方式：1）剪枝加速策略，模型可提高1.3倍左右；

2) TensorRT加速策略，模型可提高約為1.3倍。兩者可同時使用。

剪枝加速：

在許多現(xiàn)實應(yīng)用中，深度神經(jīng)網(wǎng)絡(luò)的部署由于其高額的計算成本變得很困難。Slimming利用通道稀疏化的方法可以達(dá)到1）減少模型大小；2）減少運行時內(nèi)存占用；3）在不影響精度的同時，降低計算操作數(shù)。

Slimming主要原理：

1）利用batch_norm中的縮放因子γ作為重要因子，即γ越小，所對應(yīng)的通道不太重要，就可剪枝；

2）為約束γ的大小，在目標(biāo)方程中增加一個關(guān)于γ的正則項，這樣可以做到在訓(xùn)練中自動剪枝，而以往模型壓縮不具備。

TensorRT加速：

相對于python部署模型，c++封裝部署模型速度更快。目標(biāo)檢測任務(wù)相對人臉識別這種任務(wù)特征精度要求相對較低，所以在確保精度相對不變的情況下，采用FP16比FP32速度可提升1.5倍左右。另外，TensorRT是一個高性能的深度學(xué)習(xí)推理優(yōu)化器，可以為深度學(xué)習(xí)應(yīng)用提供低延遲、高吞吐的部署推理。大賽對于模型部署沒有特殊要求，因此我們選用了TensorRT進(jìn)行部署模型。下圖是python與TensorRT的模型部署的對比結(jié)果。

測試方案

通過實驗發(fā)現(xiàn)街拍和商場數(shù)據(jù)的H:W=2:1的圖像，使用輸入大小為480的模型檢測率更優(yōu)，對于H:W=1:2的圖像，使用輸入大小為640的模型檢測率更優(yōu)。因此在測試時使用雙模型檢測，分析輸入圖像的尺寸擇優(yōu)選擇模型完成預(yù)測。

實驗結(jié)果

模型	召回率	精確度	f1-score	性能分(fps)
YOLOv5s+14class	0.6723	0.9968	0.803	85.97
YOLOv5s+8class	0.7820	0.9767	0.8686	85.25
YOLOv5s+8class+TensorRT	0.8546	0.9467	0.8983	93.31
YOLOv5s+8class+TensorRT+ Slimming+DoubleModel	0.8735	0.9547	0.9123	108.4988

注：NMS閾值為0.5，正樣本閾值為0.5

# 賽道二小攤販占道識別

和賽道一短袖短褲識別一樣，小攤販占道識別也屬于目標(biāo)檢測任務(wù)。這里僅分析不同之處，相同技術(shù)參考賽道一。

起初考慮到算法性能因素，我們首先嘗試YOLOv5s進(jìn)行模型訓(xùn)練。經(jīng)實驗結(jié)果顯示，模型預(yù)測存在大量的誤檢和漏檢。這些漏檢和無意義的檢測結(jié)果大幅降低了模型的性能。我們將上述問題歸納為以下兩個方面的原因：

1、YOLOv5s無論是網(wǎng)絡(luò)寬度和網(wǎng)絡(luò)深度都較小，學(xué)習(xí)能力相對較弱。小攤位占道和其他正常車輛十分相似，容易對分類器造成混淆，從而產(chǎn)生誤檢；

2、訓(xùn)練和測試時輸入模型的圖像尺度不合適。圖像經(jīng)過縮放后，目標(biāo)的尺度也隨之變小，導(dǎo)致遠(yuǎn)景中人的小攤販等區(qū)域被大量遺漏；

根據(jù)上述問題，我們進(jìn)行了一些嘗試。

首先，從圖像預(yù)處理方面，使用隨機中心裁剪方式切圖進(jìn)行訓(xùn)練。隨機窗口切圖是一種常用的大圖像處理方式，這樣可以有效地保留圖像的高分辨率信息，不同大小的目標(biāo)，另一方面采用多尺度訓(xùn)練，這樣使得網(wǎng)絡(luò)獲得的信息更加豐富。如果某個目標(biāo)處于切圖邊界，根據(jù)目標(biāo)框的與圖片的大小比例來決定是否保留。另外，我們還采用了隨機幾何變換、顏色擾動、翻轉(zhuǎn)、多尺度、mixup、GridMask、Mosaic等數(shù)據(jù)增廣方式，都可提高模型的泛化能力和小目標(biāo)檢測率。

其次，從優(yōu)化器層面來講，我們嘗試了優(yōu)化器梯度歸一化和SAM優(yōu)化器。

優(yōu)化器梯度歸一化有三個好處：

（1）加速收斂；

（2）防止梯度爆炸；

（3）防止過擬合；

SAM優(yōu)化器[4]可使損失值和損失銳度同時最小化，并可以改善各種基準(zhǔn)數(shù)據(jù)集（例如CIFAR-f10、100g，ImageNet，微調(diào)任務(wù)）和模型的模型泛化能力，從而產(chǎn)生了多種最新性能。另外， SAM優(yōu)化器具有固有的魯棒性。

經(jīng)實驗對比，模型進(jìn)行優(yōu)化器梯度歸一化和采用SAM優(yōu)化器，約有0.003點的提升。

最后，在網(wǎng)絡(luò)大小選擇方面，由于我們可采用c++、tensorRT部署，所以我們可選擇相對較大的網(wǎng)絡(luò)，即YOLOv5m。這樣可以模型的學(xué)習(xí)能力會增強。部署時不同方案的性能對比情況如下：

測試方案

通過測試發(fā)現(xiàn)，3255張測試集中1080*1920尺寸的圖像與其他尺寸的圖像比例約為7:3。于是我們TensorRT部署時，模型使用輸入大小為384*640比640*640檢測率更優(yōu)。因為1080*1920直接resize為640*640，一方面會到值目標(biāo)變形，另一面，目標(biāo)變得更小。另外，使用TensrRT推理時，構(gòu)造函數(shù)中采用warmup，提高算法性能指標(biāo)。

注：由于時間關(guān)系該賽道僅使用了TensorRT，沒有采用slimming剪枝加速。

實驗結(jié)果：

注：NMS閾值為0.5，正樣本閾值為0.5

討論與總結(jié)

本文針對2020首屆珠港澳人工智能算法大賽兩個賽道任務(wù)進(jìn)行了總結(jié)與歸納。相關(guān)結(jié)論可以歸納為以下幾點：

1、數(shù)據(jù)分析對于訓(xùn)練模型至關(guān)重要。數(shù)據(jù)不平衡、圖像尺寸和目標(biāo)大小不一、目標(biāo)密集和遮擋等問題，應(yīng)選用對應(yīng)的baseline和應(yīng)對策略。例如，數(shù)據(jù)不平衡可嘗試過采樣、focal loss、數(shù)據(jù)增強等策略；圖像尺寸和目標(biāo)大小不一可采用多尺度、數(shù)據(jù)裁剪等方法。

2、針對算法精度和性能兩者取舍來說，可先實驗網(wǎng)絡(luò)大小和輸入圖片大小對模型結(jié)果的影響，不同任務(wù)和不同數(shù)據(jù)情況，兩者相差較大。所以不能一味為了提高速度，單純壓縮網(wǎng)絡(luò)大小；

3、針對性能要求時，可采用TensorRT等方式部署模型，也可采用模型壓縮等方式，這樣可在保證速度的前提下，使用較大網(wǎng)絡(luò)，提升模型精度。

參考文獻(xiàn)

1. Zhuang L, Li J, Shen Z, et al. Learning Efficient Convolutional Networks through Network Slimming[ 2017]

2. https://github.com/ultralytics/yolov5.git

3. http://www.cbsr.ia.ac.cn/users/sfzhang/WiderPerson/

4. https://cocodataset.org/

5. Pierre F, Ariel K, Hossein M, Behnam N; Sharpness-Aware Minimization for Efficiently Improving Generalization[2020]

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕