精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
競賽冠軍方案:2020珠港澳人工智能算法大賽雙料冠軍解讀

團隊介紹

團隊來自深圳市威富視界有限公司、中國科學(xué)院半導(dǎo)體研究所,隊長為寧欣副研究員,成員分別為石園、劉江寬、支金林、王鎮(zhèn)、榮倩倩,排名不分先后。


珠港澳人工智能算法賽題介紹

以檢測和識別為核心的各項計算機視覺分析任務(wù),例如行人檢測,異常檢測,屬性識別等,在過去的幾年中引起了人們的極大興趣,并且應(yīng)用到各種場景中。

本比賽主要聚集城市發(fā)展管理的核心領(lǐng)域,由珠海市香洲區(qū)人民政府為指導(dǎo)單位,珠海市香洲區(qū)科技創(chuàng)新促進(jìn)中心主辦, 騰訊云啟創(chuàng)新中心(珠海)、深圳極視角科技有限公司承辦,暨南大學(xué)智能科學(xué)與工程學(xué)院/人工智能產(chǎn)業(yè)學(xué)院提供學(xué)術(shù)支持,極市平臺、騰訊云提供技術(shù)支持。并且提供了海量數(shù)據(jù)集和免費算力。

任務(wù)介紹

賽道1——短袖短褲識別

這項任務(wù)是基于現(xiàn)代化工廠的智能化需求,識別工廠安全隱患在工業(yè)安防中已成為典型需求之一。系統(tǒng)對通過短袖短褲識別算法的開發(fā),賦能工廠更好的在監(jiān)控區(qū)域及時警示安全隱患,提升工廠管理效率,減少工廠安全事故發(fā)生頻率。

挑戰(zhàn)賽的參與者首先需要檢測出行人,給出可見身體范圍框,然后根據(jù)行人著衣情況給出對應(yīng)的類別信息,其類別為l_sleeve(長袖)、trousers(長褲)、s_sleeve(短袖)、shorts(短褲)、unsure(不確定)其中的一種或多種。數(shù)據(jù)由攝像頭采集完成,訓(xùn)練數(shù)據(jù)集包含10537張,測試數(shù)據(jù)集有4517張。

賽道2——小攤販占道識別

今年地攤經(jīng)濟對拉動經(jīng)濟發(fā)展、增加就業(yè)起到了積極促進(jìn)作用,如何避免"一管就死,一放就亂"現(xiàn)象是當(dāng)前城市管理非常重要的問題,因此如何有序管理小攤販擺設(shè)成為智慧城管一大需求。本賽題系統(tǒng)通過小攤販占道識別算法的開發(fā),使得城市管理能更加智能高效,降低城市管理成本,減少城市小攤販占道情況的發(fā)生。

挑戰(zhàn)賽的參與者首先需要檢測出占道的小攤販,給出目標(biāo)框和對應(yīng)的類別信息,其類別為vendors。數(shù)據(jù)由攝像頭采集完成,訓(xùn)練數(shù)據(jù)集包含7592張,測試數(shù)據(jù)集有3255張。

評價指標(biāo)

本比賽最終得分采用準(zhǔn)確度、算法性能絕對值的綜合得分形式,具體形式如下:
說明:
(1) 算法精度的賽道標(biāo)準(zhǔn)值是指本賽道參賽者算法精度值的最高分;算法性能指的賽道標(biāo)準(zhǔn)值是 100 FPS, 如果所得性能值FPS≥賽道標(biāo)準(zhǔn)值FPS,則算法性能值得分=1;
(2) 本題規(guī)定predicted bounding box和ground truth bounding box的IoU(交叉比)作為結(jié)果目標(biāo)匹配的依據(jù),其中IoU值>Threshold且目標(biāo)類別標(biāo)簽相匹配的目標(biāo)視為正確結(jié)果,其它視為錯誤,賽道一Threshold為0.7,賽道二中Threshold為0.75;
(3)獲獎評審標(biāo)準(zhǔn):參賽者需要獲得算法精度和算法性能值的成績,且算法精度≥0.7,算法性能值FPS≥5,才能進(jìn)入獲獎評選;

威富視界&中國科學(xué)院半導(dǎo)體研究所兩只團隊榮獲兩項第一

賽道一:

賽道二:

賽題特點

圖像尺寸不一、近景和遠(yuǎn)景目標(biāo)尺度差異大。
無論是賽道一的數(shù)據(jù)集還是賽道二的數(shù)據(jù)集,圖片尺寸不一,相差較大。一方面,由于計算資源和算法性能的限制,大尺寸的圖像不能作為網(wǎng)絡(luò)的輸入,而單純將原圖像縮放到小圖會使得目標(biāo)丟失大量信息,特別是賽道一中行人。另一方面,圖像中近景和遠(yuǎn)景的目標(biāo)尺度差異大,對于檢測器來說,是個巨大的挑戰(zhàn)。

目標(biāo)在圖像中分布密集,并且遮擋嚴(yán)重。
數(shù)據(jù)集均是利用攝像頭從真實場景采集,部分?jǐn)?shù)據(jù)的目標(biāo)密集度較大。無論是賽道一中的行人還是賽道二中的小攤販都出現(xiàn)了頻繁出現(xiàn)遮擋現(xiàn)象,目標(biāo)的漏檢情況相對嚴(yán)重。

主要工作

主體框架選擇:
目前,基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)包括anchor-based和anchor-free兩大類。首先我們先是分析兩者的優(yōu)缺點:

anchor-based:
1)優(yōu)點:加入了先驗知識,模型訓(xùn)練相對穩(wěn)定;密集的anchor box可有效提高召回率,對于小目標(biāo)檢測來說提升非常明顯。
2)缺點:對于多類別目標(biāo)檢測,超參數(shù)scale和aspect ratio相對難設(shè)計;冗余box非常多,可能會造成正負(fù)樣本失衡;在進(jìn)行目標(biāo)類別分類時,超參IOU閾值需根據(jù)任務(wù)情況調(diào)整。

anchor-free:
1)優(yōu)點:計算量減少;可靈活使用。
2)缺點:存在正負(fù)樣本嚴(yán)重不平衡;兩個目標(biāo)中心重疊的情況下,造成語義模糊性;檢測結(jié)果相對不穩(wěn)定。

我們又考慮到比賽任務(wù)情況:
1)短袖短褲識別是行人檢測,小攤位占道識別是小攤位檢測,都屬于單類別檢測,目標(biāo)的scale和aspect ratio都在一定范圍之內(nèi),屬可控因素。
2)比賽數(shù)據(jù)中存在很多目標(biāo)遮擋情況,這有可能會造成目標(biāo)中心重新,如果采用anchor-free,會造成語義模糊性;
3)scale和aspect ratio可控,那么超參IOU調(diào)整相對簡單;
4)大賽對模型部署沒有特殊要求,因此,部署方案相對較多,模型性能有很大改進(jìn)。

因此,在anchor-based和anchor-free兩者中,我們偏向于選擇基于anchor-based的算法。

眾所周知,YOLO系列性能在目標(biāo)檢測算法一直引人矚目,特別是最近的YOLOv5在速度上更是令人驚訝。從下圖可以看出,YOLOv5在模型大小方面選擇靈活,訓(xùn)練周期相對較短。另外,在保證速度的同時,模型精度也是可觀。因此,我們選用YOLOv5作為baseline,然后依據(jù)兩個賽道的任務(wù)情況在此基礎(chǔ)上進(jìn)行改進(jìn)。

# 賽道一 短袖短褲識別

首先根據(jù)訓(xùn)練數(shù)據(jù)集進(jìn)行分析,在10537張訓(xùn)練圖像中,總共有12個組合類別、15個場景、18304個目標(biāo)框。存在以下三種情況:
(1)樣本不平衡,12個組合中,僅長袖-長褲組合占總數(shù)據(jù)的76.45%;
(2)場景樣本不均衡,商場、工廠和街拍等五個場景中占比86.18%;
(3)多種狀態(tài)行人,例如重疊、殘缺、和占比小且遮擋。

另外,要權(quán)衡檢測分類的精度和模型運行的速度,因此我們決定選用檢測分類精度較好的目標(biāo)檢測框架,同時使用模型壓縮和模型加速方法完成加速。其主體思路為:
(1) 目標(biāo)檢測框架:基于YOLOv5的one-stage檢測框架;
(2) 模型壓縮:基于BN放縮因子修剪主干網(wǎng)絡(luò);
(3) 模型加速:TensorRT封裝部署。

根據(jù)上述問題,采取以下策略:

(1) 預(yù)訓(xùn)練模型

本地從WiderPerson和COCO公開數(shù)據(jù)集中挑選并標(biāo)注3000張行人數(shù)據(jù),約1萬個正樣本(涵蓋了商場、街拍、工廠等場景),以該數(shù)據(jù)集訓(xùn)練的模型作為預(yù)訓(xùn)練模型,一方面可加快平臺上模型訓(xùn)練,另一方面可提高精度。

(2) 數(shù)增強策略

   使用albumentations完成數(shù)據(jù)增強,例如裁剪拼接、翻轉(zhuǎn)等。

(3) 網(wǎng)絡(luò)框架設(shè)計

起初,我們將分類分為12類,即不確定-短褲、不確定-長褲、長袖-不確定、長袖-長褲、長袖-短褲、短袖-不確定、短袖-短褲、長褲、短褲、長袖、短袖。但是模型效果不佳,召回率較低。我們就思考,若將數(shù)據(jù)先分為兩大類,即上衣和下衣,然后再分別將這兩類分為四類,即上衣分為長袖、短袖、不確定、無;下衣分為長褲、短褲、不確定、無。從理論層面分析,上述方法可有效改善數(shù)據(jù)失衡問題,提高模型的召回率。

于是,我們就在網(wǎng)絡(luò)的分類層做了實驗,嘗試了這兩種不同策略的分類情況,通過實驗證實8類別分類器確實優(yōu)于12類別分類器,其原因在于8分類場景下訓(xùn)練樣本的類別分布更優(yōu)。

從表中可以看出12個類別中前3個類別占比太高,如果直接使用12類別分類器訓(xùn)練,模型會被引導(dǎo)至更利于檢測長袖-長褲、短袖-長褲、短袖短褲等占比較多地類別上,對于剩余的占比較低的類別檢出率會很低,最終導(dǎo)致模型測試的召回率很不理想。但是在8類別的分類器上,將前4個用于分類上衣,后4個值用于分類下衣,這樣就會改善樣本占比較少的類別的劣勢。舉例來說,長袖-長褲的樣本占比較高,會引導(dǎo)模型更好地檢出長褲,短袖-短褲樣本同樣會引導(dǎo)模型更好地檢出短褲,短褲的特征參數(shù)和長袖的特征參數(shù)已經(jīng)通過兩個樣本較多的類別訓(xùn)練完成,對于樣本數(shù)量較少的長袖-短褲樣本依舊會有較好的檢出率。

上述兩種方案的網(wǎng)絡(luò)結(jié)構(gòu)圖如下:

上述是兩種分類方式,最終選用的是基于上衣和下衣的8分類方式,具體好處改善樣本不均衡帶來的分類偏差,從而提高召回率。

(4) 模型加速

由于大賽對模型部署沒有特殊要求,按照我們以往的經(jīng)驗,我們優(yōu)先了一下兩種方式:1)剪枝加速策略,模型可提高1.3倍左右;
2) TensorRT加速策略,模型可提高約為1.3倍。兩者可同時使用。

剪枝加速:
在許多現(xiàn)實應(yīng)用中,深度神經(jīng)網(wǎng)絡(luò)的部署由于其高額的計算成本變得很困難。Slimming利用通道稀疏化的方法可以達(dá)到1)減少模型大小;2)減少運行時內(nèi)存占用;3)在不影響精度的同時,降低計算操作數(shù)。

Slimming主要原理:
1)利用batch_norm中的縮放因子γ作為重要因子,即γ越小,所對應(yīng)的通道不太重要,就可剪枝;
2)為約束γ的大小,在目標(biāo)方程中增加一個關(guān)于γ的正則項,這樣可以做到在訓(xùn)練中自動剪枝,而以往模型壓縮不具備。

TensorRT加速:
相對于python部署模型,c++封裝部署模型速度更快。目標(biāo)檢測任務(wù)相對人臉識別這種任務(wù)特征精度要求相對較低,所以在確保精度相對不變的情況下,采用FP16比FP32速度可提升1.5倍左右。另外,TensorRT是一個高性能的深度學(xué)習(xí)推理優(yōu)化器,可以為深度學(xué)習(xí)應(yīng)用提供低延遲、高吞吐的部署推理。大賽對于模型部署沒有特殊要求,因此我們選用了TensorRT進(jìn)行部署模型。下圖是python與TensorRT的模型部署的對比結(jié)果。
測試方案
通過實驗發(fā)現(xiàn)街拍和商場數(shù)據(jù)的H:W=2:1的圖像,使用輸入大小為480的模型檢測率更優(yōu),對于H:W=1:2的圖像,使用輸入大小為640的模型檢測率更優(yōu)。因此在測試時使用雙模型檢測,分析輸入圖像的尺寸擇優(yōu)選擇模型完成預(yù)測。

實驗結(jié)果
模型
召回率
精確度
f1-score
性能分(fps)
YOLOv5s+14class
0.6723
0.9968
0.803
85.97
YOLOv5s+8class
0.7820
0.9767
0.8686
85.25
YOLOv5s+8class+TensorRT
0.8546
0.9467
0.8983
93.31
YOLOv5s+8class+TensorRT+
Slimming+DoubleModel
0.8735
0.9547
0.9123
108.4988
注:NMS閾值為0.5,正樣本閾值為0.5

# 賽道二 小攤販占道識別

和賽道一短袖短褲識別一樣,小攤販占道識別也屬于目標(biāo)檢測任務(wù)。這里僅分析不同之處,相同技術(shù)參考賽道一。

起初考慮到算法性能因素,我們首先嘗試YOLOv5s進(jìn)行模型訓(xùn)練。經(jīng)實驗結(jié)果顯示,模型預(yù)測存在大量的誤檢和漏檢。這些漏檢和無意義的檢測結(jié)果大幅降低了模型的性能。我們將上述問題歸納為以下兩個方面的原因:

1、YOLOv5s無論是網(wǎng)絡(luò)寬度和網(wǎng)絡(luò)深度都較小,學(xué)習(xí)能力相對較弱。小攤位占道和其他正常車輛十分相似,容易對分類器造成混淆,從而產(chǎn)生誤檢;

2、訓(xùn)練和測試時輸入模型的圖像尺度不合適。圖像經(jīng)過縮放后,目標(biāo)的尺度也隨之變小,導(dǎo)致遠(yuǎn)景中人的小攤販等區(qū)域被大量遺漏;

根據(jù)上述問題,我們進(jìn)行了一些嘗試。

首先,從圖像預(yù)處理方面,使用隨機中心裁剪方式切圖進(jìn)行訓(xùn)練。隨機窗口切圖是一種常用的大圖像處理方式,這樣可以有效地保留圖像的高分辨率信息,不同大小的目標(biāo),另一方面采用多尺度訓(xùn)練,這樣使得網(wǎng)絡(luò)獲得的信息更加豐富。如果某個目標(biāo)處于切圖邊界,根據(jù)目標(biāo)框的與圖片的大小比例來決定是否保留。另外,我們還采用了隨機幾何變換、顏色擾動、翻轉(zhuǎn)、多尺度、mixup、GridMask、Mosaic等數(shù)據(jù)增廣方式,都可提高模型的泛化能力和小目標(biāo)檢測率。

其次,從優(yōu)化器層面來講,我們嘗試了優(yōu)化器梯度歸一化和SAM優(yōu)化器。
優(yōu)化器梯度歸一化有三個好處:

(1)加速收斂;
2)防止梯度爆炸;
(3)防止過擬合;

SAM優(yōu)化器[4]可使損失值和損失銳度同時最小化,并可以改善各種基準(zhǔn)數(shù)據(jù)集(例如CIFAR-f10、100g,ImageNet,微調(diào)任務(wù))和模型的模型泛化能力,從而產(chǎn)生了多種最新性能。另外, SAM優(yōu)化器具有固有的魯棒性。

經(jīng)實驗對比,模型進(jìn)行優(yōu)化器梯度歸一化和采用SAM優(yōu)化器,約有0.003點的提升。
最后,在網(wǎng)絡(luò)大小選擇方面,由于我們可采用c++、tensorRT部署,所以我們可選擇相對較大的網(wǎng)絡(luò),即YOLOv5m。這樣可以模型的學(xué)習(xí)能力會增強。部署時不同方案的性能對比情況如下:
測試方案

通過測試發(fā)現(xiàn),3255張測試集中1080*1920尺寸的圖像與其他尺寸的圖像比例約為7:3。于是我們TensorRT部署時,模型使用輸入大小為384*640比640*640檢測率更優(yōu)。因為1080*1920直接resize為640*640,一方面會到值目標(biāo)變形,另一面,目標(biāo)變得更小。另外,使用TensrRT推理時,構(gòu)造函數(shù)中采用warmup,提高算法性能指標(biāo)。
注:由于時間關(guān)系該賽道僅使用了TensorRT,沒有采用slimming剪枝加速。

實驗結(jié)果:

注:NMS閾值為0.5,正樣本閾值為0.5

討論與總結(jié)

本文針對2020首屆珠港澳人工智能算法大賽兩個賽道任務(wù)進(jìn)行了總結(jié)與歸納。相關(guān)結(jié)論可以歸納為以下幾點:

1、 數(shù)據(jù)分析對于訓(xùn)練模型至關(guān)重要。數(shù)據(jù)不平衡、圖像尺寸和目標(biāo)大小不一、目標(biāo)密集和遮擋等問題,應(yīng)選用對應(yīng)的baseline和應(yīng)對策略。例如,數(shù)據(jù)不平衡可嘗試過采樣、focal loss、數(shù)據(jù)增強等策略;圖像尺寸和目標(biāo)大小不一可采用多尺度、數(shù)據(jù)裁剪等方法。

2、 針對算法精度和性能兩者取舍來說,可先實驗網(wǎng)絡(luò)大小和輸入圖片大小對模型結(jié)果的影響,不同任務(wù)和不同數(shù)據(jù)情況,兩者相差較大。所以不能一味為了提高速度,單純壓縮網(wǎng)絡(luò)大小;

3、 針對性能要求時,可采用TensorRT等方式部署模型,也可采用模型壓縮等方式,這樣可在保證速度的前提下,使用較大網(wǎng)絡(luò),提升模型精度。

參考文獻(xiàn)
1. Zhuang L, Li J, Shen Z, et al. Learning Efficient Convolutional Networks through Network Slimming[ 2017]
2. https://github.com/ultralytics/yolov5.git
3. http://www.cbsr.ia.ac.cn/users/sfzhang/WiderPerson/
4. https://cocodataset.org/
5. Pierre F, Ariel K, Hossein M, Behnam N; Sharpness-Aware Minimization for Efficiently Improving Generalization[2020]
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
霸榜 GitHub:又一款神器面世!
ECV2023|安全帶規(guī)范佩戴檢測冠軍方案分享
深入淺出Yolo系列之Yolov3&Yolov4核心基礎(chǔ)知識完整講解
YOLOv3模型剪枝,瘦身80%,提速100%,精度基本不變
解析基于keras深度學(xué)習(xí)框架下yolov3的算法
JetsonNano跑YoloV3速度評測
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 九江市| 浙江省| 海南省| 鄢陵县| 乐业县| 孙吴县| 南召县| 丹巴县| 门头沟区| 潍坊市| 许昌县| 镇远县| 龙里县| 聂荣县| 和田市| 徐州市| 鄂伦春自治旗| 石棉县| 丹棱县| 来凤县| 青岛市| 兴城市| 海淀区| 霍城县| 昭苏县| 成武县| 平阳县| 景宁| 独山县| 阜宁县| 印江| 景洪市| 武陟县| 靖江市| 米易县| 福清市| 吉木乃县| 桑植县| 崇礼县| 青川县| 景东|