ECCV2020 GigaVision挑戰(zhàn)賽,深蘭科技包攬十億級像素雙賽道冠軍
賽道二 Multi-Pedestrian Tracking
賽題分析 多行人跟蹤問題是一個典型的多目標跟蹤問題。通過調研總結發(fā)現(xiàn),Tracking-by-detection是處理這一問題的常用且精度比較高的方法[2][7]。
基本的流程可以總結如下:
1)在每一幀中檢測物體的位置。2)為每個檢測框提取特征。3)通過將特征距離或空間距離將預測的目標與現(xiàn)有軌跡關聯(lián)。
本次挑戰(zhàn)賽更注重精度,因此采用了分離Detection和Embedding的方法,該方法的模塊化設計的優(yōu)點使得競賽精度上優(yōu)化空間的十分大。通過簡單的數(shù)據(jù)統(tǒng)計分析和可視化分析,團隊認為該比賽的主要挑戰(zhàn)在于圖像的大分辨率和行人的嚴重擁擠,如下圖所示。
為了應對這些挑戰(zhàn),針對高分辨、小目標等問題,引入了一種滑動窗口檢測算法。針對遮擋嚴重的問題,使用局部和全局特征來衡量兩個相鄰幀之間的預測邊界框的相似距離,并且借鑒了FairMOT的特征平滑的方法進行緩解。
競賽方案: 本次采用的多目標跟蹤系統(tǒng)是基于Detection和Embedding分離的方法,采用了以Generalized Focal Loss(GFL)[9]為損失的anchor-free檢測器,并以Multiple Granularity Network (MGN)[10]作為Embedding模型。
在關聯(lián)過程中,借鑒了DeepSORT[6]和FairMOT[8]的思想,構建了一個簡單的在線多目標跟蹤器, 如下圖所示。
檢測器
檢測部分: 為了處理高分辨率的圖像,我們提出了一個segmentation-and-fusion(SF)的方法,如下圖所示。每一張大圖有交疊的切分成多個子圖,每一個子圖的分辨率為6000*6000,位于圖像邊緣的子圖直接填充均值。為了防止較大的行人目標被切分成進兩個子圖,相鄰的子圖橫向上重疊寬度為1000像素,縱向重疊寬度設置為2000像素。在融合子圖檢測結果時,我們采用一種基于子圖重疊中線和檢測框相交判定的規(guī)則。比如,對于一對橫向有重疊的子圖,如果基于左子圖的檢測框處于子圖重疊中線的右側,但與該中線相交,該檢測框就被保留,反之則丟棄該檢測框。通過segmentation-and-fusion方法,與直接合并進行NMS的方法相比, 我們在本地檢測驗證集取得了0.2AP的提升。
Embedding部分:
為了解決行人擁擠帶來的問題,我們采用了Multiple Granularity Network(MGN),如上圖所示。我們首先利用Resnet50-ibn-a[4]提取特征,然后使用Triplet loss和Softmax loss計算三個全局特征的損失,僅使用Softmax loss計算局部特征的損失。此外,我們使用了ReID中的常用的訓練技巧來優(yōu)化MGN的性能[3]。 Data Association: 我們借鑒了DeepSORT和FairMOT的想法,以檢測框的表觀距離為主,以檢測框的空間距離為輔。首先,我們根據(jù)第一幀中的檢測框初始化多個軌跡。在隨后的幀中,我們根據(jù)embedding features之間的距離(最大距離限制為0.7),來將檢測框和已有的軌跡做關聯(lián)。與FairMOT一致,每一幀都會通過指數(shù)加權平均更新跟蹤器的特征,以應對特征變化的問題。對于未匹配的激活軌跡和檢測框通過他們的IOU距離關聯(lián)起來(閾值為0.8)。最后,對于失活但未完全跟丟的軌跡和檢測框也是由它們的IoU距離關聯(lián)的(閾值為0.8)。
后處理: 由于只對較高的置信度的檢測框進行跟蹤,因此存在大量假陰性的檢測框,導致MOTA[1]性能低下。為了減少置信閾值的影響,團隊嘗試了兩種簡單的插值方法。
1) 對總丟失幀不超過20的軌跡進行線性插值。我們稱之為簡單插值(simple interpolation, SI);
2)對每一個軌跡只在丟失不超過4幀的幀之間插入。另外,我們稱之為片段插值(fragment interpolation, FI)。
雖然插值的方法增加了假陽性樣本的數(shù)量,但是大大減少了假陰性樣本,使我們在測試集上實現(xiàn)了0.9左右的提升。不同插值方法的效果如下表所示。
以上是團隊對參賽方案的優(yōu)化路線圖,通過優(yōu)化檢測器以及特征提取器,數(shù)據(jù)關聯(lián)方法、后處理等方法,在GigaVision 2020多行人跟蹤挑戰(zhàn)賽中獲得第一名的成績。
總結與思考
本文針對GigaVision多行人跟蹤挑戰(zhàn)賽,設計了一個簡單、在線的多目標跟蹤系統(tǒng),包括檢測器、特征提取、數(shù)據(jù)關聯(lián)和軌跡后處理,在GigaVision 2020多行人跟蹤挑戰(zhàn)賽中獲得第一名。很榮幸取得這次競賽的第一名,在這里也分享一下針對多目標跟蹤任務的一些問題以及思考: 1)檢測器和特征提取器mAP越高,最終跟蹤的性能也會相應的提升?2)數(shù)據(jù)關聯(lián)過程真的需要運動模型么?3)跟蹤器的特征平滑為何有效?4)Part-Based的特征提取器為何有效?
團隊對以上問題進行了思考,得出一些比較簡單的看法: 1) 一般來說檢測器和特征提取器的性能越理想,最終跟蹤的性能也會有相應的提升;mAP作為常用的檢測器評估指標來說,mAP的提升不一定能帶來跟蹤的性能提升,當然這也和評價指標有關系,需要具體問題具體分析,比如檢測上多尺度增強帶來的AP增益往往會造成MOTA的降低。 mAP作為特征提取器的評估指標來說,mAP的提升也不一定能帶來跟蹤的性能提升,比如Part-Based 的MGN在本次競賽中雖然mAP比全局特征提取器差幾個點,在最后的跟蹤上卻取得不錯的效果。2)現(xiàn)實中的多目標跟蹤任務中,攝像頭的突然運動以及跟蹤對象的突然加速往往都是存在的,這時候的運動模型其實動態(tài)性能十分的差勁,反而造成不好的跟蹤效果,本次競賽采用的是直接不采用運動模型的方法。3) 跟蹤器的特征平滑操作十分簡單有效,不需要類似于DeepSORT進行級聯(lián)匹配,速度比較快,考慮了同一軌跡的歷史特征,使得特征更加魯棒,減少了單幀跟蹤錯誤帶來的影響; 4) Part-Based的特征提取器針對這種遮擋比較嚴重的情況在距離度量時考慮了各個部分的特征,特別的,遮擋部分往往變化比較大,結合特征平滑操作,一定程度上消除了遮擋部分的影響,更關注沒有遮擋部分的特征。
參考文獻:
1.Bernardin,K.Stiefelhagen,R.:Evaluatingmultipleobjecttrackingperformance(2008)
2.Milan,A.,Leal-Taixe,L.,Reid,I.,Roth,S.,Schindler,K.:Mot16:Abenchmarkformulti-objecttracking(2016)
3.Luo,H.,Gu,Y.,Liao,X.,Lai,S.,Jiang,W.:Bagoftricksandastrongbaselinefordeeppersonre-identification(2019)
4.Pan,X.,Luo,P.,Shi,J.,Tang,X.:Twoatonce:Enhancinglearningandgeneralizationcapacitiesviaibn-net(2018)
5.Wang,X.,Zhang,X.,Zhu,Y.,Guo,Y.,Yuan,X.,Xiang,L.,Wang,Z.,Ding,G.,Brady,D.J.,Dai,Q.,F(xiàn)ang,L.:Panda:Agigapixel-levelhuman-centricvideodataset(2020)
6.Wojke,N.,Bewley,A.,Paulus,D.:Simpleonlineandrealtimetrackingwithadeepassociationmetric(2017)
7.Yu,F(xiàn).,Li,W.,Li,Q.,Liu,Y.,Shi,X.,Yan,J.:Poi:Multipleobjecttrackingwithhighperformancedetectionandappearancefeature(2016)
8.Zhang,Y.,Wang,C.,Wang,X.,Zeng,W.,Liu,W.:Asimplebaselineformulti-objecttracking(2020)
9.Li,X.,Wang,W.,Wu,L.,Chen,S.,Hu,X.,Li,J.,Tang,J.,Yang,J.:Generalizedfocalloss:Learningqualifiedanddistributedboundingboxesfordenseobjectdetection.a(chǎn)rXiv(2020)
10.Wang,G.,Yuan,Y.,Chen,X.,Li,J.,Zhou,X.:Learningdiscriminativefeatureswithmultiplegranularitiesforpersonre-identification.CoRRabs/1804.01438(2018)
11.Cai,Z.,Vasconcelos,N.:Cascader-cnn:Delvingintohighqualityobjectdetection.In:ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.pp.6154–6162(2018)
12.Cao,Y.,Xu,J.,Lin,S.,Wei,F(xiàn).,Hu,H.:Gcnet:Non-localnetworksmeetsqueeze-excitationnetworksandbeyond.In:ProceedingsoftheIEEEInternationalConferenceonComputerVisionWorkshops.pp.0–0(2019)
13.Dai,J.,Qi,H.,Xiong,Y.,Li,Y.,Zhang,G.,Hu,H.,Wei,Y.:Deformableconvolutionalnetworks.In:ProceedingsoftheIEEEinternationalconferenceoncomputervision.pp.764–773(2017)
14.Hu,J.,Shen,L.,Sun,G.:Squeeze-and-excitationnetworks.In:ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.pp.7132–7141(2018)
15.Li,X.,Wang,W.,Wu,L.,Chen,S.,Hu,X.,Li,J.,Tang,J.,Yang,J.:Generalizedfocalloss:Learningqualifiedanddistributedboundingboxesfordenseobjectdetection.a(chǎn)rXivpreprintarXiv:2006.04388(2020)
16.Solovyev,R.,Wang,W.:Weightedboxesfusion:ensemblingboxesforobjectdetectionmodels.a(chǎn)rXivpreprintarXiv:1910.13302(2019)
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
10月31日立即下載>> 【限時免費下載】TE暖通空調系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報名>>> 【在線會議】多物理場仿真助跑新能源汽車
-
11月28日立即報名>>> 2024工程師系列—工業(yè)電子技術在線會議
-
12月19日立即報名>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
-
即日-12.26火熱報名中>> OFweek2024中國智造CIO在線峰會
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍皮書》
推薦專題
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結構工程師 廣東省/深圳市