訂閱
糾錯
加入自媒體

使用Python進行SOTA:用于多目標跟蹤的一鍵式跟蹤器

介紹

多目標跟蹤是計算機視覺中的一個重要問題,近年來一直受到學術界和工業(yè)界的廣泛關注。

MOT的目標是在視頻序列中預測多個感興趣對象的單個軌跡。它有益于自動駕駛、人機交互到智能視頻等重大應用。

通過檢測范式進行跟蹤

在大多數(shù)現(xiàn)代多目標跟蹤系統(tǒng)中,主要的策略是通過檢測范式進行跟蹤。通過檢測范式進行跟蹤將MOT分解為以下步驟:

用于目標定位的目標檢測器

建立外觀模型為檢測到的目標提取ReID特征。

深入研究 Person-ReID

運動模型和數(shù)據(jù)關聯(lián),在其中分配檢測到的目標并將其連接到現(xiàn)有軌跡。

它旨在尋找與時空相匹配并形成軌跡的檢測。理想情況下,每個單獨的軌跡都應具有唯一的跟蹤ID。

小提示:檢測總是不完美,我們將在“挑戰(zhàn)”部分中介紹。多年來,我們目睹了目標檢測和再識別方面的驚人進步,這是多目標跟蹤的關鍵組成部分。但是,如何在單一網(wǎng)絡中同時完成這兩項任務,目前還很少有人關注。在此博客中,我們將分解MOT系統(tǒng),并研究FairMOT,該系統(tǒng)在檢測和跟蹤方面具有很高的準確性,在幾個公共數(shù)據(jù)集上,它的性能大大超過了之前的SOTAs。我們還將介紹以前的單次方法失敗的原因。

挑戰(zhàn)

當我們分解MOT系統(tǒng)時,我們可以把握每個步驟可能面臨的挑戰(zhàn)。由于遮擋,視角/姿勢/模糊/照明變化和背景混亂等因素,目標檢測可能會失敗。序列中可能存在相同對象類型的多個實例,這使得外觀通常非常相似,并且很難進行唯一匹配。因此,擁有正確的指標來評估MOT框架并進一步優(yōu)化它是非常重要的。方法多目標跟蹤系統(tǒng)可以放在兩個括號中:在線跟蹤:在線跟蹤會逐幀處理跟蹤ID,而無法查看將來的幀。非常適合實時應用程序和流數(shù)據(jù)。但是它很容易漂移,因為很難從錯誤或遮擋中恢復。脫機跟蹤:脫機跟蹤按順序處理一批幀。這有助于從遮擋中恢復以及對動態(tài)世界的推理。它不適用于實時應用,但不適用于視頻分析。例如,通過顧客在商店中的移動和互動來分析顧客的行為。MOT神經(jīng)求解器 (https://arxiv.org/abs/1912.07515) 是這種方法的一個很好的例子,它探索了圖神經(jīng)網(wǎng)絡。數(shù)據(jù)MOTChallenge(https://motchallenge.net/)社區(qū)創(chuàng)建了一個通用框架來測試多目標跟蹤器。他們添加的公共數(shù)據(jù)集序列,具有挑戰(zhàn)性,具有多種特征,包括不同的幀頻,擁擠的場景,視角或光照,可以模仿現(xiàn)實生活的場景,并挑戰(zhàn)研究人員和從業(yè)者開發(fā)一個通用跟蹤器來處理這些序列。

MOT16 / 17數(shù)據(jù)集——來源

PapersWithCode:)MOT:)正如你所看到的FairMOT在多個公共數(shù)據(jù)集上處于領先地位。我們將很快在博客中討論他們的方法。指標許多單獨的指標用于評估MOT的不同方面。研究團體主要在兩個復合指標上進行了優(yōu)化,即多目標跟蹤精度(MOTA)和識別F1分數(shù)(IDF1)。初始指標側重于目標覆蓋范圍,跟蹤識別性能由后者衡量。多目標跟蹤精度(MOTA) 在單一性能指標下考慮三種誤差:

MOTA :其中t是視頻序列中的幀索引,而GT是真實目標的數(shù)量。其中FN為假陰性,即系統(tǒng)未檢測到的真實目標的數(shù)量。FP是誤報,即系統(tǒng)錯誤檢測但在真實目標中不存在的數(shù)量。IDSW是識別轉(zhuǎn)換的數(shù)量,即給定軌跡從一個真實目標變?yōu)榱硪粋目標的次數(shù)。**多目標跟蹤精度(MOTP)**是所有真實正值與其對應的真實目標之間的平均差異。對于邊界框重疊,其計算公式如下:

其中ct表示幀t和dt中的匹配數(shù)目,i是目標i與幀t中指定的真實目標的邊界框重疊。然后,將IDF1表示為正確識別的檢測數(shù)與平均真實目標和計算的檢測數(shù)之比,并通過其諧波均值來平衡識別精度和召回率:

IDF1-來源高階跟蹤準確性(HOTA)是去年末(2020)發(fā)布的一項指標。它可以將執(zhí)行準確的檢測,關聯(lián)和定位的效果平衡到用于跟蹤器比較的單個統(tǒng)一指標中。測量多目標跟蹤器的性能需要仔細設計,因為可能會出現(xiàn)多個對應星座。

圖片由Bernardin,Keni和Rainer Stiefelhagen提供-來源py-motmetrics是一個很棒的庫,它為多目標跟蹤器(MOT)的基準測試提供了一個度量的Python實現(xiàn)。通過提交日期、時間和模型類別來衡量跟蹤器性能的概述。

FairMOT:多目標跟蹤中檢測和再識別的公平性作者的貢獻和他們試圖解決的挑戰(zhàn):他們演示并討論了以前的一次性跟蹤框架所面臨的挑戰(zhàn),這些框架已被忽視,但嚴重限制了它們的性能。他們在諸如點對象(CenterNet)之類的無錨OD方法之上,引入了一個框架來公平地平衡檢測和Re-ID任務。他們提出了一種自我監(jiān)督的學習方法,以在大規(guī)模檢測數(shù)據(jù)集上訓練FairMOT,從而提高了泛化能力。FairMOT概述

FairMOT概述—來源 順帶一提錨造成的不公平

解決目標檢測任務有多種方法。1)兩階段檢測器,例如RCNN系列,它具有區(qū)域提議網(wǎng)絡和一個用于檢測的網(wǎng)絡。2)單級探測器,如YOLO系列,CenterNet,它沒有單獨的區(qū)域提議網(wǎng)絡,可以進一步分類為帶有錨定盒和無錨定點的探測器。忽略的ReID任務一個錨可以對應多個身份;阱^的目標檢測方法通常使用 ROI-Pool 或 ROI-Align 從每個提議中提取特征。ROI-Align的大多數(shù)采樣位置中都可能存在令人不安的干擾實例或背景。多個錨對應一個身份

2. 特征引起的不公平使用多層特征聚合通過允許兩個分支從多層聚合特征中提取它們所需的必需特征,可以有效地解決這一矛盾。如果沒有多層融合,該模型將偏向主要檢測分支并生成低質(zhì)量的ReID特征。

3.特征維度引起的不公平盡管學習高維ReID特征可能會略微提高其區(qū)分對象的能力,但由于兩項任務的競爭,這會特別損害對象檢測的準確性,這反過來又對最終的跟蹤精度產(chǎn)生負面影響。他們建議學習低維ReID功能以平衡兩個任務。當訓練數(shù)據(jù)較少時,學習低維ReID特征可降低過擬合的風險。MOT中的數(shù)據(jù)集通常比ReID區(qū)域中的數(shù)據(jù)集小得多。因此有利于減小特征尺寸。低維ReID功能可提高推理速度。

4.重要指標FairMOT在步幅為4的高分辨率特征圖上運行,而以前的基于錨的方法在步幅為32的特征圖上運行。消除錨點以及使用高分辨率特征,可以更好地將ReID特征與對象中心對齊,這大大提高了跟蹤精度。ReID功能的尺寸設置為僅64,這不僅減少了計算時間,而且還通過在檢測任務和ReID任務之間取得良好的平衡來提高跟蹤的魯棒性。他們?yōu)楣歉删W(wǎng)配備了Deep Layer Aggregation 運算符,以融合多層特征,以容納分支并處理不同比例的對象。Deep Layer Aggregation:5.數(shù)據(jù)關聯(lián)

FairMOT中的數(shù)據(jù)關聯(lián)涉及三個實體,即邊界框IoU,ReID功能和卡爾曼過濾器。這些屬性用于計算每對檢測到的邊界框之間的相似度,然后使用諸如匈牙利算法的唯一匹配算法來解決分配問題。僅使用邊界框IoU會導致很多ID switch,對于擁擠的場景和快速的攝像機運動尤其如此。單獨使用ReID似乎可以增加IDF1并減少ID switch的數(shù)量。添加卡爾曼濾波器有助于獲得平滑的小軌跡,從而進一步減少ID switch的數(shù)量。重要的是要利用邊界框IoU,ReID特征和卡爾曼濾波器來獲得良好的跟蹤性能。結論作者嘗試了為什么以前的單一方法未能獲得與兩階段MOT方法可比的結果的原因,并發(fā)現(xiàn)使用基于錨點的目標檢測模型和身份嵌入是導致結果降低的主要原因。本文還探討了以前的MOT框架中的檢測和ReID任務之間功能的不公平和沖突問題,并提出了FairMOT(一種無錨的單發(fā)MOT框架)。MOT方面的研究正在朝“一擊跟蹤”邁進,我對即將在該領域進行的研究感到非常興奮。在 Fynd Trak,我們度過了一段美好的時光,為視頻分析探索和實施多種多目標跟蹤方法,以分析客戶的互動和在商店中的參與度。它有助于將分析引入離線環(huán)境,以了解客戶并優(yōu)化商店轉(zhuǎn)換和銷售。

參考文獻[1] Zhang, Yifu and Wang, Chunyu and Wang, Xinggang and Zeng, Wenjun and Liu, Wenyu, FairMOT: On the Fairness of Detection and Re-Identification in Multiple Object Tracking (2020). Arxiv, abs/2004.01888[2] Wang, Zhongdao and Zheng, Liang and Liu, Yixuan and Wang, Shengjin, Towards Real-Time Multi-Object Tracking (2019). ArXiv preprint ArXiv:1909.12605[3] Zhou, Xingyi and Wang, Dequan and Kr{”a}henb{”u}hl, Philipp, Objects as Points (2019). Arxiv, abs/1904.07850[4] Patrick Dendorfer, Aljo?a O?ep, Anton Milan, Konrad Schindler, Daniel Cremers, Ian Reid, Stefan Roth, Laura Leal-Taixé, MOTChallenge: A Benchmark for Single-Camera Multiple Target Tracking (2020), Arxiv, abs/2010.07548[5] Keni Bernardin & Rainer Stiefelhagen, Evaluating Multiple Object Tracking Performance: The CLEAR MOT Metrics (2008), EURASIP Journal on Image and Video Processing[6] Milan, Anton, et al. “Mot16: A benchmark for multi-object tracking.” arXiv preprint arXiv:1603.00831 (2016).

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號