行人重識(shí)別中的第一個(gè)anchor-free模型
前言:
本文針對(duì)anchor-free模型用于行人搜索中會(huì)出現(xiàn)三個(gè)不對(duì)齊問(wèn)題:Scale misalignment,Region misalignment,Task misalignment提出了相應(yīng)的解決方案,進(jìn)一步提出了一個(gè)更簡(jiǎn)單更有效的anchor-free模型--AlignPS。
更多內(nèi)容請(qǐng)關(guān)注公眾號(hào)CV技術(shù)指南,專(zhuān)注于計(jì)算機(jī)視覺(jué)的技術(shù)總結(jié),最新技術(shù)跟蹤。
Introduction
行人重識(shí)別的方法分為兩個(gè)類(lèi)別,一類(lèi)是基于two-step的方法,如圖a所示,先使用現(xiàn)成的模型進(jìn)行行人檢測(cè),將其裁剪出來(lái),再放進(jìn)re-id網(wǎng)絡(luò)識(shí)別。這種方法可以獲得比較好的效果,但對(duì)時(shí)間和資源消耗比較大。第二類(lèi)是基于one-step的方法,如圖b所示,使用一種端到端的方式檢測(cè)并識(shí)別。
如圖b所示,這種一步到位的方式在檢測(cè)出行人后,將檢測(cè)框內(nèi)的feature通過(guò)ROI Align得到相同大小feature maps, 再進(jìn)行回歸,分類(lèi),re-id損失值的計(jì)算。這種方式類(lèi)似于目標(biāo)檢測(cè)的two-stages的方法,我們稱(chēng)之為one-step two-stage模型。
這種one-step two-stage模型不可避免的與目標(biāo)檢測(cè)的two-stages模型一樣,也有一些內(nèi)在缺陷,例如密集anchors帶來(lái)的高計(jì)算量,對(duì)大小、比例和anchor數(shù)量這些超參數(shù)的高敏感性。
最近幾年,基于anchor-free的模型展現(xiàn)了獨(dú)有的優(yōu)點(diǎn),即更簡(jiǎn)單的結(jié)構(gòu)和更快的速度。基于這一點(diǎn),作者提出要在Re-ID中構(gòu)建一個(gè)anchor free模型。
但這會(huì)存在以下三個(gè)不對(duì)齊的問(wèn)題:
1) 許多anchor-free模型通過(guò)FPN的方式學(xué)習(xí)多尺度特征以實(shí)現(xiàn)目標(biāo)檢測(cè)的尺度不變性。但在Re-ID上會(huì)存在尺度不對(duì)齊的問(wèn)題,這是因?yàn)樵趃allery set中會(huì)存在各種尺度的人。
2) 沒(méi)有了ROI-Align操作,anchor-free模型無(wú)法根據(jù)指定區(qū)域?qū)e-id和檢測(cè)聯(lián)系起來(lái)。因此,必須直接從特征圖中學(xué)習(xí)re-id embedding,而無(wú)需顯式的區(qū)域?qū)R。
3) 行人搜索可以直觀地認(rèn)為是一個(gè)把檢測(cè)和Re-ID作為自認(rèn)為的多任務(wù)學(xué)習(xí)框架,因此需要找到這兩個(gè)任務(wù)的平衡。
在這篇論文中提出了第一個(gè)用于行人搜索的anchor-free模型,稱(chēng)之為Feature Aligned Person Search Network (AlignPS),AlignPS遵循Re-ID優(yōu)先的原則提出了aligned feature aggregation (AFA) module,用于處理上面這三個(gè)問(wèn)題。
AFA通過(guò)可變形卷積重塑了FPN的一些構(gòu)造塊,通過(guò)特征融合解決了在Re-ID特征學(xué)習(xí)中區(qū)域和尺度不對(duì)齊的問(wèn)題。同時(shí)優(yōu)化了Re-ID和檢測(cè)在訓(xùn)練過(guò)程中的步驟,更注重生成更魯棒的Re-ID embeddings。這些簡(jiǎn)單有效的設(shè)計(jì)成功的將一個(gè)經(jīng)典的anchor-free模型變成了一個(gè)很強(qiáng)很有效率的行人搜索框架,超過(guò)了anchor-based模型。
Feature Aligned Person Search Network
AlignPS的基礎(chǔ)框架是FCOS,FCOS是目標(biāo)檢測(cè)中最常用的one-stage anchor-free框架之一。
前面提到,AlignPS是基于Re-ID優(yōu)先的原則,為了學(xué)習(xí)Re-ID embedding,直接使用AFA輸出的feature maps進(jìn)行flatten,沒(méi)有使用額外的embedding layers。
對(duì)于檢測(cè),使用了FCOS中的檢測(cè)頭。檢測(cè)頭分成兩個(gè)分支,兩條分支都由四個(gè)3x3卷積層組成,第一個(gè)分支預(yù)測(cè)回歸偏移和中心得分,第二個(gè)對(duì)前景背景進(jìn)行分類(lèi)。最后,AFA輸出feature maps的每個(gè)位置都會(huì)與一個(gè)含有分類(lèi)、中心得分以及Re-ID embedding的Bounding boxes聯(lián)系起來(lái)。
Aligned Feature Aggregation
Scale Alignment--FCOS采用在不同層檢測(cè)不同大小的目標(biāo),對(duì)于一些重疊的有歧義的目標(biāo)很有可能會(huì)分到不同的層,因此可以很好的提升檢測(cè)效果。然而這對(duì)于Re-ID來(lái)說(shuō)這并不好,因?yàn)镽e-ID需要與gallery set進(jìn)行比較,在不同的尺度下檢測(cè)將會(huì)出現(xiàn)尺度不對(duì)齊的問(wèn)題。
本文的解決辦法是只使用P3層的信息,這樣就不存在尺度不對(duì)齊的問(wèn)題,注意,可以這樣做的原因是P3層基本融合了全部的語(yǔ)義信息。在上一篇論文分享《YOLOF: 特征金字塔的新方式》中提到,特征金字塔的最頂層基本融合了全部語(yǔ)義信息,進(jìn)行多尺度融合對(duì)精度提升影響不大。
Region Alignment--前面提到?jīng)]有ROI-Align操作會(huì)出現(xiàn)Region misalignment問(wèn)題,AlignPS從三個(gè)方面處理這個(gè)問(wèn)題。
第一,使用3x3可變形卷積來(lái)代替FPN中鄰側(cè)連接過(guò)程中的1x1卷積。3x3可變形卷積可以使網(wǎng)絡(luò)自適應(yīng)input feature maps的感受野,很好地完成Region Alignment。
第二,使用concatenation代替自頂向下路徑中的求和操作,這可以整合多尺度特征。
第三,再次使用3x3可變形卷積代替FPN輸出層的3x3卷積。這可以對(duì)其多尺度特征從而生成更精確的feature map。
Task Alignment--提出Re-ID優(yōu)先是基于以下兩點(diǎn)考慮。
第一,因?yàn)楝F(xiàn)有的一些檢測(cè)框架有比較強(qiáng)的效果,以至于檢測(cè)任務(wù)相比Re-ID更好處理,因此學(xué)習(xí)判別Re-ID embedding是首要關(guān)注的問(wèn)題。經(jīng)過(guò)作者們討論,在anchor-free框架中,Re-ID的performance對(duì)Region misalignment更敏感。因此,傾向于Re-ID對(duì)于行人搜索是比較理想的。
第二,對(duì)比于檢測(cè)優(yōu)先和兩者并重的結(jié)構(gòu),Re-ID優(yōu)先的結(jié)構(gòu)不需要額外的層去生成Re-ID embedding,從而更有效率。
Triplet-Aided Online Instance Matching Loss
目前典型的行人搜索方法大多采用Online Instance Matching(OIM)損失來(lái)監(jiān)督ReID任務(wù)的訓(xùn)練過(guò)程。
具體而言,OIM將所有帶標(biāo)簽個(gè)體的特征中心存儲(chǔ)在一個(gè)查找表(Lookup Table,簡(jiǎn)稱(chēng)LUT)中,其中L代表特征個(gè)數(shù)、D代表特征維度。同時(shí),維護(hù)一個(gè)循環(huán)隊(duì)列(Circular Queue),其包含了Q個(gè)無(wú)標(biāo)簽個(gè)體的特征。在每次迭代過(guò)程中,給定標(biāo)簽為i的輸入特征x,OIM分別將x與查找表和循環(huán)隊(duì)列中的所有特征計(jì)算相似度,這樣可得到x屬于標(biāo)簽i的概率pi。
本文發(fā)現(xiàn),盡管OIM能夠有效地利用帶標(biāo)簽和無(wú)標(biāo)簽樣本,但還是具有下面兩個(gè)局限性:1)相似度計(jì)算只局限在輸入特征與查找表或循環(huán)隊(duì)列之間,輸入特征之間并沒(méi)有任何相似度計(jì)算操作。2)對(duì)數(shù)似然損失并沒(méi)有給出特征對(duì)之間的明確距離度量。
為此,提出了一種三元組損失(Triplet Loss)來(lái)進(jìn)一步增強(qiáng)OIM損失。對(duì)于輸入圖像中的每個(gè)行人,首先采用中心采樣(Center Sampling)策略對(duì)特征進(jìn)行采樣。這樣,每個(gè)人中心附近的特征被認(rèn)為是正樣本,這里目標(biāo)是拉近同一個(gè)人采樣到的不同特征,將不同人的特征盡量分開(kāi)。
與此同時(shí),帶標(biāo)簽個(gè)體采樣到的不同特征也應(yīng)與查找表中相應(yīng)的個(gè)體中心特征相接近,與查找表中不同個(gè)體的中心特征相遠(yuǎn)離。虛線框中展示的就是根據(jù)上述策略構(gòu)建得到的三元組。
其中M代表正負(fù)樣本間的邊界大小,Dpos和Dneg分別代表正、負(fù)樣本對(duì)之間的歐氏距離。最后,本文所提出的TOIM損失即為OIM和三元組損失函數(shù)的簡(jiǎn)單疊加。
Conclusion
AlignPS在CUHK-SYSU上比baseline anchor-free模型提高了20%的mAP。且以更快的速度超過(guò)了two-stages 的SOTA。
更多內(nèi)容請(qǐng)關(guān)注公眾號(hào)CV技術(shù)指南,專(zhuān)注于計(jì)算機(jī)視覺(jué)的技術(shù)總結(jié),最新技術(shù)跟蹤。
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
即日-11.13立即報(bào)名>>> 【在線會(huì)議】多物理場(chǎng)仿真助跑新能源汽車(chē)
-
11月28日立即報(bào)名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國(guó)智造CIO在線峰會(huì)
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書(shū)》
-
精彩回顧立即查看>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
推薦專(zhuān)題
- 1 【一周車(chē)話】沒(méi)有方向盤(pán)和踏板的車(chē),你敢坐嗎?
- 2 特斯拉發(fā)布無(wú)人駕駛車(chē),還未迎來(lái)“Chatgpt時(shí)刻”
- 3 特斯拉股價(jià)大跌15%:Robotaxi離落地還差一個(gè)蘿卜快跑
- 4 馬斯克給的“驚喜”夠嗎?
- 5 打完“價(jià)格戰(zhàn)”,大模型還要比什么?
- 6 馬斯克致敬“國(guó)產(chǎn)蘿卜”?
- 7 神經(jīng)網(wǎng)絡(luò),誰(shuí)是盈利最強(qiáng)企業(yè)?
- 8 比蘋(píng)果偉大100倍!真正改寫(xiě)人類(lèi)歷史的智能產(chǎn)品降臨
- 9 諾獎(jiǎng)進(jìn)入“AI時(shí)代”,人類(lèi)何去何從?
- 10 Open AI融資后成萬(wàn)億獨(dú)角獸,AI人才之爭(zhēng)開(kāi)啟
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷(xiāo)售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷(xiāo)售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專(zhuān)家 廣東省/江門(mén)市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市