免费成人在线观看视频,午夜激情在线观看,巨爆乳寡妇中文bd

Google發(fā)布大規(guī)模實例級檢索和識別基準數(shù)據(jù)集GLDv2

2020-04-17 10:49

隨著圖像檢索和實例識別技術(shù)的迅速發(fā)展，急需有效的基準數(shù)據(jù)來對不斷出現(xiàn)算法的性能進行有效測評。來自谷歌的研究人員為此設(shè)計并推出了Google Landmarks Dataset v2（GLDv2）數(shù)據(jù)集用于大規(guī)模、細粒度的地標實例識別和圖像檢索人物。這一數(shù)據(jù)集包含了200k個不同實例標簽共5M張圖像，其中包括測試集為檢索人物標注的118k張圖像。

這一數(shù)據(jù)集的特點不僅在于規(guī)模，而且在于考慮了許多真實應用中會遇到的問題，包括長尾特性、域外圖像、類內(nèi)豐富多樣性等特點。這一數(shù)據(jù)集除了可以作為檢索和識別人物的有效基準外，研究人員還通過學習圖像嵌入呈現(xiàn)了其用于遷移學習的潛力。

圖像檢索與實例識別

圖像檢索和實例識別是計算機視覺研究領(lǐng)域的基本課題已經(jīng)有很長的研究歷史。其中圖像檢索的目的是基于查詢圖像來排序出最為相關(guān)的圖像，而實例識別則是為了識別出目標類別中的特定實例（例如從“油畫”類別中識別出“蒙娜麗莎”實例）。

但隨著技術(shù)的發(fā)展，兩種任務(wù)開始結(jié)合提高了技術(shù)額魯棒性和規(guī)模性，早期的數(shù)據(jù)集越來越不足以支撐算法的發(fā)展。此外在圖像分類、目標檢測等領(lǐng)域都出現(xiàn)了像ImageNet、COCO、OpenImages等大規(guī)模的數(shù)據(jù)集，而圖像檢索領(lǐng)域還在使用Oxford5k和Paris6k等數(shù)據(jù)較少、時間較老的數(shù)據(jù)集。由于其大多只包含了單個城市的數(shù)據(jù)，使其訓練的結(jié)果難以大規(guī)模的泛化。

世界范圍內(nèi)的數(shù)據(jù)采集點的分布

很多現(xiàn)有的數(shù)據(jù)集都沒有涵蓋真實條件下的挑戰(zhàn)。例如用于視覺檢索的地標識別app會收到大量非地標的查詢圖像，包括動植物或各類產(chǎn)品等，這些查詢圖像原則上不應該得到任何查詢結(jié)果。此外絕大多數(shù)實例識別數(shù)據(jù)集僅僅有專題查詢能力，同時無法測量域外數(shù)據(jù)的假陽性率。

研究人員迫切需要更大、更具挑戰(zhàn)的數(shù)據(jù)來測評技術(shù)的發(fā)展，同時為將來的研究提供足夠的挑戰(zhàn)和動力。這一領(lǐng)域缺乏大規(guī)模數(shù)據(jù)的原因在于上千個標簽和上百萬圖像中進行數(shù)千個標簽的細粒度標注十分耗費人力，同時也不是簡單的外包可以完成，需要專業(yè)知識才能有效標注。為了解決這些問題，新的數(shù)據(jù)呼之欲出！

GLDv2

這一新數(shù)據(jù)集的主要目的是為了盡可能的模擬和覆蓋真實工業(yè)場景地標識別系統(tǒng)所面臨的挑戰(zhàn)。為了盡可能地覆蓋真實世界，需要非常多的圖像，因此這一數(shù)據(jù)集首先需要滿足大規(guī)模的特性；其次為了適應多種光照條件和視角，還需要每一個類別或?qū)嵗龢撕炛械膱D像具有豐富的類內(nèi)多樣性。真實情況下絕大多數(shù)圖像來源于著名的地標，而還有很多來源于不那么知名的地點，所以數(shù)據(jù)集還需要具備長尾特性。最后一個問題，在實際使用中，用戶會上傳各種各樣的查詢圖像，只有非常少的一部分圖像存在于數(shù)據(jù)集中，那么這些數(shù)據(jù)需要滿足域外查找特性（即能夠在不包含在訓練集中的查詢圖像上依然有效運行）。這些實際情況中的特點為識別算法的魯棒性提出了非常大的要求。

在這些因素的指導下，研究人員們開始收集對應的圖像并進行標注。數(shù)據(jù)主要來源于Wikimedia Commons，這是Wikipedia背后支撐的媒體資源庫。它覆蓋了世界范圍內(nèi)大部分的地標，同時還包括了Wiki Loves Monuments來自世界各地的文化遺跡高質(zhì)量細粒度照片。此外研究人員還從眾包中獲取了真實的查詢照片。

在獲取了圖像后就需要標記數(shù)據(jù)集建立索引了。下圖顯示了從Wikimedia Commons中挖掘地標圖像的流程。

Wikimedia Commons中是按照分類學的方式組織資源。每一個分類有獨特的URL其中包含了所有相關(guān)的圖像列表。但這種方式并沒有合適的頂級分類來映射人造和自然地標的，于是研究人員采用了谷歌知識圖譜來發(fā)掘世界范圍內(nèi)的地標。

為了獲取WikiCommons中與地標相關(guān)的分類，研究人員從谷歌知識圖譜中查詢了“l(fā)andmarks”，“tourist attractions”，“points of interest”等等詞條，每次查詢都會返回圖譜實體，利用這一實體來獲取Wikipedia中的文章，并跟隨文章中的鏈接找到Wikimedia Commons分類頁面。隨后將所有圖像下載下來，并利用嚴格的分類來確定每一張圖像對應一種分類，并利用Wikimedia Commons中的url作為典型的類別標簽。依照這樣的方式獲取了訓練和索引集。而查詢數(shù)據(jù)集的構(gòu)建則包含了包含地標的positive查詢和不包含地標的negative查詢。

由于視覺上的檢查發(fā)現(xiàn)檢索和識別結(jié)果出現(xiàn)了一些錯誤，主要由于遺漏了基準標注，原因源于以下幾個方面：眾包帶來的錯誤和遺漏、某些查詢圖像包含多個地標，但基準只有一個結(jié)果、某一圖像在不同層次具有不同的標簽、某些negative查詢圖像實際上是地標圖像。為了解決這些問題，需要對測試集進行重新標注。

GLDv2數(shù)據(jù)集與其他數(shù)據(jù)的比較

最終研究人員得到了五百萬張超過二十萬個不同實例地點的數(shù)據(jù)集，成為了目前領(lǐng)域內(nèi)最大的實例識別數(shù)據(jù)。它最終分為三個部分，一部分是118k包含基準標注的查詢數(shù)據(jù)、4．1M圖像包含203k地標標簽的訓練數(shù)據(jù)、包含101k地標的762k張索引圖像。此外還給出了一個小型的數(shù)據(jù)集包括1．2M圖像和15k地標。與其他數(shù)據(jù)集相比，這一新數(shù)據(jù)集的規(guī)模和多樣性都是無可比擬的：

采集自世界范圍內(nèi)的圖像，分類圖顯示了超過25k地點類別直方圖

強有力的數(shù)據(jù)集

為了檢驗這一數(shù)據(jù)集的能力，研究人員進行了一系列實驗。首先在GLDv2數(shù)據(jù)上進行訓練，測試了模型的遷移能力。通過學習全局描述子并測評他們在獨立地標檢索數(shù)據(jù)中的表現(xiàn)（Revisited Oxford，ROxf 和 Revisited Paris， RPar）。下表顯示了這一數(shù)據(jù)集可以顯著提高模型的性能，mAP的提升將近5％。