ECCV 2020 | 基于對(duì)抗路徑采樣的反事實(shí)視覺語言導(dǎo)航
本文將分享加州大學(xué)助理教授王鑫和王威廉等人在ECCV spotlight的工作。為了實(shí)現(xiàn)VLN智能體,不僅需要學(xué)習(xí)理解語言語義和視覺環(huán)境,同時(shí)還要適應(yīng)視覺語言交互情況下的動(dòng)態(tài)變化,研究人員提出了一種對(duì)抗驅(qū)動(dòng)的反事實(shí)思考方法。模型通過學(xué)習(xí)評(píng)價(jià)有效的反事實(shí)條件來代替采樣充分但信息不足的數(shù)據(jù),最終形成了一種比隨機(jī)采樣路徑方法更為有有效的對(duì)抗策略。
視覺語言導(dǎo)航(Vision-and-language navigation, VLN)是機(jī)器人基于自然語言指令在3D環(huán)境中進(jìn)行移動(dòng)以到達(dá)目標(biāo)的任務(wù)。它不僅需要理解自然語言信息,同時(shí)還需要將周圍環(huán)境的視覺信息進(jìn)行編碼,在語言指令的引導(dǎo)下利用場(chǎng)景的關(guān)鍵特征來向目標(biāo)位置移動(dòng)。
為了實(shí)現(xiàn)VLN智能體,不僅需要學(xué)習(xí)理解語言語義和視覺環(huán)境,同時(shí)還要適應(yīng)視覺語言交互情況下的動(dòng)態(tài)變化。這一復(fù)雜的任務(wù)所面臨的最大困難在于訓(xùn)練數(shù)據(jù)的稀缺性。例如在Room-to-Room(R2R)數(shù)據(jù)集中包含了超過二十萬條可能的路徑,但數(shù)據(jù)集中卻只有大約一萬四千條采樣路徑。如此稀缺的數(shù)據(jù)使得智能體在交換環(huán)境中學(xué)習(xí)語言和視覺任務(wù)的優(yōu)化匹配問題變得十分困難。
而對(duì)于人類來說,通常缺乏結(jié)合視覺感知和語言指令來對(duì)不熟悉的環(huán)境進(jìn)行探索的能力,然而人類的思維還是可以利用反事實(shí)推理來完善缺失的信息。例如,如果人類按照“右轉(zhuǎn)”的指令但看到了門擋在前面,人們就會(huì)自然而然的思考要是左轉(zhuǎn)會(huì)遇到什么情況;如果我們停在餐桌前而不是徑直走過,那么指令應(yīng)該是什么樣的呢?我們可以看到反事實(shí)推理可以通過探索并考量可能的行為方式(并沒有實(shí)際發(fā)生,類似于設(shè)想)來改進(jìn)VLN任務(wù)的表現(xiàn)。這可以使得主體在數(shù)據(jù)缺乏的場(chǎng)景下通過環(huán)境的引導(dǎo)熟悉(bootstrapping familiarity)和指令與多個(gè)行為策略選項(xiàng)中的聯(lián)系來進(jìn)行有效操作。
反事實(shí)思考已經(jīng)被用于多種任務(wù)來增強(qiáng)模型的魯棒性,但還沒有顯式的反事實(shí)模型被針對(duì)性地用于VLN任務(wù)中。雖然有像Speaker-Follower這樣的方法對(duì)訓(xùn)練樣本進(jìn)行了增強(qiáng),但隨機(jī)采樣方法太任意了。下圖展示了基于隨機(jī)采樣增強(qiáng)數(shù)據(jù)訓(xùn)練的模型性能隨增強(qiáng)比例的變化,可以看到在60%以后性能幾乎就不再增加。這是由于這些路徑都是隨機(jī)采樣的,限制了反事實(shí)思考對(duì)于數(shù)據(jù)增強(qiáng)的所帶來的提升。
隨機(jī)采樣和APS采樣的對(duì)比,可以看到隨機(jī)手段對(duì)性能的提升會(huì)遇到瓶頸。
在這篇論文中,研究人員提出了一種對(duì)抗驅(qū)動(dòng)的反事實(shí)思考方法,模型通過學(xué)習(xí)評(píng)價(jià)有效的反事實(shí)條件來代替采樣充分但信息不足的數(shù)據(jù)。研究人員首先引入了模型未知的對(duì)抗路徑采樣器(adversarial path sampler, APS)來生成富有挑戰(zhàn)并有效的增強(qiáng)路徑,作為目標(biāo)導(dǎo)航模型的訓(xùn)練樣本。在對(duì)抗訓(xùn)練過程中,導(dǎo)航器嘗試著去完成APS生成的路徑并更好地優(yōu)化導(dǎo)航策略,而APS的目標(biāo)則在于不斷生成更具挑戰(zhàn)性的路徑。這種對(duì)抗策略比隨機(jī)采樣路徑方法更為有有效。
此外在APS的增強(qiáng)下,模型對(duì)于陌生場(chǎng)景和未知場(chǎng)景具有更好地適應(yīng)性,實(shí)現(xiàn)基于環(huán)境的預(yù)探索機(jī)制。這樣在進(jìn)入新環(huán)境后,機(jī)器人可以首先對(duì)其進(jìn)行預(yù)探索并熟悉環(huán)境,隨后在自然語言的引導(dǎo)下完成任務(wù)。在R2R數(shù)據(jù)集上的結(jié)果表明APS可以被集成到多種VLN模型中,大幅提升已知和未知環(huán)境中的性能。
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
10月31日立即下載>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報(bào)名>>> 【在線會(huì)議】多物理場(chǎng)仿真助跑新能源汽車
-
11月28日立即報(bào)名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國智造CIO在線峰會(huì)
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
推薦專題
- 1 【一周車話】沒有方向盤和踏板的車,你敢坐嗎?
- 2 特斯拉發(fā)布無人駕駛車,還未迎來“Chatgpt時(shí)刻”
- 3 特斯拉股價(jià)大跌15%:Robotaxi離落地還差一個(gè)蘿卜快跑
- 4 馬斯克給的“驚喜”夠嗎?
- 5 海信給AI電視打樣,12大AI智能體全面升級(jí)大屏體驗(yàn)
- 6 打完“價(jià)格戰(zhàn)”,大模型還要比什么?
- 7 馬斯克致敬“國產(chǎn)蘿卜”?
- 8 神經(jīng)網(wǎng)絡(luò),誰是盈利最強(qiáng)企業(yè)?
- 9 比蘋果偉大100倍!真正改寫人類歷史的智能產(chǎn)品降臨
- 10 諾獎(jiǎng)進(jìn)入“AI時(shí)代”,人類何去何從?
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市