Oral: 自監(jiān)督學(xué)習(xí)-通過(guò)輔助推理任務(wù)實(shí)現(xiàn)高效的視覺(jué)語(yǔ)義導(dǎo)航
自監(jiān)督學(xué)習(xí)——通過(guò)輔助推理任務(wù)實(shí)現(xiàn)高效的視覺(jué)語(yǔ)義導(dǎo)航。關(guān)于作者朱峰達(dá)本科畢業(yè)于北航軟件工程系,是蒙納士大學(xué)信息技術(shù)學(xué)院數(shù)據(jù)科學(xué)與人工智能系的博士生,師從蒙納士大學(xué)的常曉軍老師和中山大學(xué)的梁小丹老師。他的研究興趣在于機(jī)器學(xué)習(xí)中的視覺(jué)語(yǔ)言導(dǎo)航和推理任務(wù)。
寫在前面:
視覺(jué)語(yǔ)言導(dǎo)航(Vision Language Navigation)是一個(gè)機(jī)器學(xué)習(xí)的新興任務(wù)。它的目的是讓一個(gè)智能體能夠在真實(shí)的3D環(huán)境中根據(jù)自然語(yǔ)言指令導(dǎo)航至正確的地點(diǎn)。這個(gè)任務(wù)有很多難點(diǎn):1. 提取并融合視覺(jué)和語(yǔ)言的特征 2. 學(xué)習(xí)導(dǎo)航軌跡和房間結(jié)構(gòu)的語(yǔ)義信息 3. 如何在未知的房間中利用已學(xué)習(xí)的知識(shí)進(jìn)行探索。
傳統(tǒng)的方法主要著重于視覺(jué)和語(yǔ)義特征的提取和融合,并將融合過(guò)后的混合特征通過(guò)一個(gè)策略網(wǎng)絡(luò)生成動(dòng)作。用這種方式學(xué)到的模型只對(duì)特征之間的相似度敏感,而對(duì)訓(xùn)練環(huán)境中的隱含信息,比如軌跡的語(yǔ)義和房間的結(jié)構(gòu)沒(méi)有直觀認(rèn)識(shí)。 而在這篇文章中,我們用自監(jiān)督的方法,從環(huán)境中挖掘了豐富的隱含信息(比如室內(nèi)結(jié)構(gòu)圖或者子軌跡的部分語(yǔ)義信息)。它們?yōu)槲覀兊哪P吞峁┝烁S富的訓(xùn)練信號(hào)。
我們提出了四種不同的輔助推理任務(wù):1. 解釋之前的動(dòng)作 2. 估計(jì)導(dǎo)航的進(jìn)度 3. 預(yù)測(cè)語(yǔ)言和軌跡的吻合程度 4. 預(yù)測(cè)下一步的方向。
我們的實(shí)驗(yàn)證明這四個(gè)輔助推理任務(wù)可以幫助我們模型導(dǎo)航得更精確、更有效率,并且它們可以使模型在沒(méi)有標(biāo)注的房間里進(jìn)行自適應(yīng)學(xué)習(xí)。同時(shí),輔助推理任務(wù)可以讓模型具有可解釋性。在測(cè)試環(huán)境中,我們通過(guò)模型在輔助任務(wù)上的輸出可以更加了解模型的“思考”方式。
一個(gè)簡(jiǎn)單的例子:
如圖所示為一個(gè)用自監(jiān)督輔助任務(wù)來(lái)訓(xùn)練導(dǎo)航模型的簡(jiǎn)單例子。模型從綠點(diǎn)開始,根據(jù)一個(gè)自然語(yǔ)言指令走到目標(biāo)紅點(diǎn)。藍(lán)色的點(diǎn)表示模型下一步可以導(dǎo)航到的位置,也就是隱式的室內(nèi)結(jié)構(gòu)圖。途中每一時(shí)刻它都會(huì)被要求預(yù)測(cè)四個(gè)輔助任務(wù)的結(jié)果。輔助任務(wù)帶來(lái)的額外信息和語(yǔ)義約束可以幫助模型更好地學(xué)習(xí)這個(gè)任務(wù)。 方法細(xì)節(jié)描述
我們提出了一個(gè)基于強(qiáng)化學(xué)習(xí)、監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)的混合學(xué)習(xí)框架 (AuxRN) 來(lái)完成室內(nèi)導(dǎo)航任務(wù)。 從視覺(jué)語(yǔ)言輸入到動(dòng)作序列預(yù)測(cè)。
首先我們要分別編碼歷史視覺(jué)信息和全局語(yǔ)義信息。我們將當(dāng)前點(diǎn)的全景圖經(jīng)過(guò)一個(gè)注意力模塊 Attno 獲得當(dāng)前點(diǎn)的全景視覺(jué)編碼,再經(jīng)過(guò)一個(gè)LSTMv 模塊獲得一個(gè)歷史軌跡的視覺(jué)編碼。該特征編碼了模型從開始到當(dāng)前步的歷史軌跡。我們?cè)賹⒆匀徽Z(yǔ)言指令經(jīng)過(guò)一個(gè)雙向 LSTM 獲得一組語(yǔ)言的特征編碼。為了將視覺(jué)特征和自然語(yǔ)言特征對(duì)齊,我們將視覺(jué)信息和語(yǔ)言信息通過(guò)另一個(gè)注意力模塊 Attnw。這一步是為了根據(jù)最近幾步看到的視覺(jué)信息找到對(duì)應(yīng)的自然語(yǔ)言指令的位置,從而獲得確切的子指令。最后我們從導(dǎo)航模擬器中獲取下一步可導(dǎo)航位置,獲取從當(dāng)前點(diǎn)看向該位置方向的視覺(jué)特征,利用一個(gè)注意力模塊 Attnc 輸出分類結(jié)果作為下一步要采取的動(dòng)作。 模型輸出的動(dòng)作序列使用監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)聯(lián)合訓(xùn)練。監(jiān)督學(xué)習(xí)的數(shù)據(jù)來(lái)源于從起點(diǎn)到終點(diǎn)的最短路,而強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)函數(shù)來(lái)源于當(dāng)前步比上一步距離目標(biāo)點(diǎn)縮短的距離。
四種輔助推理任務(wù):
在此基礎(chǔ)上,我們提出了四種自監(jiān)督輔助推理任務(wù)來(lái)挖掘環(huán)境中的隱含信息。
指令重述任務(wù)
首先我們希望我們的視覺(jué)編碼模塊能夠獲得和自然語(yǔ)言指令相同的語(yǔ)義特征。同時(shí)為了約束模型的訓(xùn)練過(guò)程,讓模型能夠在有限時(shí)間內(nèi)收斂,我們簡(jiǎn)化了任務(wù)。我們保存每一步的歷史視覺(jué)編碼,獲得視覺(jué)特征。我們將自然語(yǔ)言句子通過(guò)一個(gè)LSTM模塊編碼成一組特征向量,將語(yǔ)言和視覺(jué)特征通過(guò)一個(gè)注意力模塊 Attns 融合,再?gòu)娜诤线^(guò)后的編碼中分離出目標(biāo)詞向量。
進(jìn)度預(yù)測(cè)任務(wù)
模型可以通過(guò)學(xué)習(xí)導(dǎo)航的進(jìn)度來(lái)加深導(dǎo)航任務(wù)的理解。它能幫助模型更好地對(duì)齊視覺(jué)和語(yǔ)言特征。我們改進(jìn)了之前的工作,用噪音更小的步數(shù)代替距離作為導(dǎo)航進(jìn)度的標(biāo)簽,用交叉熵 (Binary Cross Entropy) 損失函數(shù)代替均方差 (Mean Square Error) 損失函數(shù)。
多模態(tài)匹配任務(wù)
在多模態(tài)匹配任務(wù)中,我們將自然語(yǔ)言特征組經(jīng)過(guò)一個(gè)均值池化層(在圖中用P表示)獲得一個(gè)自然語(yǔ)言特征向量。我們以0.5的概率用數(shù)據(jù)集中的另一條不相關(guān)的自然語(yǔ)言向量替換這個(gè)向量(在圖中用S表示)。最后,我們將這個(gè)向量和語(yǔ)言特征向量連接(在圖中用C表示)通過(guò)兩層全連接層和一層Sigmoid 激活層獲得它們匹配的概率
在實(shí)現(xiàn)的時(shí)候,考慮到訓(xùn)練的效率,替換這個(gè)操作局限于一個(gè)batch內(nèi),我們會(huì)把0.5概率選中的自然語(yǔ)言向量用同一batch的另一個(gè)自然語(yǔ)言向量代替。這個(gè)操作可以并行化。
角度預(yù)測(cè)任務(wù)
在一開始我們提到了我們的動(dòng)作預(yù)測(cè)是通過(guò)一個(gè)注意力機(jī)制實(shí)現(xiàn)的。從導(dǎo)航模擬器中獲取下一步可導(dǎo)航位置的一個(gè)候選集。將語(yǔ)言和視覺(jué)的融合特征與候選集的視覺(jué)特征逐一匹配,選擇匹配度最大的那個(gè)作為下一步要走的方向。用這種方式學(xué)到的模型只對(duì)特征之間的相似度敏感,而對(duì)房間結(jié)構(gòu)沒(méi)有顯式的感知。我們可以讓模型預(yù)測(cè)下一步要走的方向來(lái)約束模型,使其能夠?qū)W到有關(guān)房間結(jié)構(gòu)的信息,而這些信息對(duì)導(dǎo)航是有幫助的。
最后,我們將這四個(gè)輔助任務(wù)的損失和主函數(shù)的損失加到一起進(jìn)行訓(xùn)練
在這里我們沒(méi)有做過(guò)多的調(diào)參工作,把各損失的權(quán)重都設(shè)置為1即可。 實(shí)驗(yàn)結(jié)果
我們的模型在標(biāo)準(zhǔn)視覺(jué)語(yǔ)言導(dǎo)航數(shù)據(jù)集(R2R)上取得了第一名的成績(jī)。
我們的對(duì)比實(shí)驗(yàn)說(shuō)明了各個(gè)輔助任務(wù)都會(huì)對(duì)模型的性能有較大提升。并且它們的聯(lián)合訓(xùn)練會(huì)進(jìn)一步提升模型的性能。
我們可視化了兩個(gè)在測(cè)試集上的導(dǎo)航軌跡。在序列開始模型會(huì)收到自然語(yǔ)言指令的輸入,指示每一步要走的方向和目標(biāo)物體。每走一步模型都收到一張全景圖作為視覺(jué)輸入。紅色箭頭代表模型預(yù)測(cè)的下一步去往的方向。我們可以看到模型準(zhǔn)確地到達(dá)了目標(biāo)位置,并且模型能夠準(zhǔn)確預(yù)測(cè)導(dǎo)航的進(jìn)度以及軌跡和語(yǔ)言指令的匹配程度。
這里我們做了一個(gè) demo 分享了更多可視化結(jié)果,供大家直觀地了解數(shù)據(jù)集分布和我們的模型所能達(dá)到的效果。
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
10月31日立即下載>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報(bào)名>>> 【在線會(huì)議】多物理場(chǎng)仿真助跑新能源汽車
-
11月28日立即報(bào)名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國(guó)智造CIO在線峰會(huì)
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
推薦專題
- 1 【一周車話】沒(méi)有方向盤和踏板的車,你敢坐嗎?
- 2 特斯拉發(fā)布無(wú)人駕駛車,還未迎來(lái)“Chatgpt時(shí)刻”
- 3 特斯拉股價(jià)大跌15%:Robotaxi離落地還差一個(gè)蘿卜快跑
- 4 馬斯克給的“驚喜”夠嗎?
- 5 打完“價(jià)格戰(zhàn)”,大模型還要比什么?
- 6 馬斯克致敬“國(guó)產(chǎn)蘿卜”?
- 7 神經(jīng)網(wǎng)絡(luò),誰(shuí)是盈利最強(qiáng)企業(yè)?
- 8 比蘋果偉大100倍!真正改寫人類歷史的智能產(chǎn)品降臨
- 9 諾獎(jiǎng)進(jìn)入“AI時(shí)代”,人類何去何從?
- 10 Open AI融資后成萬(wàn)億獨(dú)角獸,AI人才之爭(zhēng)開啟
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市