天天短訊!視覺語言導航研究進展

2023-01-11 11:18:47 來源:51CTO博客

作者:司馬雙霖, 黃巖, 何科技, 安東, 袁輝, 王亮?

首發(fā):自動化學報;編輯:一點人工一點智能

原文地址:視覺語言導航研究進展


(資料圖片)

近年來,越來越多研究人員意識到單模態(tài)分析技術在現(xiàn)實中處理信息的局限性,對于自然語言、音頻信息以及視覺等多模態(tài)融合方面的研究投入日益增加。視覺語言導航[1]是智能體在第一視角下,基于真實環(huán)境下的全景圖,綜合處理指令和視覺信息并進行推理的多模態(tài)任務,也是智能管家等應用的核心技術之一。視覺語言導航嘗試使用多模態(tài)融合的方式,為室內導航任務的研究提供了一個新的方向。如圖1所示,智能體需要結合指令信息和視覺信息,在模擬器中完成一系列的決策,最終到達目標位置。其中主要難點在于如何學習理解指令和視覺的信息,從而完成導航過程中的每一步?jīng)Q策。

圖 1 視覺語言導航過程示意圖

Anderson等[1]于2018年首先提出視覺語言導航任務,并公開了與任務相對應的基于真實環(huán)境的Room-to-Room (R2R)數(shù)據(jù)集,并在Matterport-3D[2]模擬器完成了導航任務的仿真。視覺語言導航一經(jīng)提出便引起了廣泛的關注。隨著研究的不斷深入,研究人員提出了很多拓展任務,如室外視覺語言導航Touchdown[3]、結合導航和指稱表達(REVERIE)[4-5]以及視覺對話導航任務[6]。除此之外,研究人員也發(fā)現(xiàn)了一些視覺語言導航亟需解決的問題,如數(shù)據(jù)量級還遠不能滿足實際需求,數(shù)據(jù)稀缺問題愈發(fā)突出、以及模型的泛化能力低。這些問題一直阻礙著視覺語言導航的發(fā)展。另外現(xiàn)有的方法全是基于模擬器的仿真環(huán)境,該設定與現(xiàn)實場景下的導航仍存在很大差異。如何將現(xiàn)有的模型應用到實際環(huán)境中,也是視覺語言導航的一大難題。

為了解決以上問題,一系列的改進模型方法被相繼提出。研究人員在指令集擴充、學習策略升級和多模態(tài)融合等方面進行較多探索并取得了巨大進展。本文首先介紹常用的數(shù)據(jù)集,然后按照不同的模型改進方式對現(xiàn)有的方法進行分類介紹,并結合不同數(shù)據(jù)集的實驗結果分析不同模型的優(yōu)勢和不足,全面介紹目前視覺語言導航的研究現(xiàn)狀。

01視覺語言導航數(shù)據(jù)集

視覺語言導航的數(shù)據(jù)集,主要是針對Matter-Port3D模擬器的90個場景建立的。為了推動視覺語言導航任務的發(fā)展,研究人員從指令描述粒度、指令長度以及語言種類入手,收集了大量的人工指令。這一定程度上擴大了數(shù)據(jù)量,對視覺語言導航的發(fā)展,起著非常重要的作用。本節(jié)將按照不同的指令粒度和指令長度的數(shù)據(jù)集分類介紹。

1.1 R2R數(shù)據(jù)集

R2R數(shù)據(jù)集是由Anderson等[1]構建,其中總詞匯量約3100個單詞,構成7189條路徑下的21567條人工標注的指令,且每條指令的平均長度為29個單詞。R2R數(shù)據(jù)集在很大程度上覆蓋了視覺環(huán)境中的大部分細節(jié)信息,具有多樣性的特點。在視覺語言導航中,R2R數(shù)據(jù)集被分成訓練集、可見環(huán)境的驗證集、不可見環(huán)境的驗證集和測試集。其中訓練集和可見環(huán)境的驗證集共用61個真實場景,但是把相應場景下的數(shù)據(jù)集分為了兩個部分: 用于訓練的14025條指令和用于可見環(huán)境驗證的1 020條指令。不可見環(huán)境的驗證集和測試集中并沒有交叉重復的數(shù)據(jù),不可見環(huán)境驗證集使用11個真實場景和2349條指令,而剩余的18個真實場景和4173條對應的指令構成測試集。

1.2 Fine-Grained R2R數(shù)據(jù)集

由于R2R參考路徑是由初始位置到目標位置間的最短路徑構成,這在一定程度上影響了路徑與指令的耦合度,同時缺少細粒度指令和視覺場景的對應關系。Hong等[7]提出了一種細粒度的子指令形式,對原先的R2R指令使用啟發(fā)式算法生成相應的子指令,構造了細粒度的Fine-grained R2R (FGR2R)數(shù)據(jù)集。FGR2R訓練集和驗證集的每條指令平均可拆分為3.6條子指令,且每條子指令平均包含7.2個單詞和2.6個對應的導航點。例如這條簡單的指令: “左轉,走上樓梯,進入衛(wèi)生間”,對智能體,準確無誤地理解它十分困難,必須對指令分解逐一理解每個詞語的意思。這意味著將導航任務簡化為多個子任務,每個子任務都有與其對應的子指令。此外,智能體不僅需要理解指令信息,而且需要對環(huán)境中的視覺物體進行識別。比如“走上樓梯”,直到檢測到樓梯匹配到指令信息,才可以執(zhí)行后續(xù)的動作。

1.3 R4R、R6R和R8R數(shù)據(jù)集

由于Room-for-Room (R4R)、Room-6-Room (R6R)和Room-8-Room (R8R)數(shù)據(jù)集構建的思路一致,本節(jié)將介紹這3個數(shù)據(jù)集。在R2R數(shù)據(jù)集中的路徑普遍需要4 ~ 6個步驟完成,并且利用最短路徑的方式到達目的位置。這樣不利于評估指令和路徑的匹配程度,因此需要一個包含更長路徑的數(shù)據(jù)集來對導航中的動作與指令的一致性進行評價。文獻[8-9]提出拼接R2R數(shù)據(jù)集指令的方式,由此形成更長指令長度的R4R、R6R和R8R數(shù)據(jù)集。由于指令長度和參考路徑變得更長,從而增加了訓練模型的難度。同時,先前的評價指標僅僅關注是否到達目標位置,對指令和路徑是否匹配并不敏感。因此針對長指令數(shù)據(jù)集,研究人員提出了一些新的評價指標和方法,來衡量和提高模型的泛化能力。

1.4 RxR數(shù)據(jù)集

對于現(xiàn)有的R2R數(shù)據(jù)集中存在偏差、指令和路徑的數(shù)量少等問題,Ku等[10]提出新的Room-across-Room (RxR)數(shù)據(jù)集,分別從指令語言種類、數(shù)據(jù)集規(guī)模、路徑和指令的匹配粒度和姿態(tài)跟蹤4個方面對數(shù)據(jù)集進行了拓展和改進。RxR數(shù)據(jù)集包括16500條路徑,且每條路徑對應3條不同語種的指令,總詞匯量高達980萬條,構成126000條指令。此外,He等[11]利用標志物信息,將en-RxR劃分成短指令的形式,構建了Landmark-RxR數(shù)據(jù)集。相較于R2R數(shù)據(jù)集,RxR數(shù)據(jù)集中指令對應的路徑長度更長,并且在指令和路徑的匹配程度上更為一致。同時RxR采用對三種語言指令進行測試,可以避免對單一語種產生過擬合的現(xiàn)象。RxR數(shù)據(jù)集中首次引入姿態(tài)跟蹤的方式,即對比與人執(zhí)行指令時所采取的動作和經(jīng)過的位置。后續(xù)的工作將RxR數(shù)據(jù)集引入到連續(xù)環(huán)境的模擬器,以尋找更具有更加實用的模型。

除了以上的指令數(shù)據(jù)集,還有一些視覺語言導航拓展工作的數(shù)據(jù)集,如REVERIE[4]和Bilingual Room-to-Room (BL-R2R)[12]數(shù)據(jù)集。表1介紹了不同數(shù)據(jù)集的各項屬性。

表1視覺語言導航不同數(shù)據(jù)集的對比

02視覺語言導航模型

目前視覺語言導航所面臨的兩大難題: 數(shù)據(jù)稀缺和模型的泛化性低,一直阻礙著該領域的發(fā)展。但隨著越來越多研究人員投入到視覺語言導航中,這些問題都不同程度地得到解決。我們將視覺語言導航模型分為數(shù)據(jù)增強、搜索策略、動作空間、訓練策略4個方面來進行介紹。

2.1 基于數(shù)據(jù)增強的視覺語言導航模型

視覺語言導航是根據(jù)真實場景下的照片所構成的仿真環(huán)境和人工指令,進行一系列推理的過程。專業(yè)人員標注的指令不僅成本高,且數(shù)量十分有限,例如常用的R2R數(shù)據(jù)集中僅含有21567條語言指令。因此,數(shù)據(jù)稀缺是視覺語言導航中的先天問題,不僅使得學習跨模態(tài)匹配更加困難,還在很大程度上限制了模型的性能。當前很多領域的研究已經(jīng)證明了數(shù)據(jù)增強的有效性,特別是提升模型的性能有很大幫助。接下來,本節(jié)將從合成新指令和拼接舊指令兩個方面介紹視覺語言導航中的數(shù)據(jù)增強方法。

2.1.1 基于生成新指令的數(shù)據(jù)增強模型

Fried等[13]首先提出了一種數(shù)據(jù)增強的方式,如圖2所示,“說話者”模型可以從視覺軌跡合成新的指令,拓展當前有限的訓練指令集。而“跟隨者”模型來檢驗生成指令,產生的軌跡可以作為“說話者”的輸入,從而達到數(shù)據(jù)增強的目的。使用數(shù)據(jù)增強指令訓練導航模型的方法,不僅可以顯著提升模型性能,而且對提升泛化能力很有幫助。除此之外,“說話者”模型可以用來評價智能體導航路徑的好壞。很多后續(xù)工作都在這種數(shù)據(jù)增強的基礎上,再做相應的方法改進。Fu等[14]指出現(xiàn)有的數(shù)據(jù)增強模型性能表現(xiàn)并不理想,究其原因在于困難樣本的導航成功率不高。針對這一問題,他們提出一種對抗訓練的方式。該方法通過模型動態(tài)更新路徑生成器,旨在提高困難樣本的成功率,以進一步提升整體的泛化效果。而文獻[15]通過分析“說話者”模型生成的合成指令,發(fā)現(xiàn)大部分合成指令存在語句邏輯問題,并沒有建立好和視覺環(huán)境之間的聯(lián)系,反而引入了更多的誤差。因此Huang等[15]提出一種生成高精度指令的數(shù)據(jù)增強方式,通過設置一個判別器來評價生成數(shù)據(jù)的質量,同時引入一些負樣本,以提高訓練的魯棒性。盡管模型的表現(xiàn)不錯,但是依然沒有解決有效的生成指令數(shù)量少的問題。由于缺少指令的評估指標,Zhao等[16]提出一個不需要參考指令的指令軌跡親和模型。

圖 2“說話者”和“跟隨者”[13]模型的數(shù)據(jù)增強過程

另外,不少研究人員在導航環(huán)境方面做出新的嘗試,并指出“說話者”模型訓練時的有限環(huán)境數(shù)量,限制了指令的多樣性。首先,Tan等[17]在“說話者”和“跟隨者” (Speaker-follower,SF)模型的基礎上,提出了基于環(huán)境的數(shù)據(jù)增強模型,即通過遮擋環(huán)境中的同類物體,進而產生新的環(huán)境; 從這些環(huán)境收集新的路徑,然后通過“說話者”模塊生成新的指令; 最后利用這些數(shù)據(jù)微調模型。此外,An等[18]認為當前視角可能缺失指令中的關鍵物體信息,進而導致錯誤決策,于是提出鄰近視角增強模型(Neighbor-view enhanced model,NvEM)。該模型使用當前視角的圖像特征和相鄰視角的圖像特征,以擴大智能體的感受野。無論是從指令或環(huán)境入手,這些方法均是基于最短路徑的原則來導航,這樣會導致學習過程中出現(xiàn)依賴于訓練時所做過的動作,從而出現(xiàn)忽略重要語言信息和視覺信息的問題。為了解決該問題,文獻[19]提出基于隨機路徑方式的數(shù)據(jù)增強。Yu等[19]基于“說話者”和“跟隨者”模型,額外設置路徑選擇器動態(tài)地采樣隨機路徑,并用“說話者”模塊為這些路徑生成相應的指令,然后再使用生成數(shù)據(jù)訓練“跟隨者”模塊,最終達到隨機路徑形式的數(shù)據(jù)增強目的。這些方法都基于自主合成新指令的方式,但合成的指令與人類指令之間仍存在較大差異。主要原因是合成指令的細節(jié)不足和邏輯不通,從而導致了合成新的有效指令比較匱乏的問題。

2.1.2 基于拼接舊指令的數(shù)據(jù)增強模型

除了生成新指令的方式外,文獻[8]提出拼接R2R數(shù)據(jù)集,來構成R4R數(shù)據(jù)集的方法,進而達到數(shù)據(jù)增強的目的。由于直接訓練較長路徑的模型比較困難,Jain等[8]提出模型先在較短路徑下訓練,然后再將模型遷移到較長路徑的導航任務中。Zhu等[9]進一步將R2R數(shù)據(jù)集拓展到R6R和R8R長指令數(shù)據(jù)集,并提出一個記憶緩存來保存歷史子指令和子軌跡對,同時使用模仿學習和課程強化學習進行兩個階段的訓練。

盡管當前視覺語言導航的工作已經(jīng)取得一定的進展,但是在提高視覺信息和指令耦合度方面,并沒有很多突破性的工作。以往的研究驗證了使用循環(huán)神經(jīng)網(wǎng)絡訓練會存在長期依賴的問題,即當前狀態(tài)會受一段時間之前的狀態(tài)影響,這在長指令集訓練過程中是無法避免的。無論是哪種數(shù)據(jù)增強手段產生的指令都存在偏差,以及有效指令和路徑的數(shù)量少等問題。因此Ku等[10]提出了新的RxR數(shù)據(jù)集,從路徑軌跡采樣方式、路徑和指令的數(shù)量、路徑和指令的粒度、語言種類四個方面對R2R數(shù)據(jù)集進行拓展和改進。

在視覺語言導航任務中,數(shù)據(jù)增強作為一種提升模型泛化能力的方法,一定程度上縮小模型在可見環(huán)境和不可見環(huán)境的表現(xiàn)差距。但是視覺語言導航中仍存在導航成功率低和過于依賴拓撲結構的問題,純粹依賴數(shù)據(jù)增強不能根本緩解以上問題。

2.2 基于改進搜索策略的視覺語言導航模型

早期的視覺語言導航任務采用的搜索策略是貪婪解碼[20]。因MatterPort3D平臺將真實環(huán)境簡化成離散點集,而導航過程需要連續(xù)地推理決策,來得到全局最優(yōu)解,所以貪心算法的效果并不理想。Fired等[13]發(fā)現(xiàn)這一問題,提出在全景動作空間中將導航任務簡化為加權無向圖搜索方法。如圖3所示,通過采用波束搜索[21]的方式,能夠選擇多條備選全局路徑進行打分來選擇最優(yōu)路徑。這種搜索策略大幅提升導航成功率,但是存在路徑過長、搜索效率低的缺點。為了改進以上的方法,研究人員提出帶回溯的前沿搜索(FAST)[22]和基于回溯機制的后悔模型[23],旨在降低搜索成本。回溯機制是在每次決策后及時評估,如果打分低,則選擇回溯上一步,否則選擇鄰近未探索的節(jié)點。而FAST則是在此基礎上,提出了一種局部信息和全局信息相結合的方式。該方法通過比較不同長度的局部路徑,結合全局信號,利用異步搜索的方式來實現(xiàn)有效回溯。

圖3視覺語言導航任務中的不同搜索策略

由于存在指令語義模糊和局部視覺不確定性的問題,Wang等[24]提出一種動態(tài)決定探索方向、允許對下一步節(jié)點探索并進行預測的方法。但探索過多會導致軌跡長度過長和基于路徑長度加權的成功率降低的問題,整體效果并不理想。而Chi等[25]提出當智能體不知選擇哪個方向時,采用輔助解惑的手段。當學習到的融合信息讓智能體感到“疑惑”時,交互學習方式能幫助智能體解決導航中下一步移動的問題。而為了縮小訓練和測試之間的差距,Deng等[26]提出可變圖規(guī)劃器模型(EGP),這是一種使用原始圖像高效生成全局規(guī)劃的方法。其通過動態(tài)地構建一個圖的表示(包括動作空間),以便于更好決策。Hong等[27]則通過構建語言和視覺實體關系圖模型(Relgraph),更好地利用不同模態(tài)間的關系。同時他們提出一種消息傳遞算法,在圖中的語言元素和視覺實體之間傳播信息,然后將這些信息組合起來以確定下一步要采取的動作。為了更好地長期規(guī)劃決策,Wang等[28]提出一種結構化場景記憶的模型(SSM),允許智能體對已探索的區(qū)域保留訪問權力,然后通過這種持久性的空間表示,智能體在細粒度指令的輔助下,在全局決策方面表現(xiàn)出色。

現(xiàn)有的導航策略都是盡可能地找到每步的最佳決策,尋找一條從起始位置到目標位置的有效路徑。雖然一定程度上會造成導航路徑長度過長,卻對導航成功率的提升十分明顯。此外,隨著研究的深入,記憶機制和圖結構的引入,為視覺語言導航策略提供了不同的思路和方向。

2.3 基于不同動作空間的視覺語言導航模型

文獻[29]首次按照動作空間劃分不同的模型,將依賴于模擬平臺和導航圖的模型稱為高級動作模型,對于直接預測下一個基礎動作的模型稱為低級動作模型。如圖4所示,圖4(a)表示低級動作空間的5個基礎動作,圖4(b)表示高級動作空間基于導航點的動作。本節(jié)根據(jù)動作空間的劃分,分別介紹高級動作空間和低級動作空間的視覺語言導航方法。

圖4低級動作空間和高級動作空間表示

2.3.1 基于高級動作空間的視覺語言導航

早期Fried等[13]提出將36張不同仰角和水平偏角的圖像合成一張全景圖的方法,后來該形式被通稱為高級動作空間。在此高級動作空間中,智能體只需選擇鄰近節(jié)點移動。高級動作空間不僅可以簡化導航過程,并且能顯著提升導航成功率。在高級動作空間下,文獻[30]發(fā)現(xiàn)導航結果反饋模糊的問題,即導航成功產生的反饋結果,并不能反應指令和路徑是否匹配。由此,Wang等[30]提出強化跨模態(tài)匹配(RCM)的方法來解決上述問題。利用推理導航器在局部區(qū)域內進行跨模態(tài)對齊,再使用匹配評判器促進路徑和指令之間的全局匹配,進一步強化模態(tài)融合效果和提高導航成功的標準。Ma等[31]提出自我監(jiān)控智能體模型(SMNA)。他們根據(jù)模態(tài)匹配的關系,認為“下一個動作的執(zhí)行常常是由上一個動作完成與否決定的”,并相應提出了視覺和語言聯(lián)合對齊模型,來監(jiān)控導航進度。另外,由于指令中含有豐富的實體描述和方向信息,Qi等[32]提出物體和動作可知模型(OAAM),分別對視覺特征和方向特征使用注意力機制,最后再融合兩部分特征。該方法充分利用指令中實體和方向信息,來與視覺場景進行匹配,最后設置路徑損失來限制智能體僅沿著最短路徑移動。

在視覺語言導航的設定中,MatterPort3D模擬器是將場景劃分為離散的可導航位置點集。這一做法簡化導航過程為一個無向圖的探索過程,即每步移動都從鄰近的有限點集中選擇下一個目標節(jié)點。這在一定程度上減少了視覺信息對任務的影響。文獻[33]指出在視覺語言導航和問答任務中,不利用視覺信息的單模態(tài)模型的表現(xiàn)好于多模態(tài)模型,模態(tài)融合反而造成了性能衰減。針對以上問題,Hu等[34]提出在不同模態(tài)融合條件下,對比“說話者”和 “跟隨者”模型[13]和自我監(jiān)控智能體模型[31]的性能表現(xiàn),發(fā)現(xiàn)模型更容易利用幾何拓撲結構信息,而忽略了大量的視覺模態(tài)信息的現(xiàn)象。模型對于拓撲結構的依賴一定程度降低了指令和視覺信息的耦合度。為了解決這個問題,Yu等[19]提出改變最短路徑為隨機路徑的移動策略,旨在消除對于路徑結構的依賴,更多地專注語言和視覺之間的信息匹配。針對不同環(huán)境中的性能差異問題,Zhang等[35]設計新的環(huán)境劃分和特征替換的方案,研究環(huán)境偏差的影響。

除了改變路徑采樣的方式之外,另一個思路是回到低級動作空間。Anderson等[36]嘗試轉移模擬環(huán)境訓練的智能體到現(xiàn)實場景中,并提出一個子目標模型來識別臨近可達的節(jié)點。他們使用即時定位與地圖構建和路徑規(guī)劃的方法,建立智能體學習的高級動作和智能體的低級動作的變換聯(lián)系,將模型性能損失控制在可接受的范圍內。但高級動作空間方面的遷移工作,還是受Matterport3D模擬器不能支持低級動作的影響,需要通過特定算法轉換為低級動作,因此很多模型不便于直接由模擬環(huán)境轉移現(xiàn)實場景中。

2.3.2 基于低級動作空間的視覺語言導航

相對于高級動作空間中選擇鄰近節(jié)點的移動方式,低級動作空間只包括六種基礎動作: 向上、向下、左轉30度、右轉30度、前進和停止。在這種動作空間下,模型在對于環(huán)境拓撲結構未知的情況下,直接預測智能體的動作。如圖5所示,在視覺語言導航任務中,基于編碼?解碼的方法首先通過長短期記憶網(wǎng)絡(LSTM)[37]編碼器將指令編碼和真實圖像,映射到一個上下文的動作序列,再通過LSTM解碼器融合編碼后的語言特征和視覺特征預測每一步的動作。解碼過程中額外加入了注意力機制,這一機制選擇性關注視覺感知和當前指令中相關聯(lián)的內容,幫助智能體結合環(huán)境選擇相應的基礎動作。通過建立緊密的模態(tài)間的信息聯(lián)系,模型生成一系列的低級動作命令來指導完成導航任務。

圖 5 視覺語言導航中的 seq2seq 模型

高級動作空間中存在過度依賴已知的路徑拓撲結構的問題,不利于未來部署在現(xiàn)實場景中。因此,不少研究人員開始關注更具有現(xiàn)實意義的模型,Landi等[38]提出使用動態(tài)卷積濾波器的方法,模型基于當前指令信息動態(tài)地從視覺信息中提取相關信息,并輸出低級動作空間下的動作概率。在此基礎上,Landi等[29]進一步提出類似Transformer[39]結構的感知轉化移動模型(PTA),通過多次利用注意力機制的形式來融合模態(tài)間信息。實驗證實了該模型同時兼容高級動作空間和低級動作空間。由于MatterPort3D平臺環(huán)境本身的約束,新型的模擬環(huán)境平臺相繼被提出。首先是FacebookAI實驗室在2019年提出的Habitat平臺[40]和Shen等[41]在2020年提出的iGibson 平臺。這些支持連續(xù)環(huán)境模擬器的推出,大大推動了基于低級動作空間方面的研究。文獻[42]提出基于Habitat平臺的連續(xù)環(huán)境下的視覺語言導航任務。不同于以往的高級動作空間方法,存在傳送移動、依賴幾何結構和精準定位的問題,Krantz等[42]通過構建一個跨模態(tài)注意力機制的連續(xù)環(huán)境的視覺語言導航模型,驗證了數(shù)據(jù)增強、數(shù)據(jù)聚合和進度控制對模型的積極作用。同時對比高級動作空間的視覺語言導航模型,他們發(fā)現(xiàn)先前的視覺語言導航模型中存在過多理想化的條件,在真實環(huán)境中的可行性有待驗證。Chen等[43]在基于連續(xù)環(huán)境的視覺語言導航模型的基礎上,將其分解為兩個階段: 計劃和控制,在探索過程中,拓撲地圖被建立用于導航規(guī)劃。然后局部控制器接受導航規(guī)劃并生成低級動作來完成導航任務。

無論在高級動作空間和低級動作空間中,現(xiàn)有的方法并未詳細解釋模型在模態(tài)融合后性能提升的原因。文獻[33]對以往的模態(tài)融合方式提出了質疑,并建議以后的模型增加模態(tài)消融實驗以佐證效果。為了更好地融合模態(tài)間的信息,Zhu等[44]提出輔助推理導航模型(AuxRN)。該模型通過四個輔助任務: 動作解釋、估計進度、預測方向和軌跡一致性評價,來提高模型的推理和環(huán)境感知的能力。由于指令間信息差異和指令中語義模糊的問題,Xia等[45]編碼相同軌跡的所有指令,其中每條指令互作補充,去提高模型的文本理解能力。在視覺語言導航中,模態(tài)間的聯(lián)系并不是簡單地合并指令和視覺信息,而是需要建立互為補充的關系,進一步提升模型的性能,并通過合理的實驗證明在不同的動作空間下模態(tài)融合方式的有效性。

2.4 基于訓練方法的視覺語言導航模型

視覺語言導航任務中常用的兩種模型學習方式: 監(jiān)督學習和強化學習。監(jiān)督學習是通過R2R數(shù)據(jù)集中的最短路徑標注數(shù)據(jù),學習得到一個優(yōu)化的模型,進而預測不可見環(huán)境中的路徑序列。而強化學習是把視覺語言導航任務看作一個馬爾可夫決策過程。智能體在導航過程中觀察周圍環(huán)境并進行分析和反饋,并通過特定的獎勵函數(shù),嘗試將學習到的經(jīng)驗知識應用到導航任務中,不斷地進行試驗,以達到完成視覺語言導航任務的目的。盡管這些方法的有效性得到很好的驗證,但是各自的局限性也被揭露出來。研究人員在訓練方法的選擇上進行了更為深入的研究,當前預訓練模型通過大規(guī)模數(shù)據(jù)訓練,對視覺語言導航的性能提升十分明顯。下面將對傳統(tǒng)訓練模型和預訓練模型展開介紹。

2.4.1 基于傳統(tǒng)訓練的視覺語言導航模型

由于R2R數(shù)據(jù)集提供了參考路徑,通過匹配預測動作分布和最佳路線,最初的視覺語言導航方法大多采用的是監(jiān)督學習方式。文獻[1]使用基于注意力機制的LSTM的序列到序列模型(seq2seq)[46],并結合“學生自學”[47]的訓練方法,對于先前的分布采用動作輸出序列預測下一步動作,這是初期流行的一種基礎方法。該方法使用交叉熵損失函數(shù),學習標注數(shù)據(jù)的特征信息,泛化到未知環(huán)境中。但是由于人工標注的數(shù)據(jù)成本過于昂貴,最優(yōu)路徑并不容易獲取。在后續(xù)的研究中,為了進一步提升在不可見環(huán)境下的泛化能力,Wang等[48]提出使用強化規(guī)劃(RPA)的方法,將模型無關和基于模型兩種強化學習聯(lián)合在一起。其中展望模型結合了環(huán)境模型和策略模型,在R2R數(shù)據(jù)集上取得了不錯的效果。最近的研究提出了很多新穎的學習方法,諸如Wang等[30]提出一種自監(jiān)督模仿學習的方法。通過訓練,智能體可以根據(jù)過往的決策,學習產生多條可能的軌跡。模型利用最佳匹配的軌跡輔助訓練,并優(yōu)化軌跡的生成。文獻[17]改進以往的方法,提出將模仿學習和強化學習的損失結合作為一個損失函數(shù),并用半監(jiān)督學習的方式進行反向翻譯和環(huán)境消除(Envdrop),分別為了訓練額外的數(shù)據(jù)和生成未知環(huán)境。這種方法對模型的泛化能力進一步提升,如圖6所示,模仿學習和強化學習結合的方法通過結合兩種學習策略的優(yōu)勢,能夠有效地提升模型的性能。Wang等[49]對于模仿學習的錯誤累積和強化學習中的獎勵設計成本問題,嘗試使用蒸餾的方法減少過擬合,提出軟專家獎勵學習模型(SERL)。具體地,通過設置軟專家蒸餾模塊讓模仿過程減少錯誤,同時利用自我感知模塊讓智能體一直向目的位置移動。研究人員在學習方法上的研究仍在繼續(xù),不斷地優(yōu)化方法策略。

圖6融合強化學習和模仿學習的過程

在視覺語言導航中,“學生自學”和“老師指導”[50]訓練策略的選擇,是影響生成路徑序列的一大因素。在視覺語言導航的設定中,因為導航路徑長,并且采用離散動作的問題,所以早期的動作抽樣工作是基于“學生自學”的方式。但由于全景動作空間的提出,路徑長度被縮短了一大半,“老師指導”的方式開始流行起來。但是兩者都存在曝光偏差[51]的問題。一旦出現(xiàn)誤差,則會導致大量累計誤差,從而偏離正確路線。針對“學生自學”引入偏差的問題,文獻[9]提出了基于“學生自學”的模仿學習,保證軌跡和指令的一致性。為了充分發(fā)揮兩者的優(yōu)勢,Li等[52]從課程抽樣方式中得到靈感,提出隨機動作采樣的方式。具體地,基于伯努利分布的抽樣策略通過隨機選擇每一步的動作抽樣方式,借此來保證利用“學生自學”和“老師指導”的優(yōu)勢,進而得到一種相對偏差較小的動作抽樣方法。

目前,很多工作通過結合模仿學習和強化學習的方式,取得了較大性能提升。模仿學習學習老師的動作,而強化學習通過從獎勵中采樣動作,使智能體可以探索環(huán)境和提升泛化能力。如何更好地選擇和利用訓練策略,是提高導航模型泛化能力的一個關鍵因素。

2.4.2 基于大規(guī)模預訓練的視覺語言導航模型

近年來,研究人員在如何提升智能體對不可見環(huán)境的泛化能力方面進行了不少嘗試,包括預探索、數(shù)據(jù)增強和分析模態(tài)融合關系等方式。當前使用預訓練模型提取特征的方式已經(jīng)應用到各種任務中,其可以有效地提升下游任務的性能。受此啟發(fā),研究人員提出了在視覺語言導航中使用預訓練模型,以解決泛化能力不足的問題。首先,文獻[52]提出了使用BERT[53]等大規(guī)模預訓練語言模型,來豐富指令表達。Hao等[54]提出使用一種通用的預訓練視覺語言導航智能體(PREVALENT),并利用圖像?語言?動作信息來進行預訓練。實驗證明預訓練模型對提升模型的泛化能力很有幫助。后來Huang等[55]在PREVALENT的基礎上,使用參數(shù)共享的方法來減低預訓練模型的參數(shù)量。文獻[56]中指出模型可以學習更多的語言知識,來提高推理的效率。此外,Hong等[57]提出RecBERT。這是一個多模態(tài)BERT模型,搭配時間感知遞歸函數(shù),為智能體提供更豐富的信息。針對RecBERT會存在歷史信息丟失的問題,Chen等[58]提出HAMT,將完整的歷史信息編碼保存,并設計了層次化的歷史編碼方法,降低計算復雜度。實驗結果顯示使用預訓練的語言模型分別在可見環(huán)境和不可見環(huán)境中的導航成功率高達76%和66%,不可見環(huán)境中的基于路徑加權的成功率為60%。進一步地證明預訓練模型可以提高模型的泛化能力。

相較于傳統(tǒng)訓練方法,預訓練模型引入了額外的知識表達,對視覺語言導航模型的提升十分顯著。正因為高效的性能和強大的模態(tài)融合能力,如今預訓練模型已經(jīng)成為視覺語言導航模型的重要研究方向。

03視覺語言導航方法的實驗分析

第2節(jié)和第3節(jié)主要介紹了視覺語言導航的數(shù)據(jù)集和當前主要的模型方法,本節(jié)將對視覺語言導航的評價指標進行全面介紹,并結合R2R數(shù)據(jù)集、R4R數(shù)據(jù)集和RxR數(shù)據(jù)集對比分析視覺語言導航模型。

3.1 視覺語言導航的評價指標

對于不同模型的評判,評價指標發(fā)揮著重要的作用,是衡量模型性能的關鍵性指標。隨著視覺語言導航任務的發(fā)展,新的模型評價指標相繼被提出。表2給出了視覺語言導航任務的評價指標,包括其定義和計算公式。這為第3.2節(jié)視覺語言導航模型性能比較提供幫助。視覺語言導航的評價指標不僅關注導航成功率(SR)和路徑長度(PL),而且需要對導航過程中路徑軌跡和指令之間的一致性程度進行相應的度量評估。接下來將主要介紹目前的核心評價指標,其中基于路徑加權的成功率(SPL)的主要思想是將成功率和路徑長度融合處理,來衡量導航的好壞。早期視覺語言導航模型的目標是盡可能地提高基于路徑加權的成功率,來評估模型的性能。但它僅關注是否成功到達目標位置,而忽略了預測路徑和參考路徑的一致性問題。后續(xù)工作中提出的長度加權的覆蓋分數(shù)(CLS)[8]和基于動態(tài)時間規(guī)整加權成功率(SDTW)[59]兩個評價指標,主要是度量軌跡和指令一致性程度。長度加權的覆蓋分數(shù)中包括兩部分路徑覆蓋率(PC)和路徑長度分數(shù)(LS)。路徑覆蓋率表示與參考路徑的一致程度,其計算公式如下:

式中,R代表查詢路徑,P代表參考路徑,r是查詢路徑的位置坐標向量,是閾值距離。即為所計算的路徑覆蓋率。而路徑長度分數(shù)則是評價預測路徑和參考路徑的一致性程度,進而來約束預測路徑的長度,產生與參考路徑長度一致的預測路徑,計算公式為:

式中,EPL(P,R)表示導航路徑相對于參考路徑覆蓋范圍的期望值,PL(V)表示路徑長度,PC(P,R)表示路徑覆蓋率。LS(P,R)即為所計算的路徑長度得分。SDTW是對預測路徑和參考路徑在時空相似性上的約束,由導航成功率和路徑一致性合并計算。

第3.2節(jié)將對比不同數(shù)據(jù)集下的視覺語言導航模型,通過以上主要的評價指標進行對比分析。

表 2 視覺語言導航任務中的評價指標

3.2 視覺語言導航模型的分析對比

表3和表4分別展示了不同模型在R2R數(shù)據(jù)集和R4R數(shù)據(jù)集上,基于相應主要評價指標的實驗結果。而表5以不同模型的主要創(chuàng)新點來劃分模型方法,包括數(shù)據(jù)增強、導航策略、動作空間和訓練方法4個方向。表5中“√”表示屬于對應分類的改進方向,而—表示不屬于對應分類的改進方向。

表 3 在 R2R 測試數(shù)據(jù)集上的視覺語言導航方法對比

表 4 在 R4R 測試數(shù)據(jù)集上的視覺語言導航方法對比

表 5 視覺語言導航中的不同方法改進的對比

由表3和表5可知,隨著引入數(shù)據(jù)增強和改進導航策略之后,在R2R數(shù)據(jù)集上,視覺語言導航模型的SR和SPL,都較以往得到了不少的提升。文獻[13]提出的全景動作空間形式和數(shù)據(jù)增強方法,為視覺語言導航模型的快速發(fā)展,提供了有力的支持。同時文獻[17]在此基礎上提出的融合強化學習和模仿學習的訓練方法,為后續(xù)的研究提供了參考模型。該方法的廣泛應用對視覺語言導航任務的發(fā)展有重要的意義。此外,最新研究發(fā)現(xiàn)預訓練模型BERT和Transformer模型使智能體學習到更多有效的知識,可以進一步提升導航性能。但值得一提的是,預訓練模型的訓練時間和計算成本花銷巨大。如何盡可能地降低計算成本,設計一個輕量級的模型是亟待解決的問題。

不同于R2R數(shù)據(jù)集的主要評價指標,R4R數(shù)據(jù)集包括更長的軌跡,更注重指令和軌跡的一致性程度。因此,R4R數(shù)據(jù)集將CLS和SDTW作為主要評價指標。由表4和表5可知,在導航成功率的評價指標上,R4R數(shù)據(jù)集是明顯低于R2R數(shù)據(jù)集。這是因為長指令的影響,導航的性能降低。由表4可知,在CLS和SDTW上,模型的表現(xiàn)并不盡如人意。其主要原因是模型過于注重是否到達目標位置,忽略了指令和軌跡一致性的比較。盡管模型在基于路徑加權的成功率上有不錯的表現(xiàn),但這不能保證導航軌跡與指令內容一致。因此,研究人員開始轉向子指令和子軌跡的研究,通過分段剪切長指令,對導航過程中的一致性問題展開一系列的研究。我們可以發(fā)現(xiàn)注重指令和軌跡一致性的模型,在主要評價指標上都有一定的性能提升。因此,如何更好地利用指令信息和視覺信息,是視覺語言導航中的關鍵問題。

由表5中的對比可以看出,早先的方法主要研究監(jiān)督學習和強化學習的選擇,但整體表現(xiàn)并不好。隨著數(shù)據(jù)增強以及模仿學習和強化學習的結合等方法的提出,這使模型的性能得到了較大的提升。但其利用波束搜索會導致路徑長度過長,模型從而丟失現(xiàn)實的應用意義。導航策略的改進極大地推動了視覺語言導航的應用發(fā)展。隨著研究的深入,研究人員將眼光投入到更貼切現(xiàn)實的低級動作空間,開拓新的研究方向。此外,隨著大規(guī)模預訓練模型的興起,研究人員嘗試將預訓練模型引入到視覺語言導航任務中,并取得不錯的效果,使導航性能得到大幅提升。

由表3 ~ 5可知,隨著各種各樣的方法被提出,視覺語言導航領域的發(fā)展更加多元化。不僅僅是模型在各項評價指標上有較大的提升,更重要的是在細分研究方向上也得到了更多研究和關注。

04未來展望

視覺語言導航是近年來在多模態(tài)領域中新興的研究方向,一經(jīng)提出就受到大批研究人員的關注。隨著研究的不斷深入,視覺語言導航在導航成功率和泛化能力上,都得到了巨大的提升。研究人員通過數(shù)據(jù)增強手段,生成新的訓練數(shù)據(jù)。雖然這種方法對模型性能的提升很有幫助,但并未解決泛化能力不足的問題。因此,后續(xù)的研究開始著力于減少過擬合現(xiàn)象,引入預訓練模型。與此同時,研究人員不斷優(yōu)化學習方式,進一步地提出視覺文本對齊和回溯機制等輔助手段,這些方法顯著提升模型的泛化能力,并取得較為理想的性能。

但是,目前仍有一些問題亟待解決:

1)當前提出的一些方法,受到了仿真環(huán)境平臺和數(shù)據(jù)集的限制。從低級動作空間到高級動作空間的轉換,采用波束搜索的方式,簡化了導航過程。盡管各方面的性能表現(xiàn)均令人信服,但脫離現(xiàn)實,模型難以遷移部署到現(xiàn)實環(huán)境中。如何貼近真實場景、賦予模型更多現(xiàn)實的應用意義,這需要視覺語言導航研究的重心重新轉移到低級動作空間上。盡管已有基于連續(xù)環(huán)境的視覺語言導航模型,但是其導航效果并不理想。因此視覺語言導航需要結合傳統(tǒng)機器人技術,進一步優(yōu)化目前在模擬環(huán)境中訓練的模式。

2)有實驗表明視覺語言導航的模態(tài)融合方法會對模型性能產生負面作用。究其根本是模態(tài)信息之間關系模糊,并未形成良好的互補,模型不能有效地利用多模態(tài)信息。目前,大規(guī)模預訓練模型可以更好地利用多模態(tài)信息,獲得不錯的性能表現(xiàn)。但是由于計算能力不足和時間開銷過大,這為視覺語言導航的發(fā)展帶來新的問題。因此對多模態(tài)信息學習的研究,仍有很大的發(fā)展空間。3)在視覺語言導航任務中,數(shù)據(jù)稀缺的問題尤為明顯,這是限制性能的一大阻礙。盡管研究人員提出了利用機器生成合成指令的方法,但這些合成指令大部分是有缺陷的,且不符合人們的語言習慣。同時不少研究人員重新搜集數(shù)據(jù),從規(guī)模和指令長度等方面進行拓展,獲得更接近現(xiàn)實場景的指令集。由此可見,數(shù)據(jù)方面的研究工作一直都是視覺語言導航中的重要內容。

在現(xiàn)實場景中的導航過程是動態(tài)連續(xù)的,而非簡單的無向圖探索過程,目前不少研究人員重新投入到連續(xù)空間的視覺語言導航研究,即在低級動作空間下,智能體經(jīng)過一系列的基礎動作,完成視覺語言導航任務。當前Habitat平臺和iGibson平臺都支持連續(xù)的導航。智能體可以通過低級動作完成導航,這就為以后應用到現(xiàn)實場景提供了更多的可能性。此外,由于多模態(tài)任務的輸入復雜多變,機器和人類的理解能力差異較大,所以BERT等預訓練模型的引入,為智能體提供豐富的額外知識,有助于理解模態(tài)信息和模態(tài)間的融合。總體總之,視覺語言導航任務無論是在現(xiàn)實中的應用,以及數(shù)據(jù)獲取方面的研究,未來還有很長的路要走。

05結束語

視覺語言導航是一種多模態(tài)理解任務,在未來智能家具、娛樂、養(yǎng)老等國計民生領域有較大應用需求。本文詳細介紹了視覺語言導航任務近年來的發(fā)展,首先對于各種主流模型進行了簡要介紹,然后對提升模型泛化能力的方法進行了綜述,分別包括模態(tài)間的分析、指令集等拓展方式以及搜索策略、訓練方式和預訓練模型等輔助策略。盡管視覺語言導航任務近年來取得了快速的發(fā)展,但是隨著研究的深入,也凸顯出各種約束和限制,這需要更多研究人員投入后續(xù)的工作研究。研究人員不僅要追求性能上的突破,而且要賦予模型更多的應用價值。希望通過本文可以讓更多人了解視覺語言導航任務,吸引更多人投入其中,促進其發(fā)展。

—— 精彩推薦 ——

下載 | CCF推薦國際學術刊物&國際學術會議-人工智能語義視覺SLAM綜述:現(xiàn)狀回顧、問題分析、未來趨勢精華文稿|在非理想輸入下NeRF的重建ECCV2022 | PCLossNet:不進行匹配的點云重建網(wǎng)絡LPCG:用激光點云指導單目的3D物體檢測

標簽: 視覺語言 研究人員 評價指標

上一篇:天天觀速訊丨掃雷游戲程序
下一篇:環(huán)球焦點!Jenkins實現(xiàn)代碼的部署&回滾