圖像描述(Image Captioning)任務旨在給定一張輸入圖像,計算機自動生成一句或多句與該圖像相關的自然語句,同時須保證生成的語句能夠對圖像所展示的信息(如場景、物體、人物、關系、活動等)進行正確且流暢的描述。視頻描述(Video Captioning)任務則可以視為圖像描述任務在時間維度上的延伸,針對的輸入數(shù)據(jù)從二維平面的圖像數(shù)據(jù)拓展到了包含時間維度的視頻數(shù)據(jù),而任務的核心與圖像描述任務相同,都需要實現(xiàn)對輸入數(shù)據(jù)所包含的信息進行準確且流暢的描述。圖像/視頻描述都是典型的多模態(tài)任務,也是實現(xiàn)更為復雜圖像理解乃至視頻理解的一個十分重要且基礎的任務。圖1展示了圖像描述的一個例子。

圖1 圖像描述實例
早期的圖像/視頻描述算法主要包括基于檢索的方法或基于模板的方法,但是兩者都有很大的局限性。近年來,深度學習方法因其在計算機視覺和自然語言處理領域均取得了重大進展而占據(jù)了主導地位。當前,編碼器-解碼器(Encoder-Decoder)結構應用在圖像/視頻描述中應用非常多,其中編碼器用于提取待描述圖像或視頻的視覺語義特征,解碼器則用于將提取到的視覺語義特征逐詞解碼為自然語言描述序列,經(jīng)典的Show and tell模型的結構如圖2所示。

圖2 Show and tell模型結構
我們在基于LRMN的圖像描述模型(如圖3)、模擬視覺持久性現(xiàn)象的圖像描述模型(如圖4)、基于Transformer的圖像描述模型、基于圖像/視頻描述的盲人眼鏡等方面有重要的技術創(chuàng)新。

圖3 基于LRMN的圖像描述模型

圖4 模擬視覺持久性現(xiàn)象的圖像描述模型中的編碼器