Joint Multimodal Embedding and Backtracking Search in Vision-and-Language Navigation

Due to the development of computer vision and natural language processing technologies in recent years, there has been a growing interest in multimodal intelligent tasks that require the ability to concurrently understand various forms of input data such as images and text. Vision-and-language navig...

Full description

Bibliographic Details
Main Authors:	Jisu Hwang, Incheol Kim
Format:	Article
Language:	English
Published:	MDPI AG 2021-02-01
Series:	Sensors
Subjects:	multimodal embedding natural language instruction panoramic image vision-and-language navigation task deep neural network pretrained model
Online Access:	https://www.mdpi.com/1424-8220/21/3/1012

Internet

https://www.mdpi.com/1424-8220/21/3/1012

Joint Multimodal Embedding and Backtracking Search in Vision-and-Language Navigation

Internet

Similar Items