Enhancing Cross-Modal Retrieval Based on Modality-Specific and Embedding Spaces

A new approach that drastically improves cross-modal retrieval performance in vision and language (hereinafter referred to as “vision and language retrieval”) is proposed in this paper. Vision and language retrieval takes data of one modality as a query to retrieve relevant dat...

Full description

Bibliographic Details
Main Authors:	Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama
Format:	Article
Language:	English
Published:	IEEE 2020-01-01
Series:	IEEE Access
Subjects:	Multimedia information retrieval cross-modal retrieval vision and language text-to-image model image-to-text model
Online Access:	https://ieeexplore.ieee.org/document/9097176/

Internet

https://ieeexplore.ieee.org/document/9097176/

Enhancing Cross-Modal Retrieval Based on Modality-Specific and Embedding Spaces

Internet

Similar Items