Automatic Reference Resolution for Pedestrian Wayfinding Systems

Imagine that you are in the new city and want to explore it. Trying to navigate with maps leads to the unnecessary confusion about street names and prevents you from a enjoying a wonderful walk. The dialogue system that could navigate you from by means of a simple conversation using salient landmark...

Full description

Bibliographic Details
Main Author: Kalpakchi, Dmytro
Format: Others
Language:English
Published: KTH, Skolan för elektroteknik och datavetenskap (EECS) 2018
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-232014
id ndltd-UPSALLA1-oai-DiVA.org-kth-232014
record_format oai_dc
collection NDLTD
language English
format Others
sources NDLTD
topic Reference Resolution
Pedestrian Wayfinding Systems
Natural Language Processing
Computer Sciences
Datavetenskap (datalogi)
spellingShingle Reference Resolution
Pedestrian Wayfinding Systems
Natural Language Processing
Computer Sciences
Datavetenskap (datalogi)
Kalpakchi, Dmytro
Automatic Reference Resolution for Pedestrian Wayfinding Systems
description Imagine that you are in the new city and want to explore it. Trying to navigate with maps leads to the unnecessary confusion about street names and prevents you from a enjoying a wonderful walk. The dialogue system that could navigate you from by means of a simple conversation using salient landmarks in your immediate vicinity would be much more helpful! Developing such dialogue system is non-trivial and requires solving a lot of complicated tasks. One of such tasks, tackled in the present thesis, is called reference resolution (RR), i.e. resolving utterances to the underlying geographical entities, referents (if any). The utterances that have referent(s) are called referring expressions (REs). The RR task is decomposed into two tasks: RE identification and resolution itself. Neural network models for both tasks have been designed and extensively evaluated. The model for RE identification, called RefNet, utilizes recurrent neural networks (RNNs) for handling sequential input, i.e. phrases. For each word in an utterance, RefNet outputs a label indicating whether this word is in the beginning of the RE, inside or outside it. The reference resolution model, called SpaceRefNet, uses the RefNet's RNN layer to encode REs and the designed feature extractor to represent geographical objects. Both encodings are fed to a simple feed-forward network with a softmax prediction layer, yielding the probability of match between the RE and the geographical object. Both introduced models have beaten the respective baselines and show promising results in general. === Tänk dig att du är i en ny stad och vill känna staden bättre. Du försöker att använda kartor, men blir förvirrad av gatunamn och kan inte njuta av din promenad. Ett dialogsystem, som kan hjälpa dig att navigera med hjälp av talade instruktioner, och som använder sig av framträdande landmärken i din närhet skulle vara mer användbart! Att utveckla ett sådant system är mycket komplicerat och man behöver att lösa ett antal mycket svåra uppgifter. En av dessa uppgifter kallas referenslösning (RR), vilket innebär att associera refererande fraser (RE) i yttranden till de geografiska objekt som avses. RR har brutits ner i två deluppgifter: identifiering av RE i yttranden, och referenslösning av dessa RE. Neurala-nätverksmodeller har utformats och utvärderats för båda uppgifterna. Modellen för identifiering av RE kallas RefNet och använder återkopplande neuronnät (RNN) för att behandla sekventiellindata, d.v.s. fraser. Varje ord i ett yttrande klassificeras av RefNet som en av tre följande kategorier: “i början av RE”, “i mitten av RE” samt “utanför RE”. Modellen för RR kallas SpaceRefNet och använder RefNets RNN-lager för att representera RE, samt en designad särdragsextraktor för att koda geografiska objekt. Båda kodningarna används som indata för ett enkelt framåtmatande neuronnät med ett avslutande softmax-lager. Det avslutande lagret producerar en sannolikhet att en viss RE motsvarar det geografiska objektet i fråga. Båda modellerna fungerade bättre än respektive baslinjemodeller, och visar lovande resultat i allmänhet. === Уявiть, що Ви опинилися у мiстi, яке нiколи не вiдвiдували. Ви хочете побачити все, що мiсто може Вам запропонувати, але не знаєте нiкого, хто може з цим допомогти. Назви вулиць на електронних картах не тiльки не допомагають, а ще й заплутують Вас, заважаючи отримувати насолоду вiд чудової прогулянки. Було б набагато зручнiше, якщо Ви могли б говорити з дiалоговою системою, як Ви говорите з друзями. Така система допомагала б Вам орiєнтуватися, використовуючи помiтнi орiєнтири у Вашому оточеннi. Розробка такої системи включає в себе багато нетривiальних задач, одна з яких називається задача розв’язання географiчних посилань (РГП). Словосполучення, вживанi з метою вказати на специфiчний географiчний об’єкт, є досить розповсюдженими у повсякденнiй мовi. Такi словосполучення називаються географiчними посиланнями (ГП), а географiчнi об’єкти, на якi вони посилаються - референтами. Задача розв’язання географiчних посилань полягає у спiвставленнi їх з вiдповiдними референтами.У рамках даної дипломної роботи задача РГП була декомпозована на двi частини: iдентифiкацiя географiчних посилань (IГП) та власне розв’язання (ВРГП). Для вирiшення обох задач було розроблено, протестовано та оцiнено вiдповiднi нейроннi мережi. Модель для розв’язання задачi IГП називається RefNet та використовує рекурентнi нейроннi мережi, щоб мати змогу обробляти послiдовнi вхiднi данi, як-то фрази. RefNet аналiзує висловлене речення дослiвно та визначає для кожного слова чи воно знаходиться на початку, всерединi чи поза ГП. Модель для розв’язання задачi ВРГП називається SpaceRefNet та використовує рекурентний шар RefNet для представлення поданих на вхiд ГП. Географiчнi об’єкти представляються за допомогою розробленого алгоритму видiляння ознак. Обидва представлення подаються на вхiд простої нейронної мережi прямого поширення з кiнцевим шаром softmax, який обчислює ймовiрнiсть того, що подане ГП описує поданий географiчний об’єкт.Обидвi мережi показали гарний результат, кращий за вiдповiднi базовi моделi. Результати загалом показують, що використання нейронних мереж для вирiшення задачi розв’язання географiчних посилань – це перспективний напрям для майбутнiх дослiджень.
author Kalpakchi, Dmytro
author_facet Kalpakchi, Dmytro
author_sort Kalpakchi, Dmytro
title Automatic Reference Resolution for Pedestrian Wayfinding Systems
title_short Automatic Reference Resolution for Pedestrian Wayfinding Systems
title_full Automatic Reference Resolution for Pedestrian Wayfinding Systems
title_fullStr Automatic Reference Resolution for Pedestrian Wayfinding Systems
title_full_unstemmed Automatic Reference Resolution for Pedestrian Wayfinding Systems
title_sort automatic reference resolution for pedestrian wayfinding systems
publisher KTH, Skolan för elektroteknik och datavetenskap (EECS)
publishDate 2018
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-232014
work_keys_str_mv AT kalpakchidmytro automaticreferenceresolutionforpedestrianwayfindingsystems
AT kalpakchidmytro automatiskreferenslosninginavigationssystemforfotgangare
_version_ 1718727281192468480
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-2320142018-08-30T06:04:18ZAutomatic Reference Resolution for Pedestrian Wayfinding SystemsengAutomatisk referenslösning i navigationssystem förfotgängareKalpakchi, DmytroKTH, Skolan för elektroteknik och datavetenskap (EECS)2018Reference ResolutionPedestrian Wayfinding SystemsNatural Language ProcessingComputer SciencesDatavetenskap (datalogi)Imagine that you are in the new city and want to explore it. Trying to navigate with maps leads to the unnecessary confusion about street names and prevents you from a enjoying a wonderful walk. The dialogue system that could navigate you from by means of a simple conversation using salient landmarks in your immediate vicinity would be much more helpful! Developing such dialogue system is non-trivial and requires solving a lot of complicated tasks. One of such tasks, tackled in the present thesis, is called reference resolution (RR), i.e. resolving utterances to the underlying geographical entities, referents (if any). The utterances that have referent(s) are called referring expressions (REs). The RR task is decomposed into two tasks: RE identification and resolution itself. Neural network models for both tasks have been designed and extensively evaluated. The model for RE identification, called RefNet, utilizes recurrent neural networks (RNNs) for handling sequential input, i.e. phrases. For each word in an utterance, RefNet outputs a label indicating whether this word is in the beginning of the RE, inside or outside it. The reference resolution model, called SpaceRefNet, uses the RefNet's RNN layer to encode REs and the designed feature extractor to represent geographical objects. Both encodings are fed to a simple feed-forward network with a softmax prediction layer, yielding the probability of match between the RE and the geographical object. Both introduced models have beaten the respective baselines and show promising results in general. Tänk dig att du är i en ny stad och vill känna staden bättre. Du försöker att använda kartor, men blir förvirrad av gatunamn och kan inte njuta av din promenad. Ett dialogsystem, som kan hjälpa dig att navigera med hjälp av talade instruktioner, och som använder sig av framträdande landmärken i din närhet skulle vara mer användbart! Att utveckla ett sådant system är mycket komplicerat och man behöver att lösa ett antal mycket svåra uppgifter. En av dessa uppgifter kallas referenslösning (RR), vilket innebär att associera refererande fraser (RE) i yttranden till de geografiska objekt som avses. RR har brutits ner i två deluppgifter: identifiering av RE i yttranden, och referenslösning av dessa RE. Neurala-nätverksmodeller har utformats och utvärderats för båda uppgifterna. Modellen för identifiering av RE kallas RefNet och använder återkopplande neuronnät (RNN) för att behandla sekventiellindata, d.v.s. fraser. Varje ord i ett yttrande klassificeras av RefNet som en av tre följande kategorier: “i början av RE”, “i mitten av RE” samt “utanför RE”. Modellen för RR kallas SpaceRefNet och använder RefNets RNN-lager för att representera RE, samt en designad särdragsextraktor för att koda geografiska objekt. Båda kodningarna används som indata för ett enkelt framåtmatande neuronnät med ett avslutande softmax-lager. Det avslutande lagret producerar en sannolikhet att en viss RE motsvarar det geografiska objektet i fråga. Båda modellerna fungerade bättre än respektive baslinjemodeller, och visar lovande resultat i allmänhet. Уявiть, що Ви опинилися у мiстi, яке нiколи не вiдвiдували. Ви хочете побачити все, що мiсто може Вам запропонувати, але не знаєте нiкого, хто може з цим допомогти. Назви вулиць на електронних картах не тiльки не допомагають, а ще й заплутують Вас, заважаючи отримувати насолоду вiд чудової прогулянки. Було б набагато зручнiше, якщо Ви могли б говорити з дiалоговою системою, як Ви говорите з друзями. Така система допомагала б Вам орiєнтуватися, використовуючи помiтнi орiєнтири у Вашому оточеннi. Розробка такої системи включає в себе багато нетривiальних задач, одна з яких називається задача розв’язання географiчних посилань (РГП). Словосполучення, вживанi з метою вказати на специфiчний географiчний об’єкт, є досить розповсюдженими у повсякденнiй мовi. Такi словосполучення називаються географiчними посиланнями (ГП), а географiчнi об’єкти, на якi вони посилаються - референтами. Задача розв’язання географiчних посилань полягає у спiвставленнi їх з вiдповiдними референтами.У рамках даної дипломної роботи задача РГП була декомпозована на двi частини: iдентифiкацiя географiчних посилань (IГП) та власне розв’язання (ВРГП). Для вирiшення обох задач було розроблено, протестовано та оцiнено вiдповiднi нейроннi мережi. Модель для розв’язання задачi IГП називається RefNet та використовує рекурентнi нейроннi мережi, щоб мати змогу обробляти послiдовнi вхiднi данi, як-то фрази. RefNet аналiзує висловлене речення дослiвно та визначає для кожного слова чи воно знаходиться на початку, всерединi чи поза ГП. Модель для розв’язання задачi ВРГП називається SpaceRefNet та використовує рекурентний шар RefNet для представлення поданих на вхiд ГП. Географiчнi об’єкти представляються за допомогою розробленого алгоритму видiляння ознак. Обидва представлення подаються на вхiд простої нейронної мережi прямого поширення з кiнцевим шаром softmax, який обчислює ймовiрнiсть того, що подане ГП описує поданий географiчний об’єкт.Обидвi мережi показали гарний результат, кращий за вiдповiднi базовi моделi. Результати загалом показують, що використання нейронних мереж для вирiшення задачi розв’язання географiчних посилань – це перспективний напрям для майбутнiх дослiджень. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-232014TRITA-EECS-EX ; 2018:415application/pdfinfo:eu-repo/semantics/openAccess