Real-time conversion of monodepth visual odometry enhanced network

This thesis work belongs to the field of self-supervised monocular depth estimation and constitutes a conversion of the work done in [1]. The purpose is to consider the computationally expensive model in [1] as the baseline model of this work and try to create a lightweight model out of it. The curr...

Full description

Bibliographic Details
Main Author:	Myriokefalitakis, Panteleimon
Format:	Others
Language:	English
Published:	KTH, Skolan för elektroteknik och datavetenskap (EECS) 2020
Subjects:	Computer and Information Sciences Data- och informationsvetenskap
Online Access:	http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-288488

id	ndltd-UPSALLA1-oai-DiVA.org-kth-288488
record_format	oai_dc
spelling	ndltd-UPSALLA1-oai-DiVA.org-kth-2884882021-01-09T05:28:19ZReal-time conversion of monodepth visual odometry enhanced networkengRealtidskonvertering av monodepth visuellt odometri förbättrat nätverk.Myriokefalitakis, PanteleimonKTH, Skolan för elektroteknik och datavetenskap (EECS)2020Computer and Information SciencesData- och informationsvetenskapThis thesis work belongs to the field of self-supervised monocular depth estimation and constitutes a conversion of the work done in [1]. The purpose is to consider the computationally expensive model in [1] as the baseline model of this work and try to create a lightweight model out of it. The current work proposes a network suited to be deployed on embedded devices such as NVIDIA Jetson TX2 where the needs for short runtime, small memory footprint, and power consumption matters the most. In other words, if those requirements are missing, no matter if precision is extraordinarily high, the model cannot be functional on embedded processors. Thus, mobile platforms with small size such as drones, delivery robots, etc. cannot exploit the benefits of deep learning. The proposed network has _29.7 less parameters than the baseline model [1] and uses only 10.6 MB for a forward pass in contrast to 227MB used by the network in [1]. Consequently, the proposed model can be functional on embedded devices’ GPU. Lastly, it is able to infer depth with promising speed even on standard CPUs and at the same time provides comparable or higher accuracy than other works. Detta examensarbete tillhör området för självkontrollerad monokulär djupbedömning och utgör en omvandling av det arbete som gjorts under [1]. Syftet är att överväga den beräkningsmässiga dyra modellen i [1] som basmodellen för detta arbete och försöka skapa en lätt modell ur den. Det nuvarande arbetet förutsätter ett nätverk som är lämpligt att distribueras på inbäddade enheter som NVIDIA Jetson TX2 där behoven för kort driftstid, liten minnesfotavtryck och kraftförbrukning är viktigast. Med andra ord, om dessa krav saknas, oavsett om precisionen är extra hög, kan modellen inte fungera på inbäddade processorer. Således kan mobilplattformar med små storlekar som drönare, leveransrobotar, etc. inte utnyttja fördelarna med djupbildning. Det föreslagna nätverket har _29,7 mindre parametrar än baselinemodellen [1] och använder endast 10,6MB för ett framåtpass i motsats till 227MB som används av nätverket i [1]. Följaktligen kan den föreslagna modellen fungera på inbäddade enheters GPU. Slutligen kan den dra slutsatsen med lovande hastighet på standard CPUs och samtidigt ger jämförbar eller högre noggrannhet än andra arbete. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-288488TRITA-EECS-EX ; 2020:843application/pdfinfo:eu-repo/semantics/openAccess
collection	NDLTD
language	English
format	Others
sources	NDLTD
topic	Computer and Information Sciences Data- och informationsvetenskap
spellingShingle	Computer and Information Sciences Data- och informationsvetenskap Myriokefalitakis, Panteleimon Real-time conversion of monodepth visual odometry enhanced network
description	This thesis work belongs to the field of self-supervised monocular depth estimation and constitutes a conversion of the work done in [1]. The purpose is to consider the computationally expensive model in [1] as the baseline model of this work and try to create a lightweight model out of it. The current work proposes a network suited to be deployed on embedded devices such as NVIDIA Jetson TX2 where the needs for short runtime, small memory footprint, and power consumption matters the most. In other words, if those requirements are missing, no matter if precision is extraordinarily high, the model cannot be functional on embedded processors. Thus, mobile platforms with small size such as drones, delivery robots, etc. cannot exploit the benefits of deep learning. The proposed network has _29.7 less parameters than the baseline model [1] and uses only 10.6 MB for a forward pass in contrast to 227MB used by the network in [1]. Consequently, the proposed model can be functional on embedded devices’ GPU. Lastly, it is able to infer depth with promising speed even on standard CPUs and at the same time provides comparable or higher accuracy than other works. === Detta examensarbete tillhör området för självkontrollerad monokulär djupbedömning och utgör en omvandling av det arbete som gjorts under [1]. Syftet är att överväga den beräkningsmässiga dyra modellen i [1] som basmodellen för detta arbete och försöka skapa en lätt modell ur den. Det nuvarande arbetet förutsätter ett nätverk som är lämpligt att distribueras på inbäddade enheter som NVIDIA Jetson TX2 där behoven för kort driftstid, liten minnesfotavtryck och kraftförbrukning är viktigast. Med andra ord, om dessa krav saknas, oavsett om precisionen är extra hög, kan modellen inte fungera på inbäddade processorer. Således kan mobilplattformar med små storlekar som drönare, leveransrobotar, etc. inte utnyttja fördelarna med djupbildning. Det föreslagna nätverket har _29,7 mindre parametrar än baselinemodellen [1] och använder endast 10,6MB för ett framåtpass i motsats till 227MB som används av nätverket i [1]. Följaktligen kan den föreslagna modellen fungera på inbäddade enheters GPU. Slutligen kan den dra slutsatsen med lovande hastighet på standard CPUs och samtidigt ger jämförbar eller högre noggrannhet än andra arbete.
author	Myriokefalitakis, Panteleimon
author_facet	Myriokefalitakis, Panteleimon
author_sort	Myriokefalitakis, Panteleimon
title	Real-time conversion of monodepth visual odometry enhanced network
title_short	Real-time conversion of monodepth visual odometry enhanced network
title_full	Real-time conversion of monodepth visual odometry enhanced network
title_fullStr	Real-time conversion of monodepth visual odometry enhanced network
title_full_unstemmed	Real-time conversion of monodepth visual odometry enhanced network
title_sort	real-time conversion of monodepth visual odometry enhanced network
publisher	KTH, Skolan för elektroteknik och datavetenskap (EECS)
publishDate	2020
url	http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-288488
work_keys_str_mv	AT myriokefalitakispanteleimon realtimeconversionofmonodepthvisualodometryenhancednetwork AT myriokefalitakispanteleimon realtidskonverteringavmonodepthvisuelltodometriforbattratnatverk
_version_	1719372300310020096

Real-time conversion of monodepth visual odometry enhanced network

Similar Items