Depth prediction by deep learning

Knowing the depth information is of critical importance in scene understanding for several industrial projects such as self-driving cars for instance. Where depth inference from a single still image has taken a prominent place in recent studies with the outcome of deep learning methods, practical ca...

Full description

Bibliographic Details
Main Author: Figué, Valentin
Format: Others
Language:English
Published: KTH, Skolan för elektroteknik och datavetenskap (EECS) 2018
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-240593
id ndltd-UPSALLA1-oai-DiVA.org-kth-240593
record_format oai_dc
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-2405932018-12-21T05:56:57ZDepth prediction by deep learningengDjupförutsägelse genom deep learningFigué, ValentinKTH, Skolan för elektroteknik och datavetenskap (EECS)2018Computer and Information SciencesData- och informationsvetenskapKnowing the depth information is of critical importance in scene understanding for several industrial projects such as self-driving cars for instance. Where depth inference from a single still image has taken a prominent place in recent studies with the outcome of deep learning methods, practical cases often offer useful additional information that should be considered early in the architecture of the design to benefit from them in order to improve quality and robustness of the estimates. Hence, this thesis proposes a deep fully convolutional network which allows to exploit the informations of either stereo or monocular temporal sequences, along with a novel training procedure which takes multi-scale optimization into account. Indeed, this thesis found that using multi-scale information all along the network is of prime importance for accurate depth estimation and greatly improves performances, allowing to obtain new state-of-theart results on both synthetic data using Virtual KITTI and also on realimages with the challenging KITTI dataset. Att känna till djupet i en bild är av avgörande betydelse för scenförståelse i flera industriella tillämpningar, exempelvis för självkörande bilar. Bestämning av djup utifrån enstaka bilder har fått en alltmer framträdande roll i studier på senare år, tack vare utvecklingen inom deep learning. I många praktiska fall tillhandahålls ytterligare information som är högst användbar, vilket man bör ta hänsyn till då man designar en arkitektur för att förbättra djupuppskattningarnas kvalitet och robusthet. I detta examensarbete presenteras därför ett så kallat djupt fullständigt faltningsnätverk, som tillåter att man utnyttjar information från tidssekvenser både monokulärt och i stereo samt nya sätt att optimalt träna nätverken i multipla skalor. I examensarbetet konstateras att information från multipla skalor är av synnerlig vikt för noggrann uppskattning av djup och för avsevärt förbättrad prestanda, vilket resulterat i nya state-of-the-art-resultat på syntetiska data från Virtual KITTI såväl som på riktiga bilder fråndet utmanande KITTI-datasetet. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-240593TRITA-EECS-EX ; 2018:698application/pdfinfo:eu-repo/semantics/openAccess
collection NDLTD
language English
format Others
sources NDLTD
topic Computer and Information Sciences
Data- och informationsvetenskap
spellingShingle Computer and Information Sciences
Data- och informationsvetenskap
Figué, Valentin
Depth prediction by deep learning
description Knowing the depth information is of critical importance in scene understanding for several industrial projects such as self-driving cars for instance. Where depth inference from a single still image has taken a prominent place in recent studies with the outcome of deep learning methods, practical cases often offer useful additional information that should be considered early in the architecture of the design to benefit from them in order to improve quality and robustness of the estimates. Hence, this thesis proposes a deep fully convolutional network which allows to exploit the informations of either stereo or monocular temporal sequences, along with a novel training procedure which takes multi-scale optimization into account. Indeed, this thesis found that using multi-scale information all along the network is of prime importance for accurate depth estimation and greatly improves performances, allowing to obtain new state-of-theart results on both synthetic data using Virtual KITTI and also on realimages with the challenging KITTI dataset. === Att känna till djupet i en bild är av avgörande betydelse för scenförståelse i flera industriella tillämpningar, exempelvis för självkörande bilar. Bestämning av djup utifrån enstaka bilder har fått en alltmer framträdande roll i studier på senare år, tack vare utvecklingen inom deep learning. I många praktiska fall tillhandahålls ytterligare information som är högst användbar, vilket man bör ta hänsyn till då man designar en arkitektur för att förbättra djupuppskattningarnas kvalitet och robusthet. I detta examensarbete presenteras därför ett så kallat djupt fullständigt faltningsnätverk, som tillåter att man utnyttjar information från tidssekvenser både monokulärt och i stereo samt nya sätt att optimalt träna nätverken i multipla skalor. I examensarbetet konstateras att information från multipla skalor är av synnerlig vikt för noggrann uppskattning av djup och för avsevärt förbättrad prestanda, vilket resulterat i nya state-of-the-art-resultat på syntetiska data från Virtual KITTI såväl som på riktiga bilder fråndet utmanande KITTI-datasetet.
author Figué, Valentin
author_facet Figué, Valentin
author_sort Figué, Valentin
title Depth prediction by deep learning
title_short Depth prediction by deep learning
title_full Depth prediction by deep learning
title_fullStr Depth prediction by deep learning
title_full_unstemmed Depth prediction by deep learning
title_sort depth prediction by deep learning
publisher KTH, Skolan för elektroteknik och datavetenskap (EECS)
publishDate 2018
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-240593
work_keys_str_mv AT figuevalentin depthpredictionbydeeplearning
AT figuevalentin djupforutsagelsegenomdeeplearning
_version_ 1718804877073711104