Depth prediction by deep learning
Knowing the depth information is of critical importance in scene understanding for several industrial projects such as self-driving cars for instance. Where depth inference from a single still image has taken a prominent place in recent studies with the outcome of deep learning methods, practical ca...
Main Author: | |
---|---|
Format: | Others |
Language: | English |
Published: |
KTH, Skolan för elektroteknik och datavetenskap (EECS)
2018
|
Subjects: | |
Online Access: | http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-240593 |
id |
ndltd-UPSALLA1-oai-DiVA.org-kth-240593 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-UPSALLA1-oai-DiVA.org-kth-2405932018-12-21T05:56:57ZDepth prediction by deep learningengDjupförutsägelse genom deep learningFigué, ValentinKTH, Skolan för elektroteknik och datavetenskap (EECS)2018Computer and Information SciencesData- och informationsvetenskapKnowing the depth information is of critical importance in scene understanding for several industrial projects such as self-driving cars for instance. Where depth inference from a single still image has taken a prominent place in recent studies with the outcome of deep learning methods, practical cases often offer useful additional information that should be considered early in the architecture of the design to benefit from them in order to improve quality and robustness of the estimates. Hence, this thesis proposes a deep fully convolutional network which allows to exploit the informations of either stereo or monocular temporal sequences, along with a novel training procedure which takes multi-scale optimization into account. Indeed, this thesis found that using multi-scale information all along the network is of prime importance for accurate depth estimation and greatly improves performances, allowing to obtain new state-of-theart results on both synthetic data using Virtual KITTI and also on realimages with the challenging KITTI dataset. Att känna till djupet i en bild är av avgörande betydelse för scenförståelse i flera industriella tillämpningar, exempelvis för självkörande bilar. Bestämning av djup utifrån enstaka bilder har fått en alltmer framträdande roll i studier på senare år, tack vare utvecklingen inom deep learning. I många praktiska fall tillhandahålls ytterligare information som är högst användbar, vilket man bör ta hänsyn till då man designar en arkitektur för att förbättra djupuppskattningarnas kvalitet och robusthet. I detta examensarbete presenteras därför ett så kallat djupt fullständigt faltningsnätverk, som tillåter att man utnyttjar information från tidssekvenser både monokulärt och i stereo samt nya sätt att optimalt träna nätverken i multipla skalor. I examensarbetet konstateras att information från multipla skalor är av synnerlig vikt för noggrann uppskattning av djup och för avsevärt förbättrad prestanda, vilket resulterat i nya state-of-the-art-resultat på syntetiska data från Virtual KITTI såväl som på riktiga bilder fråndet utmanande KITTI-datasetet. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-240593TRITA-EECS-EX ; 2018:698application/pdfinfo:eu-repo/semantics/openAccess |
collection |
NDLTD |
language |
English |
format |
Others
|
sources |
NDLTD |
topic |
Computer and Information Sciences Data- och informationsvetenskap |
spellingShingle |
Computer and Information Sciences Data- och informationsvetenskap Figué, Valentin Depth prediction by deep learning |
description |
Knowing the depth information is of critical importance in scene understanding for several industrial projects such as self-driving cars for instance. Where depth inference from a single still image has taken a prominent place in recent studies with the outcome of deep learning methods, practical cases often offer useful additional information that should be considered early in the architecture of the design to benefit from them in order to improve quality and robustness of the estimates. Hence, this thesis proposes a deep fully convolutional network which allows to exploit the informations of either stereo or monocular temporal sequences, along with a novel training procedure which takes multi-scale optimization into account. Indeed, this thesis found that using multi-scale information all along the network is of prime importance for accurate depth estimation and greatly improves performances, allowing to obtain new state-of-theart results on both synthetic data using Virtual KITTI and also on realimages with the challenging KITTI dataset. === Att känna till djupet i en bild är av avgörande betydelse för scenförståelse i flera industriella tillämpningar, exempelvis för självkörande bilar. Bestämning av djup utifrån enstaka bilder har fått en alltmer framträdande roll i studier på senare år, tack vare utvecklingen inom deep learning. I många praktiska fall tillhandahålls ytterligare information som är högst användbar, vilket man bör ta hänsyn till då man designar en arkitektur för att förbättra djupuppskattningarnas kvalitet och robusthet. I detta examensarbete presenteras därför ett så kallat djupt fullständigt faltningsnätverk, som tillåter att man utnyttjar information från tidssekvenser både monokulärt och i stereo samt nya sätt att optimalt träna nätverken i multipla skalor. I examensarbetet konstateras att information från multipla skalor är av synnerlig vikt för noggrann uppskattning av djup och för avsevärt förbättrad prestanda, vilket resulterat i nya state-of-the-art-resultat på syntetiska data från Virtual KITTI såväl som på riktiga bilder fråndet utmanande KITTI-datasetet. |
author |
Figué, Valentin |
author_facet |
Figué, Valentin |
author_sort |
Figué, Valentin |
title |
Depth prediction by deep learning |
title_short |
Depth prediction by deep learning |
title_full |
Depth prediction by deep learning |
title_fullStr |
Depth prediction by deep learning |
title_full_unstemmed |
Depth prediction by deep learning |
title_sort |
depth prediction by deep learning |
publisher |
KTH, Skolan för elektroteknik och datavetenskap (EECS) |
publishDate |
2018 |
url |
http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-240593 |
work_keys_str_mv |
AT figuevalentin depthpredictionbydeeplearning AT figuevalentin djupforutsagelsegenomdeeplearning |
_version_ |
1718804877073711104 |