Are deep video architectures (also) biased toward texture rather than shape?
Convolutional neural networks (CNNs) have achieved high accuracy on several different perceptual tasks, such as object recognition and action recognition. Interpretability is required due to the significant impact of CNNs and the requirement of model improvement. Geirhos et al. suggested that ImageN...
Main Author: | |
---|---|
Format: | Others |
Language: | English |
Published: |
KTH, Skolan för elektroteknik och datavetenskap (EECS)
2021
|
Subjects: | |
Online Access: | http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-304892 |
id |
ndltd-UPSALLA1-oai-DiVA.org-kth-304892 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-UPSALLA1-oai-DiVA.org-kth-3048922021-11-17T05:33:56ZAre deep video architectures (also) biased toward texture rather than shape?engTar djupa videoarkitekturer (också) partisk hänsyn åt textur snarare än form?Li, BoyuKTH, Skolan för elektroteknik och datavetenskap (EECS)2021Computer and Information SciencesData- och informationsvetenskapConvolutional neural networks (CNNs) have achieved high accuracy on several different perceptual tasks, such as object recognition and action recognition. Interpretability is required due to the significant impact of CNNs and the requirement of model improvement. Geirhos et al. suggested that ImageNet-trained CNNs exhibit a bias towards learning texture rather than shape and the shape-based representation has the advantage of previously unseen robustness towards multiple image distortions. Inspired by their research, we extend it from the object recognition area to the action recognition area. In this project, we will investigate if the texture bias found for 2D CNNs is similarly present for video CNNs. Through experiments, we make comparisons of different models and different training datasets. We indicate that although Kinetics-trained, UCF101- finetuned I3D outperforms UCF101-trained TSN and UCF101-trained CNN + LSTM on utilizing both shape and texture cues, it shows the largest texture bias among the three models. Recurrent video models or TSN models are capable of reduction in texture bias, possibly due to the advantage of their temporal modeling. We also suggest that Kinetics-trained Flow I3D exhibits a smaller texture bias than the RGB one. Since the model bias depends on the training dataset, a dataset with small static representation bias can force models to rely more on the shape cue to reduce the tendency to texture bias. Convolutionsneurala nätverk (CNN) har uppnått hög noggrannhet i flera olika perceptuella uppgifter, såsom objektigenkänning och åtgärdsigenkänning. Tolkbarhet krävs på grund av den betydande effekten av CNN och kravet på modellförbättring. Geirhos et al. föreslog att ImageNet-utbildade CNN uppvisar en bias mot inlärningsstruktur snarare än form och den formbaserade representationen har fördelen av tidigare osedd robusthet gentemot flera bildförvrängningar. Inspirerad av deras forskning utvidgar vi det från objektigenkänningsområdet till åtgärdsigenkänningsområdet. I det här projektet kommer vi att undersöka om texturbias som hittats för 2D CNNs finns på samma sätt för video-CNN. Genom experiment gör vi jämförelser av olika modeller och olika träningsdatamängder. Vi indikerar att även om Kinetics-tränade, UCF101-finjusterade I3D överträffar UCF101-tränade TSN och UCF101-tränade CNN + LSTM på att använda både form och textur, visar det den största textur bias bland de tre modellerna. Återkommande videomodeller eller TSN-modeller kan reducera texturbias, möjligen på grund av fördelen med deras tidsmässiga modellering. Vi föreslår också att Kinetics-utbildade Flow I3D uppvisar en mindre texturförspänning än RGB. Eftersom modellbias beror på träningsdatasetet kan en dataset med liten statisk representationsbias tvinga modeller att förlita sig mer på formkön för att minska tendensen till texturbias. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-304892TRITA-EECS-EX ; 2021:682application/pdfinfo:eu-repo/semantics/openAccess |
collection |
NDLTD |
language |
English |
format |
Others
|
sources |
NDLTD |
topic |
Computer and Information Sciences Data- och informationsvetenskap |
spellingShingle |
Computer and Information Sciences Data- och informationsvetenskap Li, Boyu Are deep video architectures (also) biased toward texture rather than shape? |
description |
Convolutional neural networks (CNNs) have achieved high accuracy on several different perceptual tasks, such as object recognition and action recognition. Interpretability is required due to the significant impact of CNNs and the requirement of model improvement. Geirhos et al. suggested that ImageNet-trained CNNs exhibit a bias towards learning texture rather than shape and the shape-based representation has the advantage of previously unseen robustness towards multiple image distortions. Inspired by their research, we extend it from the object recognition area to the action recognition area. In this project, we will investigate if the texture bias found for 2D CNNs is similarly present for video CNNs. Through experiments, we make comparisons of different models and different training datasets. We indicate that although Kinetics-trained, UCF101- finetuned I3D outperforms UCF101-trained TSN and UCF101-trained CNN + LSTM on utilizing both shape and texture cues, it shows the largest texture bias among the three models. Recurrent video models or TSN models are capable of reduction in texture bias, possibly due to the advantage of their temporal modeling. We also suggest that Kinetics-trained Flow I3D exhibits a smaller texture bias than the RGB one. Since the model bias depends on the training dataset, a dataset with small static representation bias can force models to rely more on the shape cue to reduce the tendency to texture bias. === Convolutionsneurala nätverk (CNN) har uppnått hög noggrannhet i flera olika perceptuella uppgifter, såsom objektigenkänning och åtgärdsigenkänning. Tolkbarhet krävs på grund av den betydande effekten av CNN och kravet på modellförbättring. Geirhos et al. föreslog att ImageNet-utbildade CNN uppvisar en bias mot inlärningsstruktur snarare än form och den formbaserade representationen har fördelen av tidigare osedd robusthet gentemot flera bildförvrängningar. Inspirerad av deras forskning utvidgar vi det från objektigenkänningsområdet till åtgärdsigenkänningsområdet. I det här projektet kommer vi att undersöka om texturbias som hittats för 2D CNNs finns på samma sätt för video-CNN. Genom experiment gör vi jämförelser av olika modeller och olika träningsdatamängder. Vi indikerar att även om Kinetics-tränade, UCF101-finjusterade I3D överträffar UCF101-tränade TSN och UCF101-tränade CNN + LSTM på att använda både form och textur, visar det den största textur bias bland de tre modellerna. Återkommande videomodeller eller TSN-modeller kan reducera texturbias, möjligen på grund av fördelen med deras tidsmässiga modellering. Vi föreslår också att Kinetics-utbildade Flow I3D uppvisar en mindre texturförspänning än RGB. Eftersom modellbias beror på träningsdatasetet kan en dataset med liten statisk representationsbias tvinga modeller att förlita sig mer på formkön för att minska tendensen till texturbias. |
author |
Li, Boyu |
author_facet |
Li, Boyu |
author_sort |
Li, Boyu |
title |
Are deep video architectures (also) biased toward texture rather than shape? |
title_short |
Are deep video architectures (also) biased toward texture rather than shape? |
title_full |
Are deep video architectures (also) biased toward texture rather than shape? |
title_fullStr |
Are deep video architectures (also) biased toward texture rather than shape? |
title_full_unstemmed |
Are deep video architectures (also) biased toward texture rather than shape? |
title_sort |
are deep video architectures (also) biased toward texture rather than shape? |
publisher |
KTH, Skolan för elektroteknik och datavetenskap (EECS) |
publishDate |
2021 |
url |
http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-304892 |
work_keys_str_mv |
AT liboyu aredeepvideoarchitecturesalsobiasedtowardtextureratherthanshape AT liboyu tardjupavideoarkitekturerocksapartiskhansynattextursnarareanform |
_version_ |
1719494113127038976 |