Learning Style Compatibility on Fashion Data

Fashion Recommendation can be defined as a set of systems that tries to predict and retrieve a curated and often ranked selection of fashion items based on the preference of one or more target consumers. Traditional systems relied on providing substitute recommendations, meaning that they were cente...

Full description

Bibliographic Details
Main Author: Frösslund, Lukas
Format: Others
Language:English
Published: KTH, Skolan för elektroteknik och datavetenskap (EECS) 2021
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-304082
id ndltd-UPSALLA1-oai-DiVA.org-kth-304082
record_format oai_dc
collection NDLTD
language English
format Others
sources NDLTD
topic Computer Sciences
Datavetenskap (datalogi)
spellingShingle Computer Sciences
Datavetenskap (datalogi)
Frösslund, Lukas
Learning Style Compatibility on Fashion Data
description Fashion Recommendation can be defined as a set of systems that tries to predict and retrieve a curated and often ranked selection of fashion items based on the preference of one or more target consumers. Traditional systems relied on providing substitute recommendations, meaning that they were centered around finding similarities between fashion items. However, recent approaches have aimed to provide complementary recommendations that are instead built on item compatibility. Outfit Matching has recently emerged as a popular task when modelling compatibility between fashion items. The objective of the task is to retrieve a set of fashion items, each of a different item category, such that the items collectively can be considered visually compatible. In this thesis, two state-of-the-art deep neural network models, earlier used for the task of matching outfits, were implemented to investigate their performance on a novel task of matching fashion styles. This more unconstrained task accepted duplicate item categories as well as mixed demographics, enabling the retrieval of a larger and more diverse selection of fashion items. A fashion dataset was constructed for the thesis, where the two models were evaluated on the data using the Fill-in-the-blank (FITB) experiment commonly used in fashion compatibility modelling. Additionally, an item retrieval test was conducted, evaluated using recall @ top k to determine the ability of the models to learn style compatibility in a retrieval setting. Results showed that both models struggled when introducing fewer constraints, with an FITB accuracy of 48.97% when matching fashion styles, compared to 63.73% on the outfit matching task. However, an increase in the embedding dimension of the data yielded a significant increase in accuracy. When performing experiments using previously unseen classes of data, no significant decrease in performance was noted, suggesting an ability in both models to generalize well to new fashion styles. Retrieval tests could show a clear preference in both models to retrieve relevant items, with recall values reaching 54.30% for a k-value of 50. Suggestions for future work include efforts to be put on improving shortcomings in the data by ensuring all samples to be distinct in style, and as well to move beyond solely visual data and include semantic textual data in the embedding representation. Finally, the construction of a benchmark dataset for style compatibility modelling would be beneficial in drawing attention to the task.  === Moderekommendationssystem kan definieras som en uppsättning system som försöker förutsäga och hämta ett rankat urval av modeprodukter baserat på en eller flera målkonsumenters preferenser. Traditionella system förlitade sig på att ge ersättningsrekommendationer, vilket innebar ett fokus kring att hitta likheter mellan produkterna. De senaste systemen har dock ämnat till att ge kompletterande rekommendationer som istället bygger på produktkompatibilitet. Outfitmatchning har nyligen etablerat sig som en populär uppgift vid modellering av kompatibilitet mellan modeprodukter. Syftet med uppgiften är att hämta en uppsättning modeprodukter, var och en av skilda produktkategorier, sådant att produkterna tillsammans kan anses vara visuellt kompatibla. I denna uppsats implementerades två djupinlärningsmodeller, som tidigare användes för att matcha outfits, till att nu undersöka deras prestanda på en ny uppgift som ämnade till att matcha modestilar. Denna mindre begränsade uppgift accepterade dels duplicerade produktkategorier samt även blandad demografi bland produkterna, vilket möjliggjorde hämtning av ett större och mer varierat urval av modeprodukter. Ett modedataset konstruerades för uppsatsen, där de två modellerna utvärderades på data med Fill-in-the-blank (FITB) experimentet som vanligtvis används vid modellering av kompatibilitet. Dessutom genomfördes ett objekthämtningstest, utvärderat med hjälp av recall @ top k för att bestämma modellernas förmåga att lära sig stilkompatibilitet i ett hämtningsscenario. Resultaten visade att båda modellerna hade problem att hantera färre begränsningar, med en FITB-noggrannhet på 48,97% vid matchning av modestilar, jämfört med 63,73% för outfitmatchning. En ökning av bilddatans inbäddningsdimension gav emellertid en signifikant ökning av noggrannheten. Vid experiment med tidigare osedda dataklasser noterades ingen signifikant minskning av prestanda, vilket tyder på en förmåga i båda modellerna att generalisera väl till nya modestilar. Hämtningstestet påvisade en tydlig preferens hos båda modellerna för att hämta relevanta produkter, med återkallningsvärden upptill 54,30% för ett kvärde på 50. Förslag för framtida uppsatser inkluderar föbättringar i datan genom att se till att alla par av datapunkter är tydliga i stil, samt att gå bortom enbart visuell data och även inkludera semantisk textinformation i inbäddningsrepresentationen. Slutligen skulle konstruktionen av ett referensdataset för modellering av stilkompatibilitet vara till nytta för att vidare uppmärksamma uppgiften.
author Frösslund, Lukas
author_facet Frösslund, Lukas
author_sort Frösslund, Lukas
title Learning Style Compatibility on Fashion Data
title_short Learning Style Compatibility on Fashion Data
title_full Learning Style Compatibility on Fashion Data
title_fullStr Learning Style Compatibility on Fashion Data
title_full_unstemmed Learning Style Compatibility on Fashion Data
title_sort learning style compatibility on fashion data
publisher KTH, Skolan för elektroteknik och datavetenskap (EECS)
publishDate 2021
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-304082
work_keys_str_mv AT frosslundlukas learningstylecompatibilityonfashiondata
AT frosslundlukas larandeavstilkompatibilitetpamodedata
_version_ 1719491718847397888
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-3040822021-10-29T05:29:26ZLearning Style Compatibility on Fashion DataengLärande av Stilkompatibilitet på ModedataFrösslund, LukasKTH, Skolan för elektroteknik och datavetenskap (EECS)2021Computer SciencesDatavetenskap (datalogi)Fashion Recommendation can be defined as a set of systems that tries to predict and retrieve a curated and often ranked selection of fashion items based on the preference of one or more target consumers. Traditional systems relied on providing substitute recommendations, meaning that they were centered around finding similarities between fashion items. However, recent approaches have aimed to provide complementary recommendations that are instead built on item compatibility. Outfit Matching has recently emerged as a popular task when modelling compatibility between fashion items. The objective of the task is to retrieve a set of fashion items, each of a different item category, such that the items collectively can be considered visually compatible. In this thesis, two state-of-the-art deep neural network models, earlier used for the task of matching outfits, were implemented to investigate their performance on a novel task of matching fashion styles. This more unconstrained task accepted duplicate item categories as well as mixed demographics, enabling the retrieval of a larger and more diverse selection of fashion items. A fashion dataset was constructed for the thesis, where the two models were evaluated on the data using the Fill-in-the-blank (FITB) experiment commonly used in fashion compatibility modelling. Additionally, an item retrieval test was conducted, evaluated using recall @ top k to determine the ability of the models to learn style compatibility in a retrieval setting. Results showed that both models struggled when introducing fewer constraints, with an FITB accuracy of 48.97% when matching fashion styles, compared to 63.73% on the outfit matching task. However, an increase in the embedding dimension of the data yielded a significant increase in accuracy. When performing experiments using previously unseen classes of data, no significant decrease in performance was noted, suggesting an ability in both models to generalize well to new fashion styles. Retrieval tests could show a clear preference in both models to retrieve relevant items, with recall values reaching 54.30% for a k-value of 50. Suggestions for future work include efforts to be put on improving shortcomings in the data by ensuring all samples to be distinct in style, and as well to move beyond solely visual data and include semantic textual data in the embedding representation. Finally, the construction of a benchmark dataset for style compatibility modelling would be beneficial in drawing attention to the task.  Moderekommendationssystem kan definieras som en uppsättning system som försöker förutsäga och hämta ett rankat urval av modeprodukter baserat på en eller flera målkonsumenters preferenser. Traditionella system förlitade sig på att ge ersättningsrekommendationer, vilket innebar ett fokus kring att hitta likheter mellan produkterna. De senaste systemen har dock ämnat till att ge kompletterande rekommendationer som istället bygger på produktkompatibilitet. Outfitmatchning har nyligen etablerat sig som en populär uppgift vid modellering av kompatibilitet mellan modeprodukter. Syftet med uppgiften är att hämta en uppsättning modeprodukter, var och en av skilda produktkategorier, sådant att produkterna tillsammans kan anses vara visuellt kompatibla. I denna uppsats implementerades två djupinlärningsmodeller, som tidigare användes för att matcha outfits, till att nu undersöka deras prestanda på en ny uppgift som ämnade till att matcha modestilar. Denna mindre begränsade uppgift accepterade dels duplicerade produktkategorier samt även blandad demografi bland produkterna, vilket möjliggjorde hämtning av ett större och mer varierat urval av modeprodukter. Ett modedataset konstruerades för uppsatsen, där de två modellerna utvärderades på data med Fill-in-the-blank (FITB) experimentet som vanligtvis används vid modellering av kompatibilitet. Dessutom genomfördes ett objekthämtningstest, utvärderat med hjälp av recall @ top k för att bestämma modellernas förmåga att lära sig stilkompatibilitet i ett hämtningsscenario. Resultaten visade att båda modellerna hade problem att hantera färre begränsningar, med en FITB-noggrannhet på 48,97% vid matchning av modestilar, jämfört med 63,73% för outfitmatchning. En ökning av bilddatans inbäddningsdimension gav emellertid en signifikant ökning av noggrannheten. Vid experiment med tidigare osedda dataklasser noterades ingen signifikant minskning av prestanda, vilket tyder på en förmåga i båda modellerna att generalisera väl till nya modestilar. Hämtningstestet påvisade en tydlig preferens hos båda modellerna för att hämta relevanta produkter, med återkallningsvärden upptill 54,30% för ett kvärde på 50. Förslag för framtida uppsatser inkluderar föbättringar i datan genom att se till att alla par av datapunkter är tydliga i stil, samt att gå bortom enbart visuell data och även inkludera semantisk textinformation i inbäddningsrepresentationen. Slutligen skulle konstruktionen av ett referensdataset för modellering av stilkompatibilitet vara till nytta för att vidare uppmärksamma uppgiften. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-304082TRITA-EECS-EX ; 2021:604application/pdfinfo:eu-repo/semantics/openAccess