Assessment of Predictive Models for Improving Default Settings in Streaming Services

Streaming services provide different settings where customers can choose a sound and video quality based on personal preference. The majority of users never make an active choice; instead, they get a default quality setting which is chosen automatically for them based on some parameters, like intern...

Full description

Bibliographic Details
Main Author: Lattouf, Mouzeina
Format: Others
Language:English
Published: KTH, Skolan för kemi, bioteknologi och hälsa (CBH) 2020
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-284482
id ndltd-UPSALLA1-oai-DiVA.org-kth-284482
record_format oai_dc
collection NDLTD
language English
format Others
sources NDLTD
topic Interpretable Machine Learning
Machine Learning
Shapley Additive Explanations
User Settings
User experience
Användarinställningar
Användarupplevelse
Maskininlärning
Shapley Additive Explanations
Tolkningsbar Maskininlärning
Computer and Information Sciences
Data- och informationsvetenskap
spellingShingle Interpretable Machine Learning
Machine Learning
Shapley Additive Explanations
User Settings
User experience
Användarinställningar
Användarupplevelse
Maskininlärning
Shapley Additive Explanations
Tolkningsbar Maskininlärning
Computer and Information Sciences
Data- och informationsvetenskap
Lattouf, Mouzeina
Assessment of Predictive Models for Improving Default Settings in Streaming Services
description Streaming services provide different settings where customers can choose a sound and video quality based on personal preference. The majority of users never make an active choice; instead, they get a default quality setting which is chosen automatically for them based on some parameters, like internet connection quality. This thesis explores personalising the default audio setting, intending to improve the user experience. It achieves this by leveraging machine learning trained on the fraction of users that have made active choices in changing the quality setting. The assumption that user similarity in users who make an active choice can be leveraged to impact user experience was the idea behind this thesis work. It was issued to study which type of data from different categories: demographic, product and consumption is most predictive of a user's taste in sound quality. A case study was conducted to achieve the goals for this thesis. Five predictive model prototypes were trained, evaluated, compared and analysed using two different algorithms: XGBoost and Logistic Regression, and targeting two regions: Sweden and Brazil. Feature importance analysis was conducted using SHapley Additive exPlanations(SHAP), a unified framework for interpreting predictions with a game theoretic approach, and by measuring coefficient weights to determine the most predictive features. Besides exploring the feature impact, the thesis also answers how reasonable it is to generalise these models to non-selecting users by performing hypothesis testing. The project also covered bias analysis between users with and without active quality settings and how that affects the models. The models with XGBoost had higher performance. The results showed that demographic and product data had a higher impact on model predictions in both regions. Although, different regions did not have the same data features as most predictive, so there were differences observed in feature importance between regions and also between platforms. The results of hypothesis testing did not indicate a valid reason to consider the models to work for non-selective users. However, the method is negatively affected by other factors such as small changes in big datasets that impact the statistical significance. Data bias in some data features was found, which indicated a correlation but not the causation behind the patterns. The results of this thesis additionally show how machine learning can improve user experience in regards to default sound quality settings, by leveraging models on user similarity in users who have changed the sound quality to the most suitable for them. === Streamingtjänster erbjuder olika inställningar där kunderna kan välja ljud- och videokvalitet baserat på personliga preferenser. Majoriteten av användarna gör aldrig ett aktivt val; de tilldelas istället en standardkvalitetsinställning som väljs automatiskt baserat på vissa parametrar, som internetanslutningskvalitet. Denna avhandling undersöker anpassning av standardljudinställningen, med avsikt att förbättra användarupplevelsen. Detta uppnås genom att tillämpa maskininlärning på den andel användare som har aktivt ändrat kvalitetsinställningen. Antagandet att användarlikhet hos användare som gör ett aktivt val kan utnyttjas för att påverka användarupplevelsen var tanken bakom detta examensarbete. Det utfärdades för att studera vilken typ av data från olika kategorier: demografi, produkt och konsumtion är mest förutsägande för användarens smak i ljudkvalitet. En fallstudie genomfördes för att uppnå målen för denna avhandling. Fem prediktiva modellprototyper tränades, utvärderades, jämfördes och analyserades med två olika algoritmer: XGBoost och Logistisk Regression, och inriktade på två regioner: Sverige och Brasilien. Analys av funktionsvikt genomfördes med SHapley Additive exPlanations (SHAP), en enhetlig ram för att tolka förutsägelser med en spelteoretisk metod, och genom att mäta koefficientvikter för att bestämma de mest prediktiva funktionerna. Förutom att utforska funktionens påverkan, svarar avhandlingen också på hur rimligt det är att generalisera dessa modeller för icke-selektiva användare genom att utföra hypotesprövning. Projektet omfattade också biasanalys mellan användare med och utan aktiva kvalitetsinställningar och hur det påverkar modellerna. Modellerna med XGBoost hade högre prestanda. Resultaten visade att demografisk data och produktdata hade en högre inverkan på modellförutsägelser i båda regionerna. Däremot hade olika regioner inte samma datafunktioner som mest prediktiva, skillnader observerades i funktionsvikt mellan regioner och även mellan plattformar. Resultaten av hypotesprövningen indikerade inte på vägande anledning för att anse att modellerna skulle fungera för icke-selektiva användare. Däremot har metoden påverkats negativt av andra faktorer som små förändringar i stora datamängder som påverkar den statistiska signifikansen. Data bias hittades i vissa datafunktioner, vilket indikerade en korrelation men inte orsaken bakom mönstren. Resultaten av denna avhandling visar dessutom hur maskininlärning kan förbättra användarupplevelsen när det gäller standardinställningar för ljudkvalitet, genom att utnyttja modeller för användarlikhet hos användare som har ändrat ljudkvaliteten till det mest lämpliga för dem.
author Lattouf, Mouzeina
author_facet Lattouf, Mouzeina
author_sort Lattouf, Mouzeina
title Assessment of Predictive Models for Improving Default Settings in Streaming Services
title_short Assessment of Predictive Models for Improving Default Settings in Streaming Services
title_full Assessment of Predictive Models for Improving Default Settings in Streaming Services
title_fullStr Assessment of Predictive Models for Improving Default Settings in Streaming Services
title_full_unstemmed Assessment of Predictive Models for Improving Default Settings in Streaming Services
title_sort assessment of predictive models for improving default settings in streaming services
publisher KTH, Skolan för kemi, bioteknologi och hälsa (CBH)
publishDate 2020
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-284482
work_keys_str_mv AT lattoufmouzeina assessmentofpredictivemodelsforimprovingdefaultsettingsinstreamingservices
AT lattoufmouzeina bedomningavprediktivamodellerforattforbattrastandardinstallningaristreamingtjanster
_version_ 1719354211440787456
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-2844822020-10-30T05:34:21ZAssessment of Predictive Models for Improving Default Settings in Streaming ServicesengBedömning av prediktiva modeller för att förbättra standardinställningar i streamingtjänsterLattouf, MouzeinaKTH, Skolan för kemi, bioteknologi och hälsa (CBH)2020Interpretable Machine LearningMachine LearningShapley Additive ExplanationsUser SettingsUser experienceAnvändarinställningarAnvändarupplevelseMaskininlärningShapley Additive ExplanationsTolkningsbar MaskininlärningComputer and Information SciencesData- och informationsvetenskapStreaming services provide different settings where customers can choose a sound and video quality based on personal preference. The majority of users never make an active choice; instead, they get a default quality setting which is chosen automatically for them based on some parameters, like internet connection quality. This thesis explores personalising the default audio setting, intending to improve the user experience. It achieves this by leveraging machine learning trained on the fraction of users that have made active choices in changing the quality setting. The assumption that user similarity in users who make an active choice can be leveraged to impact user experience was the idea behind this thesis work. It was issued to study which type of data from different categories: demographic, product and consumption is most predictive of a user's taste in sound quality. A case study was conducted to achieve the goals for this thesis. Five predictive model prototypes were trained, evaluated, compared and analysed using two different algorithms: XGBoost and Logistic Regression, and targeting two regions: Sweden and Brazil. Feature importance analysis was conducted using SHapley Additive exPlanations(SHAP), a unified framework for interpreting predictions with a game theoretic approach, and by measuring coefficient weights to determine the most predictive features. Besides exploring the feature impact, the thesis also answers how reasonable it is to generalise these models to non-selecting users by performing hypothesis testing. The project also covered bias analysis between users with and without active quality settings and how that affects the models. The models with XGBoost had higher performance. The results showed that demographic and product data had a higher impact on model predictions in both regions. Although, different regions did not have the same data features as most predictive, so there were differences observed in feature importance between regions and also between platforms. The results of hypothesis testing did not indicate a valid reason to consider the models to work for non-selective users. However, the method is negatively affected by other factors such as small changes in big datasets that impact the statistical significance. Data bias in some data features was found, which indicated a correlation but not the causation behind the patterns. The results of this thesis additionally show how machine learning can improve user experience in regards to default sound quality settings, by leveraging models on user similarity in users who have changed the sound quality to the most suitable for them. Streamingtjänster erbjuder olika inställningar där kunderna kan välja ljud- och videokvalitet baserat på personliga preferenser. Majoriteten av användarna gör aldrig ett aktivt val; de tilldelas istället en standardkvalitetsinställning som väljs automatiskt baserat på vissa parametrar, som internetanslutningskvalitet. Denna avhandling undersöker anpassning av standardljudinställningen, med avsikt att förbättra användarupplevelsen. Detta uppnås genom att tillämpa maskininlärning på den andel användare som har aktivt ändrat kvalitetsinställningen. Antagandet att användarlikhet hos användare som gör ett aktivt val kan utnyttjas för att påverka användarupplevelsen var tanken bakom detta examensarbete. Det utfärdades för att studera vilken typ av data från olika kategorier: demografi, produkt och konsumtion är mest förutsägande för användarens smak i ljudkvalitet. En fallstudie genomfördes för att uppnå målen för denna avhandling. Fem prediktiva modellprototyper tränades, utvärderades, jämfördes och analyserades med två olika algoritmer: XGBoost och Logistisk Regression, och inriktade på två regioner: Sverige och Brasilien. Analys av funktionsvikt genomfördes med SHapley Additive exPlanations (SHAP), en enhetlig ram för att tolka förutsägelser med en spelteoretisk metod, och genom att mäta koefficientvikter för att bestämma de mest prediktiva funktionerna. Förutom att utforska funktionens påverkan, svarar avhandlingen också på hur rimligt det är att generalisera dessa modeller för icke-selektiva användare genom att utföra hypotesprövning. Projektet omfattade också biasanalys mellan användare med och utan aktiva kvalitetsinställningar och hur det påverkar modellerna. Modellerna med XGBoost hade högre prestanda. Resultaten visade att demografisk data och produktdata hade en högre inverkan på modellförutsägelser i båda regionerna. Däremot hade olika regioner inte samma datafunktioner som mest prediktiva, skillnader observerades i funktionsvikt mellan regioner och även mellan plattformar. Resultaten av hypotesprövningen indikerade inte på vägande anledning för att anse att modellerna skulle fungera för icke-selektiva användare. Däremot har metoden påverkats negativt av andra faktorer som små förändringar i stora datamängder som påverkar den statistiska signifikansen. Data bias hittades i vissa datafunktioner, vilket indikerade en korrelation men inte orsaken bakom mönstren. Resultaten av denna avhandling visar dessutom hur maskininlärning kan förbättra användarupplevelsen när det gäller standardinställningar för ljudkvalitet, genom att utnyttja modeller för användarlikhet hos användare som har ändrat ljudkvaliteten till det mest lämpliga för dem. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-284482TRITA-CBH-GRU ; 2020:251application/pdfinfo:eu-repo/semantics/openAccess