Assessment of Privacy-preserving Computation Techniques for Marketing Analytics

Nowadays, a large number of services require personal information for analy- sis, which brings privacy concerns. Notably, the marketing departments strive for detailed personal information for a more personalized advertising expe- rience. The data anonymization helps preserve the privacy of the indi...

Full description

Bibliographic Details
Main Author: Kartaev, Timur
Format: Others
Language:English
Published: KTH, Skolan för elektroteknik och datavetenskap (EECS) 2020
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-280884
id ndltd-UPSALLA1-oai-DiVA.org-kth-280884
record_format oai_dc
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-2808842020-09-16T05:25:31ZAssessment of Privacy-preserving Computation Techniques for Marketing AnalyticsengKartaev, TimurKTH, Skolan för elektroteknik och datavetenskap (EECS)2020Computer and Information SciencesData- och informationsvetenskapNowadays, a large number of services require personal information for analy- sis, which brings privacy concerns. Notably, the marketing departments strive for detailed personal information for a more personalized advertising expe- rience. The data anonymization helps preserve the privacy of the individ- ual while still providing to the marketing department the users’ information. Moreover, the anonymization process should be optimized to find a balance be- tween utility and privacy of the dataset. Additionally, the latest data processing regulation, especially GDPR law, makes data anonymization even more rele- vant today. This thesis focuses on the assessment of different anonymization models in the context of marketing analytics. It assesses the three most com- mon privacy models: k-anonymity, l-diversity, and t-closeness. In the context of marketing analytics, the task is to predict the marketing channel’s revenue using in-app purchases. First, the models are used to anonymize users’ pur- chases. Second, based on anonymized purchases, the future trend of users purchases of the particular marketing channel is predicted. The results show that there is always a trade-off between utility and privacy when anonymiz- ing data. Primarily, t-closeness provides the highest privacy. However, the anonymized data using the t-closeness has an entirely different pattern of pur- chases than actual data. On the other hand, the k-anonymity model, when applied to purchases dataset, gives the lowest information loss and the lowest privacy. Finally, to sum up, the l-diversity is the most suitable for following GDPR constraints when anonymizing users’ purchases data and for predictions based on anonymized data. Keywords: privacy, marketing, anonymization, prediction, disclosure risk, LTV För närvarande kräver ett stort antal tjänster personlig information för ana- lys, vilket orsakar integritetsproblem. I synnerhet strävar marknadsavdelning- arna efter detaljerad personlig information för en mer personlig reklamupp- levelse. Dataanonimiseringen hjälper till att bevara den enskildes integritet medan den fortfarande tillhandahåller marknadsavdelningen användarnas in- formation. Dessutom bör anonymiseringsprocessen optimeras för att hitta en balans mellan datasystemets verktyg och integritet. Dessutom gör den senaste databehandlingsregleringen, särskilt GDPR-lagen, anonymisering av data än- nu mer relevant i dag. Denna avhandling fokuserar på bedömningen av olika anonymiseringsmodeller i samband med marknadsanalys. Den utvärderar de tre vanligaste sekretessmodellerna: k-anonymitet, l-mångfald och t-närhet. In- om ramen för marknadsanalys är uppgiften att förutsäga marknadsföringska- nalens intäkter med köp i appen. Först används modellerna för att anonymisera användarnas köp. För det andra, baserat på anonymiserade inköp, förutsägas den framtida trenden för användarköp av den specifika marknadsföringskana- len. Resultaten visar att det alltid finns en avvägning mellan verktyg och sek- retess vid anonymisering av data. I första hand ger t-närhet högsta integritet. Emellertid har de anonymiserade uppgifterna med t-närheten ett helt annat in- köpsmönster än faktiska uppgifter. Å andra sidan ger k-anonymitetsmodellen den lägsta informationsförlusten och den lägsta sekretess när den tillämpas på inköpsdatasats. Slutligen, för att sammanfatta, är l-mångfalden den mest lämpade för att följa GDPR-begränsningar när anonymisering av användares inköpsdata och för förutsägelser baserade på anonymiserad data. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-280884TRITA-EECS-EX ; 2020:604application/pdfinfo:eu-repo/semantics/openAccess
collection NDLTD
language English
format Others
sources NDLTD
topic Computer and Information Sciences
Data- och informationsvetenskap
spellingShingle Computer and Information Sciences
Data- och informationsvetenskap
Kartaev, Timur
Assessment of Privacy-preserving Computation Techniques for Marketing Analytics
description Nowadays, a large number of services require personal information for analy- sis, which brings privacy concerns. Notably, the marketing departments strive for detailed personal information for a more personalized advertising expe- rience. The data anonymization helps preserve the privacy of the individ- ual while still providing to the marketing department the users’ information. Moreover, the anonymization process should be optimized to find a balance be- tween utility and privacy of the dataset. Additionally, the latest data processing regulation, especially GDPR law, makes data anonymization even more rele- vant today. This thesis focuses on the assessment of different anonymization models in the context of marketing analytics. It assesses the three most com- mon privacy models: k-anonymity, l-diversity, and t-closeness. In the context of marketing analytics, the task is to predict the marketing channel’s revenue using in-app purchases. First, the models are used to anonymize users’ pur- chases. Second, based on anonymized purchases, the future trend of users purchases of the particular marketing channel is predicted. The results show that there is always a trade-off between utility and privacy when anonymiz- ing data. Primarily, t-closeness provides the highest privacy. However, the anonymized data using the t-closeness has an entirely different pattern of pur- chases than actual data. On the other hand, the k-anonymity model, when applied to purchases dataset, gives the lowest information loss and the lowest privacy. Finally, to sum up, the l-diversity is the most suitable for following GDPR constraints when anonymizing users’ purchases data and for predictions based on anonymized data. Keywords: privacy, marketing, anonymization, prediction, disclosure risk, LTV === För närvarande kräver ett stort antal tjänster personlig information för ana- lys, vilket orsakar integritetsproblem. I synnerhet strävar marknadsavdelning- arna efter detaljerad personlig information för en mer personlig reklamupp- levelse. Dataanonimiseringen hjälper till att bevara den enskildes integritet medan den fortfarande tillhandahåller marknadsavdelningen användarnas in- formation. Dessutom bör anonymiseringsprocessen optimeras för att hitta en balans mellan datasystemets verktyg och integritet. Dessutom gör den senaste databehandlingsregleringen, särskilt GDPR-lagen, anonymisering av data än- nu mer relevant i dag. Denna avhandling fokuserar på bedömningen av olika anonymiseringsmodeller i samband med marknadsanalys. Den utvärderar de tre vanligaste sekretessmodellerna: k-anonymitet, l-mångfald och t-närhet. In- om ramen för marknadsanalys är uppgiften att förutsäga marknadsföringska- nalens intäkter med köp i appen. Först används modellerna för att anonymisera användarnas köp. För det andra, baserat på anonymiserade inköp, förutsägas den framtida trenden för användarköp av den specifika marknadsföringskana- len. Resultaten visar att det alltid finns en avvägning mellan verktyg och sek- retess vid anonymisering av data. I första hand ger t-närhet högsta integritet. Emellertid har de anonymiserade uppgifterna med t-närheten ett helt annat in- köpsmönster än faktiska uppgifter. Å andra sidan ger k-anonymitetsmodellen den lägsta informationsförlusten och den lägsta sekretess när den tillämpas på inköpsdatasats. Slutligen, för att sammanfatta, är l-mångfalden den mest lämpade för att följa GDPR-begränsningar när anonymisering av användares inköpsdata och för förutsägelser baserade på anonymiserad data.
author Kartaev, Timur
author_facet Kartaev, Timur
author_sort Kartaev, Timur
title Assessment of Privacy-preserving Computation Techniques for Marketing Analytics
title_short Assessment of Privacy-preserving Computation Techniques for Marketing Analytics
title_full Assessment of Privacy-preserving Computation Techniques for Marketing Analytics
title_fullStr Assessment of Privacy-preserving Computation Techniques for Marketing Analytics
title_full_unstemmed Assessment of Privacy-preserving Computation Techniques for Marketing Analytics
title_sort assessment of privacy-preserving computation techniques for marketing analytics
publisher KTH, Skolan för elektroteknik och datavetenskap (EECS)
publishDate 2020
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-280884
work_keys_str_mv AT kartaevtimur assessmentofprivacypreservingcomputationtechniquesformarketinganalytics
_version_ 1719339831585144832