Assessment of Privacy-preserving Computation Techniques for Marketing Analytics

Nowadays, a large number of services require personal information for analy- sis, which brings privacy concerns. Notably, the marketing departments strive for detailed personal information for a more personalized advertising expe- rience. The data anonymization helps preserve the privacy of the indi...

Full description

Bibliographic Details
Main Author:	Kartaev, Timur
Format:	Others
Language:	English
Published:	KTH, Skolan för elektroteknik och datavetenskap (EECS) 2020
Subjects:	Computer and Information Sciences Data- och informationsvetenskap
Online Access:	http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-280884

id	ndltd-UPSALLA1-oai-DiVA.org-kth-280884
record_format	oai_dc
spelling	ndltd-UPSALLA1-oai-DiVA.org-kth-2808842020-09-16T05:25:31ZAssessment of Privacy-preserving Computation Techniques for Marketing AnalyticsengKartaev, TimurKTH, Skolan för elektroteknik och datavetenskap (EECS)2020Computer and Information SciencesData- och informationsvetenskapNowadays, a large number of services require personal information for analy- sis, which brings privacy concerns. Notably, the marketing departments strive for detailed personal information for a more personalized advertising expe- rience. The data anonymization helps preserve the privacy of the individ- ual while still providing to the marketing department the users’ information. Moreover, the anonymization process should be optimized to find a balance be- tween utility and privacy of the dataset. Additionally, the latest data processing regulation, especially GDPR law, makes data anonymization even more rele- vant today. This thesis focuses on the assessment of different anonymization models in the context of marketing analytics. It assesses the three most com- mon privacy models: k-anonymity, l-diversity, and t-closeness. In the context of marketing analytics, the task is to predict the marketing channel’s revenue using in-app purchases. First, the models are used to anonymize users’ pur- chases. Second, based on anonymized purchases, the future trend of users purchases of the particular marketing channel is predicted. The results show that there is always a trade-off between utility and privacy when anonymiz- ing data. Primarily, t-closeness provides the highest privacy. However, the anonymized data using the t-closeness has an entirely different pattern of pur- chases than actual data. On the other hand, the k-anonymity model, when applied to purchases dataset, gives the lowest information loss and the lowest privacy. Finally, to sum up, the l-diversity is the most suitable for following GDPR constraints when anonymizing users’ purchases data and for predictions based on anonymized data. Keywords: privacy, marketing, anonymization, prediction, disclosure risk, LTV För närvarande kräver ett stort antal tjänster personlig information för ana- lys, vilket orsakar integritetsproblem. I synnerhet strävar marknadsavdelning- arna efter detaljerad personlig information för en mer personlig reklamupp- levelse. Dataanonimiseringen hjälper till att bevara den enskildes integritet medan den fortfarande tillhandahåller marknadsavdelningen användarnas in- formation. Dessutom bör anonymiseringsprocessen optimeras för att hitta en balans mellan datasystemets verktyg och integritet. Dessutom gör den senaste databehandlingsregleringen, särskilt GDPR-lagen, anonymisering av data än- nu mer relevant i dag. Denna avhandling fokuserar på bedömningen av olika anonymiseringsmodeller i samband med marknadsanalys. Den utvärderar de tre vanligaste sekretessmodellerna: k-anonymitet, l-mångfald och t-närhet. In- om ramen för marknadsanalys är uppgiften att förutsäga marknadsföringska- nalens intäkter med köp i appen. Först används modellerna för att anonymisera användarnas köp. För det andra, baserat på anonymiserade inköp, förutsägas den framtida trenden för användarköp av den specifika marknadsföringskana- len. Resultaten visar att det alltid finns en avvägning mellan verktyg och sek- retess vid anonymisering av data. I första hand ger t-närhet högsta integritet. Emellertid har de anonymiserade uppgifterna med t-närheten ett helt annat in- köpsmönster än faktiska uppgifter. Å andra sidan ger k-anonymitetsmodellen den lägsta informationsförlusten och den lägsta sekretess när den tillämpas på inköpsdatasats. Slutligen, för att sammanfatta, är l-mångfalden den mest lämpade för att följa GDPR-begränsningar när anonymisering av användares inköpsdata och för förutsägelser baserade på anonymiserad data. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-280884TRITA-EECS-EX ; 2020:604application/pdfinfo:eu-repo/semantics/openAccess
collection	NDLTD
language	English
format	Others
sources	NDLTD
topic	Computer and Information Sciences Data- och informationsvetenskap
spellingShingle	Computer and Information Sciences Data- och informationsvetenskap Kartaev, Timur Assessment of Privacy-preserving Computation Techniques for Marketing Analytics
description	Nowadays, a large number of services require personal information for analy- sis, which brings privacy concerns. Notably, the marketing departments strive for detailed personal information for a more personalized advertising expe- rience. The data anonymization helps preserve the privacy of the individ- ual while still providing to the marketing department the users’ information. Moreover, the anonymization process should be optimized to find a balance be- tween utility and privacy of the dataset. Additionally, the latest data processing regulation, especially GDPR law, makes data anonymization even more rele- vant today. This thesis focuses on the assessment of different anonymization models in the context of marketing analytics. It assesses the three most com- mon privacy models: k-anonymity, l-diversity, and t-closeness. In the context of marketing analytics, the task is to predict the marketing channel’s revenue using in-app purchases. First, the models are used to anonymize users’ pur- chases. Second, based on anonymized purchases, the future trend of users purchases of the particular marketing channel is predicted. The results show that there is always a trade-off between utility and privacy when anonymiz- ing data. Primarily, t-closeness provides the highest privacy. However, the anonymized data using the t-closeness has an entirely different pattern of pur- chases than actual data. On the other hand, the k-anonymity model, when applied to purchases dataset, gives the lowest information loss and the lowest privacy. Finally, to sum up, the l-diversity is the most suitable for following GDPR constraints when anonymizing users’ purchases data and for predictions based on anonymized data. Keywords: privacy, marketing, anonymization, prediction, disclosure risk, LTV === För närvarande kräver ett stort antal tjänster personlig information för ana- lys, vilket orsakar integritetsproblem. I synnerhet strävar marknadsavdelning- arna efter detaljerad personlig information för en mer personlig reklamupp- levelse. Dataanonimiseringen hjälper till att bevara den enskildes integritet medan den fortfarande tillhandahåller marknadsavdelningen användarnas in- formation. Dessutom bör anonymiseringsprocessen optimeras för att hitta en balans mellan datasystemets verktyg och integritet. Dessutom gör den senaste databehandlingsregleringen, särskilt GDPR-lagen, anonymisering av data än- nu mer relevant i dag. Denna avhandling fokuserar på bedömningen av olika anonymiseringsmodeller i samband med marknadsanalys. Den utvärderar de tre vanligaste sekretessmodellerna: k-anonymitet, l-mångfald och t-närhet. In- om ramen för marknadsanalys är uppgiften att förutsäga marknadsföringska- nalens intäkter med köp i appen. Först används modellerna för att anonymisera användarnas köp. För det andra, baserat på anonymiserade inköp, förutsägas den framtida trenden för användarköp av den specifika marknadsföringskana- len. Resultaten visar att det alltid finns en avvägning mellan verktyg och sek- retess vid anonymisering av data. I första hand ger t-närhet högsta integritet. Emellertid har de anonymiserade uppgifterna med t-närheten ett helt annat in- köpsmönster än faktiska uppgifter. Å andra sidan ger k-anonymitetsmodellen den lägsta informationsförlusten och den lägsta sekretess när den tillämpas på inköpsdatasats. Slutligen, för att sammanfatta, är l-mångfalden den mest lämpade för att följa GDPR-begränsningar när anonymisering av användares inköpsdata och för förutsägelser baserade på anonymiserad data.
author	Kartaev, Timur
author_facet	Kartaev, Timur
author_sort	Kartaev, Timur
title	Assessment of Privacy-preserving Computation Techniques for Marketing Analytics
title_short	Assessment of Privacy-preserving Computation Techniques for Marketing Analytics
title_full	Assessment of Privacy-preserving Computation Techniques for Marketing Analytics
title_fullStr	Assessment of Privacy-preserving Computation Techniques for Marketing Analytics
title_full_unstemmed	Assessment of Privacy-preserving Computation Techniques for Marketing Analytics
title_sort	assessment of privacy-preserving computation techniques for marketing analytics
publisher	KTH, Skolan för elektroteknik och datavetenskap (EECS)
publishDate	2020
url	http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-280884
work_keys_str_mv	AT kartaevtimur assessmentofprivacypreservingcomputationtechniquesformarketinganalytics
_version_	1719339831585144832

Assessment of Privacy-preserving Computation Techniques for Marketing Analytics

Similar Items