Synthetic Data Generation for Anonymization

Because of regulations but also from a need to find willing participants for surveys, any released data needs to have some sort of privacy preservation. Privacy preservation, however, always requires some sort of reduction of the utility of the data, how much can vary with the method. Synthetic data...

Full description

Bibliographic Details
Main Author: Reje, Niklas
Format: Others
Language:English
Published: KTH, Skolan för elektroteknik och datavetenskap (EECS) 2020
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-276239
id ndltd-UPSALLA1-oai-DiVA.org-kth-276239
record_format oai_dc
collection NDLTD
language English
format Others
sources NDLTD
topic Computer and Information Sciences
Data- och informationsvetenskap
spellingShingle Computer and Information Sciences
Data- och informationsvetenskap
Reje, Niklas
Synthetic Data Generation for Anonymization
description Because of regulations but also from a need to find willing participants for surveys, any released data needs to have some sort of privacy preservation. Privacy preservation, however, always requires some sort of reduction of the utility of the data, how much can vary with the method. Synthetic data generation seeks to be a privacy preserving alternative that keeps the privacy of the participants by generating new records that do not correspond to any real individuals/organizations but still preserve relationships and information within the original dataset. For a method to see wide adoption however it will need to be shown to be useful, for, even if it would be privacy preserving, if it cannot be used for usable research, it will never be used. We investigated four different methods for synthetic data generation: Parametric methods, Decision Trees, Saturated Model with Parametric and Saturated Model with Decision Trees and how the datasets affect those methods with regard to utility together with some restrictions due to how much data can be released and time limitations. We saw through comparing inferences made on the original and the synthetic datasets that a large number of synthetic datasets, about 10 or more, are needed to be released for good utility and that the more datasets that are released, the more stable the inferences are. We see that using as many variables in the imputation process of each variable as possible is best in order to generate synthetic datasets for general usage but that being selective in what variables are used for each imputation can be better for specific inferences that match the preserved relationships. Being selective also helps with keeping down the time complexity of generating synthetic datasets. When compared with k-anonymity we found that the results depended heavily on how much we included as quasi-identifiers but regardless, the synthetic data generation method could get inferences that were at least just as close to the original as inferences made from the k-anonymized datasets, though synthetic more often performed better. We found that Saturated Model with Decision Trees is the overall best method due to high utility with stable generation time regardless of the datasets we used. Decision Trees on their own was second with very close results to the Saturated Model with Decision Trees but some slightly worse results with categorical variables. Third best was Saturated Model with Parametric with good utility often but not with datasets with few categorical variables and occasionally a very long generation time. Parametric was the worst one with poor utility with all datasets and an unstable generation time that as well could be very long === På grund av lagstiftning men även för att få villiga deltagare i studier behöver publicerade data något slags integritetsskydd. Integritetsskydd kräver alltid en viss reducering av användbarheten av data och hur mycket varierar mellan metoder. Syntetisk datagenerering är ett integritetsskyddande alternativ som försöker skydda deltagare genom att generera nya uppgifter som inte korresponderar till någon riktig individ/organisation men som bevarar samma relationer och information som i originaldata. För att en metod ska få vid spridning behöver den visa sig användbar ty, även om den är integritetsskyddande så kommer den aldrig att användas om den inte är användbar för forskning. Vi undersökte fyra olika metoder för syntetisk datagenerering: Parametriska metoder, ”Decision Trees”, ”Saturated Model with Parametric” samt ”Saturated Model with Decision Trees” och vilken effekt olika data har på dessa metoder från ett användbarhetsperspektiv samt tidsbegränsningar och restriktioner på mängden data som kan publiceras. Vi fann genom att jämföra slutledningar gjorda på de syntetiska dataset och orginaldataset att det krävs att man publicerar ett stort antal syntetiska dataset, ungefär 10 eller fler, för att uppnå god användbarhet och att ju fler dataset man publicerar desto stabilare blir slutledningar. Vi fann att använda så många variabler som möjligt i imputeringen av en variabel är det bästa för att generera syntetisk data för generell användning men att vara selektiv i vilka variabler som används i imputeringen kan vara bättre för specifika slutledningar som matchar de bevarade relationerna. Att vara selektiv hjälper också med att hålla nere tidskomplexiteten för att generera syntetisk data. Jämfört med k-anonymity fann vi att resultaten berodde mycket på hur många variabler vi inkluderade som quasi-identifiers men att slutledningar från genererad syntetisk data var minst lika nära de man drog från orginaldata som med k-anonymity, om inte oftare närmare. Vi fann att ”Saturated Model with Decision Trees” är den bästa metoden tack vare dess höga användbarhet med stabil genereringstid oberoende av dataset. Decision Trees” var näst bäst med liknande resultat som föregående men med lite sämre resultat med kategorivariabler. Tredje bäst var ”Saturated Model with Parametric” med bra användbarhet ofta men inte med dataset som hade få kategorivariabler samt ibland en lång genereringstid. Parametrisk var den sämsta med dålig användbarhet med alla dataset samt en instabil genereringstid som ibland kunde vara väldigt lång.
author Reje, Niklas
author_facet Reje, Niklas
author_sort Reje, Niklas
title Synthetic Data Generation for Anonymization
title_short Synthetic Data Generation for Anonymization
title_full Synthetic Data Generation for Anonymization
title_fullStr Synthetic Data Generation for Anonymization
title_full_unstemmed Synthetic Data Generation for Anonymization
title_sort synthetic data generation for anonymization
publisher KTH, Skolan för elektroteknik och datavetenskap (EECS)
publishDate 2020
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-276239
work_keys_str_mv AT rejeniklas syntheticdatagenerationforanonymization
AT rejeniklas genereringavsyntetiskdataforanonymisering
_version_ 1719318786073427968
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-2762392020-06-11T03:30:25ZSynthetic Data Generation for AnonymizationengGenerering av syntetisk data för anonymiseringReje, NiklasKTH, Skolan för elektroteknik och datavetenskap (EECS)2020Computer and Information SciencesData- och informationsvetenskapBecause of regulations but also from a need to find willing participants for surveys, any released data needs to have some sort of privacy preservation. Privacy preservation, however, always requires some sort of reduction of the utility of the data, how much can vary with the method. Synthetic data generation seeks to be a privacy preserving alternative that keeps the privacy of the participants by generating new records that do not correspond to any real individuals/organizations but still preserve relationships and information within the original dataset. For a method to see wide adoption however it will need to be shown to be useful, for, even if it would be privacy preserving, if it cannot be used for usable research, it will never be used. We investigated four different methods for synthetic data generation: Parametric methods, Decision Trees, Saturated Model with Parametric and Saturated Model with Decision Trees and how the datasets affect those methods with regard to utility together with some restrictions due to how much data can be released and time limitations. We saw through comparing inferences made on the original and the synthetic datasets that a large number of synthetic datasets, about 10 or more, are needed to be released for good utility and that the more datasets that are released, the more stable the inferences are. We see that using as many variables in the imputation process of each variable as possible is best in order to generate synthetic datasets for general usage but that being selective in what variables are used for each imputation can be better for specific inferences that match the preserved relationships. Being selective also helps with keeping down the time complexity of generating synthetic datasets. When compared with k-anonymity we found that the results depended heavily on how much we included as quasi-identifiers but regardless, the synthetic data generation method could get inferences that were at least just as close to the original as inferences made from the k-anonymized datasets, though synthetic more often performed better. We found that Saturated Model with Decision Trees is the overall best method due to high utility with stable generation time regardless of the datasets we used. Decision Trees on their own was second with very close results to the Saturated Model with Decision Trees but some slightly worse results with categorical variables. Third best was Saturated Model with Parametric with good utility often but not with datasets with few categorical variables and occasionally a very long generation time. Parametric was the worst one with poor utility with all datasets and an unstable generation time that as well could be very long På grund av lagstiftning men även för att få villiga deltagare i studier behöver publicerade data något slags integritetsskydd. Integritetsskydd kräver alltid en viss reducering av användbarheten av data och hur mycket varierar mellan metoder. Syntetisk datagenerering är ett integritetsskyddande alternativ som försöker skydda deltagare genom att generera nya uppgifter som inte korresponderar till någon riktig individ/organisation men som bevarar samma relationer och information som i originaldata. För att en metod ska få vid spridning behöver den visa sig användbar ty, även om den är integritetsskyddande så kommer den aldrig att användas om den inte är användbar för forskning. Vi undersökte fyra olika metoder för syntetisk datagenerering: Parametriska metoder, ”Decision Trees”, ”Saturated Model with Parametric” samt ”Saturated Model with Decision Trees” och vilken effekt olika data har på dessa metoder från ett användbarhetsperspektiv samt tidsbegränsningar och restriktioner på mängden data som kan publiceras. Vi fann genom att jämföra slutledningar gjorda på de syntetiska dataset och orginaldataset att det krävs att man publicerar ett stort antal syntetiska dataset, ungefär 10 eller fler, för att uppnå god användbarhet och att ju fler dataset man publicerar desto stabilare blir slutledningar. Vi fann att använda så många variabler som möjligt i imputeringen av en variabel är det bästa för att generera syntetisk data för generell användning men att vara selektiv i vilka variabler som används i imputeringen kan vara bättre för specifika slutledningar som matchar de bevarade relationerna. Att vara selektiv hjälper också med att hålla nere tidskomplexiteten för att generera syntetisk data. Jämfört med k-anonymity fann vi att resultaten berodde mycket på hur många variabler vi inkluderade som quasi-identifiers men att slutledningar från genererad syntetisk data var minst lika nära de man drog från orginaldata som med k-anonymity, om inte oftare närmare. Vi fann att ”Saturated Model with Decision Trees” är den bästa metoden tack vare dess höga användbarhet med stabil genereringstid oberoende av dataset. Decision Trees” var näst bäst med liknande resultat som föregående men med lite sämre resultat med kategorivariabler. Tredje bäst var ”Saturated Model with Parametric” med bra användbarhet ofta men inte med dataset som hade få kategorivariabler samt ibland en lång genereringstid. Parametrisk var den sämsta med dålig användbarhet med alla dataset samt en instabil genereringstid som ibland kunde vara väldigt lång. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-276239TRITA-EECS-EX ; 2020:97application/pdfinfo:eu-repo/semantics/openAccess