Utility of Differentially Private Synthetic Data Generation for High-Dimensional Databases

When processing data that contains sensitive information, careful consideration is required with regard to privacy-preservation to prevent disclosure of confidential information. Privacy engineering enables one to extract valuable patterns, safely, without compromising anyone’s privacy. Over the las...

Full description

Bibliographic Details
Main Author:	Knoors, Daan
Format:	Others
Language:	English
Published:	KTH, Skolan för elektroteknik och datavetenskap (EECS) 2018
Subjects:	Computer and Information Sciences Data- och informationsvetenskap
Online Access:	http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-235640

id	ndltd-UPSALLA1-oai-DiVA.org-kth-235640
record_format	oai_dc
spelling	ndltd-UPSALLA1-oai-DiVA.org-kth-2356402018-10-03T06:07:40ZUtility of Differentially Private Synthetic Data Generation for High-Dimensional DatabasesengKnoors, DaanKTH, Skolan för elektroteknik och datavetenskap (EECS)2018Computer and Information SciencesData- och informationsvetenskapWhen processing data that contains sensitive information, careful consideration is required with regard to privacy-preservation to prevent disclosure of confidential information. Privacy engineering enables one to extract valuable patterns, safely, without compromising anyone’s privacy. Over the last decade, academics have actively sought to find stronger definitions and methodologies to achieve data privacy while preserving the data utility. Differential privacy emerged and became the de facto standard for achieving data privacy and numerous techniques are continuously proposed based on this definition. One method in particular focuses on the generation of private synthetic databases, that mimic statistical patterns and characteristics of a confidential data source in a privacy-preserving manner. Original data format and utility is preserved in a new database that can be shared and analyzed safely without the risk of privacy violation. However, while this privacy approach sounds promising there has been little application beyond academic research. Hence, we investigate the potential of private synthetic data generation for real-world applicability. We propose a new utility evaluation framework that provides a unified approach upon which various algorithms can be assessed and compared. This framework extends academic evaluation methods by incorporating a user-oriented perspective and varying industry requirements, while also examining performance on real-world use cases. Finally, we implement multiple general-purpose algorithms and evaluate them based on our framework to ultimately determine the potential of private synthetic data generation beyond the academic domain. Vid databehandling av känslig information måste särskild hänsyn tas till sekretessbevarande för att undvika oavsiktligt röjande av konfidentiell information. Med sekretessingenjörsskap menas möjliggörandet av informationssäker mönsterextraktion utan att kompromissa någons rätt tillett privatliv. Under det senaste decenniet har akademiker aktivt försökt finna starkare definitioner och metodiker för att uppnå ett sekretessbevarande men endå bibehålla datats nytta. Differentielt hemlighållande(eng. Differential Privacy) framkom som en "de facto" standard för att uppnå sekretessbevarande och det föreslås kontinuerligt nya tekniker baserade på denna. I synnerhet en metod fokuserar på generering av privata syntetiska databaser vilka härmar de statistiska mönster och särdrag från en konfidentiell datakälla på ett sekretessbevarande sätt. På grund av detta kan originaldatats format och nytta bibehållas men fortfarande delas och analyseras utan risk för sekretessöverträdelser. Tyvärr har denna metod sett liten tillämpning utanför akademia. Därför undersöker vi härmed dess potential för användande av hemlighållande syntetisk datagenerering i verkliga användarfall. Vi föreslår vidare ett nytt nyttjandegradsutvärderingramverk vilket ger ett enhetligt sätt att utvärdera diverse algorithmer gentemot varandra. Detta ramverk bygger vidare på de typiska akademiska utvärderingsmetoderna genom att inkorporera ett användarorienterat perspektiv och industrikrav samtidigt som prestandautvärdering av verkliga användarfall görs. Slutligen implementerar vi flera algoritmer med allmänt ändamål och utvärderar dem utifrån kriterierna för detta ramverk med syftet att i slutändan bestämma potentialen för hemlighållande syntetisk datagenerering utanför den akademiska domänen. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-235640TRITA-EECS-EX ; 2018:595application/pdfinfo:eu-repo/semantics/openAccess
collection	NDLTD
language	English
format	Others
sources	NDLTD
topic	Computer and Information Sciences Data- och informationsvetenskap
spellingShingle	Computer and Information Sciences Data- och informationsvetenskap Knoors, Daan Utility of Differentially Private Synthetic Data Generation for High-Dimensional Databases
description	When processing data that contains sensitive information, careful consideration is required with regard to privacy-preservation to prevent disclosure of confidential information. Privacy engineering enables one to extract valuable patterns, safely, without compromising anyone’s privacy. Over the last decade, academics have actively sought to find stronger definitions and methodologies to achieve data privacy while preserving the data utility. Differential privacy emerged and became the de facto standard for achieving data privacy and numerous techniques are continuously proposed based on this definition. One method in particular focuses on the generation of private synthetic databases, that mimic statistical patterns and characteristics of a confidential data source in a privacy-preserving manner. Original data format and utility is preserved in a new database that can be shared and analyzed safely without the risk of privacy violation. However, while this privacy approach sounds promising there has been little application beyond academic research. Hence, we investigate the potential of private synthetic data generation for real-world applicability. We propose a new utility evaluation framework that provides a unified approach upon which various algorithms can be assessed and compared. This framework extends academic evaluation methods by incorporating a user-oriented perspective and varying industry requirements, while also examining performance on real-world use cases. Finally, we implement multiple general-purpose algorithms and evaluate them based on our framework to ultimately determine the potential of private synthetic data generation beyond the academic domain. === Vid databehandling av känslig information måste särskild hänsyn tas till sekretessbevarande för att undvika oavsiktligt röjande av konfidentiell information. Med sekretessingenjörsskap menas möjliggörandet av informationssäker mönsterextraktion utan att kompromissa någons rätt tillett privatliv. Under det senaste decenniet har akademiker aktivt försökt finna starkare definitioner och metodiker för att uppnå ett sekretessbevarande men endå bibehålla datats nytta. Differentielt hemlighållande(eng. Differential Privacy) framkom som en "de facto" standard för att uppnå sekretessbevarande och det föreslås kontinuerligt nya tekniker baserade på denna. I synnerhet en metod fokuserar på generering av privata syntetiska databaser vilka härmar de statistiska mönster och särdrag från en konfidentiell datakälla på ett sekretessbevarande sätt. På grund av detta kan originaldatats format och nytta bibehållas men fortfarande delas och analyseras utan risk för sekretessöverträdelser. Tyvärr har denna metod sett liten tillämpning utanför akademia. Därför undersöker vi härmed dess potential för användande av hemlighållande syntetisk datagenerering i verkliga användarfall. Vi föreslår vidare ett nytt nyttjandegradsutvärderingramverk vilket ger ett enhetligt sätt att utvärdera diverse algorithmer gentemot varandra. Detta ramverk bygger vidare på de typiska akademiska utvärderingsmetoderna genom att inkorporera ett användarorienterat perspektiv och industrikrav samtidigt som prestandautvärdering av verkliga användarfall görs. Slutligen implementerar vi flera algoritmer med allmänt ändamål och utvärderar dem utifrån kriterierna för detta ramverk med syftet att i slutändan bestämma potentialen för hemlighållande syntetisk datagenerering utanför den akademiska domänen.
author	Knoors, Daan
author_facet	Knoors, Daan
author_sort	Knoors, Daan
title	Utility of Differentially Private Synthetic Data Generation for High-Dimensional Databases
title_short	Utility of Differentially Private Synthetic Data Generation for High-Dimensional Databases
title_full	Utility of Differentially Private Synthetic Data Generation for High-Dimensional Databases
title_fullStr	Utility of Differentially Private Synthetic Data Generation for High-Dimensional Databases
title_full_unstemmed	Utility of Differentially Private Synthetic Data Generation for High-Dimensional Databases
title_sort	utility of differentially private synthetic data generation for high-dimensional databases
publisher	KTH, Skolan för elektroteknik och datavetenskap (EECS)
publishDate	2018
url	http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-235640
work_keys_str_mv	AT knoorsdaan utilityofdifferentiallyprivatesyntheticdatagenerationforhighdimensionaldatabases
_version_	1718759432299479040

Utility of Differentially Private Synthetic Data Generation for High-Dimensional Databases

Similar Items