Utility of Differentially Private Synthetic Data Generation for High-Dimensional Databases
When processing data that contains sensitive information, careful consideration is required with regard to privacy-preservation to prevent disclosure of confidential information. Privacy engineering enables one to extract valuable patterns, safely, without compromising anyone’s privacy. Over the las...
Main Author: | |
---|---|
Format: | Others |
Language: | English |
Published: |
KTH, Skolan för elektroteknik och datavetenskap (EECS)
2018
|
Subjects: | |
Online Access: | http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-235640 |
id |
ndltd-UPSALLA1-oai-DiVA.org-kth-235640 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-UPSALLA1-oai-DiVA.org-kth-2356402018-10-03T06:07:40ZUtility of Differentially Private Synthetic Data Generation for High-Dimensional DatabasesengKnoors, DaanKTH, Skolan för elektroteknik och datavetenskap (EECS)2018Computer and Information SciencesData- och informationsvetenskapWhen processing data that contains sensitive information, careful consideration is required with regard to privacy-preservation to prevent disclosure of confidential information. Privacy engineering enables one to extract valuable patterns, safely, without compromising anyone’s privacy. Over the last decade, academics have actively sought to find stronger definitions and methodologies to achieve data privacy while preserving the data utility. Differential privacy emerged and became the de facto standard for achieving data privacy and numerous techniques are continuously proposed based on this definition. One method in particular focuses on the generation of private synthetic databases, that mimic statistical patterns and characteristics of a confidential data source in a privacy-preserving manner. Original data format and utility is preserved in a new database that can be shared and analyzed safely without the risk of privacy violation. However, while this privacy approach sounds promising there has been little application beyond academic research. Hence, we investigate the potential of private synthetic data generation for real-world applicability. We propose a new utility evaluation framework that provides a unified approach upon which various algorithms can be assessed and compared. This framework extends academic evaluation methods by incorporating a user-oriented perspective and varying industry requirements, while also examining performance on real-world use cases. Finally, we implement multiple general-purpose algorithms and evaluate them based on our framework to ultimately determine the potential of private synthetic data generation beyond the academic domain. Vid databehandling av känslig information måste särskild hänsyn tas till sekretessbevarande för att undvika oavsiktligt röjande av konfidentiell information. Med sekretessingenjörsskap menas möjliggörandet av informationssäker mönsterextraktion utan att kompromissa någons rätt tillett privatliv. Under det senaste decenniet har akademiker aktivt försökt finna starkare definitioner och metodiker för att uppnå ett sekretessbevarande men endå bibehålla datats nytta. Differentielt hemlighållande(eng. Differential Privacy) framkom som en "de facto" standard för att uppnå sekretessbevarande och det föreslås kontinuerligt nya tekniker baserade på denna. I synnerhet en metod fokuserar på generering av privata syntetiska databaser vilka härmar de statistiska mönster och särdrag från en konfidentiell datakälla på ett sekretessbevarande sätt. På grund av detta kan originaldatats format och nytta bibehållas men fortfarande delas och analyseras utan risk för sekretessöverträdelser. Tyvärr har denna metod sett liten tillämpning utanför akademia. Därför undersöker vi härmed dess potential för användande av hemlighållande syntetisk datagenerering i verkliga användarfall. Vi föreslår vidare ett nytt nyttjandegradsutvärderingramverk vilket ger ett enhetligt sätt att utvärdera diverse algorithmer gentemot varandra. Detta ramverk bygger vidare på de typiska akademiska utvärderingsmetoderna genom att inkorporera ett användarorienterat perspektiv och industrikrav samtidigt som prestandautvärdering av verkliga användarfall görs. Slutligen implementerar vi flera algoritmer med allmänt ändamål och utvärderar dem utifrån kriterierna för detta ramverk med syftet att i slutändan bestämma potentialen för hemlighållande syntetisk datagenerering utanför den akademiska domänen. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-235640TRITA-EECS-EX ; 2018:595application/pdfinfo:eu-repo/semantics/openAccess |
collection |
NDLTD |
language |
English |
format |
Others
|
sources |
NDLTD |
topic |
Computer and Information Sciences Data- och informationsvetenskap |
spellingShingle |
Computer and Information Sciences Data- och informationsvetenskap Knoors, Daan Utility of Differentially Private Synthetic Data Generation for High-Dimensional Databases |
description |
When processing data that contains sensitive information, careful consideration is required with regard to privacy-preservation to prevent disclosure of confidential information. Privacy engineering enables one to extract valuable patterns, safely, without compromising anyone’s privacy. Over the last decade, academics have actively sought to find stronger definitions and methodologies to achieve data privacy while preserving the data utility. Differential privacy emerged and became the de facto standard for achieving data privacy and numerous techniques are continuously proposed based on this definition. One method in particular focuses on the generation of private synthetic databases, that mimic statistical patterns and characteristics of a confidential data source in a privacy-preserving manner. Original data format and utility is preserved in a new database that can be shared and analyzed safely without the risk of privacy violation. However, while this privacy approach sounds promising there has been little application beyond academic research. Hence, we investigate the potential of private synthetic data generation for real-world applicability. We propose a new utility evaluation framework that provides a unified approach upon which various algorithms can be assessed and compared. This framework extends academic evaluation methods by incorporating a user-oriented perspective and varying industry requirements, while also examining performance on real-world use cases. Finally, we implement multiple general-purpose algorithms and evaluate them based on our framework to ultimately determine the potential of private synthetic data generation beyond the academic domain. === Vid databehandling av känslig information måste särskild hänsyn tas till sekretessbevarande för att undvika oavsiktligt röjande av konfidentiell information. Med sekretessingenjörsskap menas möjliggörandet av informationssäker mönsterextraktion utan att kompromissa någons rätt tillett privatliv. Under det senaste decenniet har akademiker aktivt försökt finna starkare definitioner och metodiker för att uppnå ett sekretessbevarande men endå bibehålla datats nytta. Differentielt hemlighållande(eng. Differential Privacy) framkom som en "de facto" standard för att uppnå sekretessbevarande och det föreslås kontinuerligt nya tekniker baserade på denna. I synnerhet en metod fokuserar på generering av privata syntetiska databaser vilka härmar de statistiska mönster och särdrag från en konfidentiell datakälla på ett sekretessbevarande sätt. På grund av detta kan originaldatats format och nytta bibehållas men fortfarande delas och analyseras utan risk för sekretessöverträdelser. Tyvärr har denna metod sett liten tillämpning utanför akademia. Därför undersöker vi härmed dess potential för användande av hemlighållande syntetisk datagenerering i verkliga användarfall. Vi föreslår vidare ett nytt nyttjandegradsutvärderingramverk vilket ger ett enhetligt sätt att utvärdera diverse algorithmer gentemot varandra. Detta ramverk bygger vidare på de typiska akademiska utvärderingsmetoderna genom att inkorporera ett användarorienterat perspektiv och industrikrav samtidigt som prestandautvärdering av verkliga användarfall görs. Slutligen implementerar vi flera algoritmer med allmänt ändamål och utvärderar dem utifrån kriterierna för detta ramverk med syftet att i slutändan bestämma potentialen för hemlighållande syntetisk datagenerering utanför den akademiska domänen. |
author |
Knoors, Daan |
author_facet |
Knoors, Daan |
author_sort |
Knoors, Daan |
title |
Utility of Differentially Private Synthetic Data Generation for High-Dimensional Databases |
title_short |
Utility of Differentially Private Synthetic Data Generation for High-Dimensional Databases |
title_full |
Utility of Differentially Private Synthetic Data Generation for High-Dimensional Databases |
title_fullStr |
Utility of Differentially Private Synthetic Data Generation for High-Dimensional Databases |
title_full_unstemmed |
Utility of Differentially Private Synthetic Data Generation for High-Dimensional Databases |
title_sort |
utility of differentially private synthetic data generation for high-dimensional databases |
publisher |
KTH, Skolan för elektroteknik och datavetenskap (EECS) |
publishDate |
2018 |
url |
http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-235640 |
work_keys_str_mv |
AT knoorsdaan utilityofdifferentiallyprivatesyntheticdatagenerationforhighdimensionaldatabases |
_version_ |
1718759432299479040 |