Utility of Differentially Private Synthetic Data Generation for High-Dimensional Databases

When processing data that contains sensitive information, careful consideration is required with regard to privacy-preservation to prevent disclosure of confidential information. Privacy engineering enables one to extract valuable patterns, safely, without compromising anyone’s privacy. Over the las...

Full description

Bibliographic Details
Main Author: Knoors, Daan
Format: Others
Language:English
Published: KTH, Skolan för elektroteknik och datavetenskap (EECS) 2018
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-235640
id ndltd-UPSALLA1-oai-DiVA.org-kth-235640
record_format oai_dc
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-2356402018-10-03T06:07:40ZUtility of Differentially Private Synthetic Data Generation for High-Dimensional DatabasesengKnoors, DaanKTH, Skolan för elektroteknik och datavetenskap (EECS)2018Computer and Information SciencesData- och informationsvetenskapWhen processing data that contains sensitive information, careful consideration is required with regard to privacy-preservation to prevent disclosure of confidential information. Privacy engineering enables one to extract valuable patterns, safely, without compromising anyone’s privacy. Over the last decade, academics have actively sought to find stronger definitions and methodologies to achieve data privacy while preserving the data utility. Differential privacy emerged and became the de facto standard for achieving data privacy and numerous techniques are continuously proposed based on this definition. One method in particular focuses on the generation of private synthetic databases, that mimic statistical patterns and characteristics of a confidential data source in a privacy-preserving manner. Original data format and utility is preserved in a new database that can be shared and analyzed safely without the risk of privacy violation. However, while this privacy approach sounds promising there has been little application beyond academic research. Hence, we investigate the potential of private synthetic data generation for real-world applicability. We propose a new utility evaluation framework that provides a unified approach upon which various algorithms can be assessed and compared. This framework extends academic evaluation methods by incorporating a user-oriented perspective and varying industry requirements, while also examining performance on real-world use cases. Finally, we implement multiple general-purpose algorithms and evaluate them based on our framework to ultimately determine the potential of private synthetic data generation beyond the academic domain. Vid databehandling av känslig information måste särskild hänsyn tas till sekretessbevarande för att undvika oavsiktligt röjande av konfidentiell information. Med sekretessingenjörsskap menas möjliggörandet av informationssäker mönsterextraktion utan att kompromissa någons rätt tillett privatliv. Under det senaste decenniet har akademiker aktivt försökt finna starkare definitioner och metodiker för att uppnå ett sekretessbevarande men endå bibehålla datats nytta. Differentielt hemlighållande(eng. Differential Privacy) framkom som en "de facto" standard för att uppnå sekretessbevarande och det föreslås kontinuerligt nya tekniker baserade på denna. I synnerhet en metod fokuserar på generering av privata syntetiska databaser vilka härmar de statistiska mönster och särdrag från en konfidentiell datakälla på ett sekretessbevarande sätt. På grund av detta kan originaldatats format och nytta bibehållas men fortfarande delas och analyseras utan risk för sekretessöverträdelser. Tyvärr har denna metod sett liten tillämpning utanför akademia. Därför undersöker vi härmed dess potential för användande av hemlighållande syntetisk datagenerering i verkliga användarfall. Vi föreslår vidare ett nytt nyttjandegradsutvärderingramverk vilket ger ett enhetligt sätt att utvärdera diverse algorithmer gentemot varandra. Detta ramverk bygger vidare på de typiska akademiska utvärderingsmetoderna genom att inkorporera ett användarorienterat perspektiv och industrikrav samtidigt som prestandautvärdering av verkliga användarfall görs. Slutligen implementerar vi flera algoritmer med allmänt ändamål och utvärderar dem utifrån kriterierna för detta ramverk med syftet att i slutändan bestämma potentialen för hemlighållande syntetisk datagenerering utanför den akademiska domänen. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-235640TRITA-EECS-EX ; 2018:595application/pdfinfo:eu-repo/semantics/openAccess
collection NDLTD
language English
format Others
sources NDLTD
topic Computer and Information Sciences
Data- och informationsvetenskap
spellingShingle Computer and Information Sciences
Data- och informationsvetenskap
Knoors, Daan
Utility of Differentially Private Synthetic Data Generation for High-Dimensional Databases
description When processing data that contains sensitive information, careful consideration is required with regard to privacy-preservation to prevent disclosure of confidential information. Privacy engineering enables one to extract valuable patterns, safely, without compromising anyone’s privacy. Over the last decade, academics have actively sought to find stronger definitions and methodologies to achieve data privacy while preserving the data utility. Differential privacy emerged and became the de facto standard for achieving data privacy and numerous techniques are continuously proposed based on this definition. One method in particular focuses on the generation of private synthetic databases, that mimic statistical patterns and characteristics of a confidential data source in a privacy-preserving manner. Original data format and utility is preserved in a new database that can be shared and analyzed safely without the risk of privacy violation. However, while this privacy approach sounds promising there has been little application beyond academic research. Hence, we investigate the potential of private synthetic data generation for real-world applicability. We propose a new utility evaluation framework that provides a unified approach upon which various algorithms can be assessed and compared. This framework extends academic evaluation methods by incorporating a user-oriented perspective and varying industry requirements, while also examining performance on real-world use cases. Finally, we implement multiple general-purpose algorithms and evaluate them based on our framework to ultimately determine the potential of private synthetic data generation beyond the academic domain. === Vid databehandling av känslig information måste särskild hänsyn tas till sekretessbevarande för att undvika oavsiktligt röjande av konfidentiell information. Med sekretessingenjörsskap menas möjliggörandet av informationssäker mönsterextraktion utan att kompromissa någons rätt tillett privatliv. Under det senaste decenniet har akademiker aktivt försökt finna starkare definitioner och metodiker för att uppnå ett sekretessbevarande men endå bibehålla datats nytta. Differentielt hemlighållande(eng. Differential Privacy) framkom som en "de facto" standard för att uppnå sekretessbevarande och det föreslås kontinuerligt nya tekniker baserade på denna. I synnerhet en metod fokuserar på generering av privata syntetiska databaser vilka härmar de statistiska mönster och särdrag från en konfidentiell datakälla på ett sekretessbevarande sätt. På grund av detta kan originaldatats format och nytta bibehållas men fortfarande delas och analyseras utan risk för sekretessöverträdelser. Tyvärr har denna metod sett liten tillämpning utanför akademia. Därför undersöker vi härmed dess potential för användande av hemlighållande syntetisk datagenerering i verkliga användarfall. Vi föreslår vidare ett nytt nyttjandegradsutvärderingramverk vilket ger ett enhetligt sätt att utvärdera diverse algorithmer gentemot varandra. Detta ramverk bygger vidare på de typiska akademiska utvärderingsmetoderna genom att inkorporera ett användarorienterat perspektiv och industrikrav samtidigt som prestandautvärdering av verkliga användarfall görs. Slutligen implementerar vi flera algoritmer med allmänt ändamål och utvärderar dem utifrån kriterierna för detta ramverk med syftet att i slutändan bestämma potentialen för hemlighållande syntetisk datagenerering utanför den akademiska domänen.
author Knoors, Daan
author_facet Knoors, Daan
author_sort Knoors, Daan
title Utility of Differentially Private Synthetic Data Generation for High-Dimensional Databases
title_short Utility of Differentially Private Synthetic Data Generation for High-Dimensional Databases
title_full Utility of Differentially Private Synthetic Data Generation for High-Dimensional Databases
title_fullStr Utility of Differentially Private Synthetic Data Generation for High-Dimensional Databases
title_full_unstemmed Utility of Differentially Private Synthetic Data Generation for High-Dimensional Databases
title_sort utility of differentially private synthetic data generation for high-dimensional databases
publisher KTH, Skolan för elektroteknik och datavetenskap (EECS)
publishDate 2018
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-235640
work_keys_str_mv AT knoorsdaan utilityofdifferentiallyprivatesyntheticdatagenerationforhighdimensionaldatabases
_version_ 1718759432299479040