Deep Learning for Speech Enhancement : A Study on WaveNet, GANs and General CNN-RNN Architectures

Clarity and intelligiblity are important aspects of speech, especially in a time of misinformation and mistrust. The breakthrough in generative models for audio files has brought massive improvements for speech enhancement. Google’s WaveNet architecture has been modified for noise reduction in a mod...

Full description

Bibliographic Details
Main Author:	Xing Luo, Oscar
Format:	Others
Language:	English
Published:	KTH, Skolan för elektroteknik och datavetenskap (EECS) 2019
Subjects:	Computer and Information Sciences Data- och informationsvetenskap
Online Access:	http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-260351

id	ndltd-UPSALLA1-oai-DiVA.org-kth-260351
record_format	oai_dc
spelling	ndltd-UPSALLA1-oai-DiVA.org-kth-2603512019-10-17T22:12:22ZDeep Learning for Speech Enhancement : A Study on WaveNet, GANs and General CNN-RNN ArchitecturesengDjupinlärning för talsignalförbättring : En studie om WaveNet, GANs och generell CNN-RNN-arkitekturXing Luo, OscarKTH, Skolan för elektroteknik och datavetenskap (EECS)2019Computer and Information SciencesData- och informationsvetenskapClarity and intelligiblity are important aspects of speech, especially in a time of misinformation and mistrust. The breakthrough in generative models for audio files has brought massive improvements for speech enhancement. Google’s WaveNet architecture has been modified for noise reduction in a model called WaveNet denoising and has proven to be state-of-the-art. Another competitor on the market would be the Speech Enhancement Generative Adversarial Network (SEGAN) which adapts the GAN architecture into applications on speech. While most older models focus on feature extraction and spectrogram analysis, these two models attempt to skip those steps and become end-to-end models completely. While end-to-end is good, data preprocessing is still a valuable asset to consider. A network designed by Microsoft Research called EHNet uses the spectrogram data as input instead of the mere 1D waveforms to capture more relations between datapoints as a higher dimension can enable more information. This thesis aims to explore the speech enhancement field of study from a deep learning perspective and focus on the three mentioned architectures in theory dissection and results from new datasets. There is also an implementation of the Wiener filter as a benchmark. We arrive at the conclusion that all three networks are viable in the task of enhancing speech, however SEGAN performed better on our dataset and was more robust to new data in comparison. For future work one could improve the evaluation methods, change datasets and implement hyperparameter optimization for further comparative analysis. Klarhet och förståelse är viktiga aspekter av tal, särskilt i en tid då falsk information och misstrogenhet är vanligt. Genombrottet för generativa modeller inom ljud har medfört stora förbättringar inom talsignalförbättring. Googles WaveNet-arkitektur har modifierats för brusreducering i en modell som kallas för WaveNet-denoising vilket har visat goda resultat. En annan konkurrent på marknaden är den generella adversariella nätverket för talsignalförbättring (SEGAN) som anpassar GAN-arkitekturen till tillämpningar på tal. Medan de flesta äldre modeller fokuserar på särdragsextraktion och spektrogramanalys, så försöker de två nya modellerna med att ignorera dessa koncept och vara end-to-end istället. Medan end-to-end är bra är databehandling fortfarande en viktig aspekt som är värdefull att överväga. Ett nätverk som designats av Microsoft Research heter EHNet och använder spektrogramdata som input istället för enbart 1D-vågformer för att fånga upp fler relationer mellan datapunkter, då högre dimensioner möjliggör mer information. Detta examensarbete syftar till att utforska studieområdet inom talsignalförbättring samt utreda de tre nämnda arkitekturerna genom teoretisk undersökning och resultat på nya dataset. Det kommer också vara en implementering av Wienerfilter som riktmärke för resultaten. Vi kommer fram till slutsatsen att alla tre nätverk är möjliga alternativ inom talsignalförbättring men SEGAN är den bästa modellen när det kommer till resultat på vårt specifika dataset och med avseende på robusthet. För framtida arbeten kan man förbättra utvärderingsmetoderna, ändra datasetet och implementera hyperparameteroptimeringför ytterligare jämförande analyser. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-260351TRITA-EECS-EX ; 2019:482application/pdfinfo:eu-repo/semantics/openAccess
collection	NDLTD
language	English
format	Others
sources	NDLTD
topic	Computer and Information Sciences Data- och informationsvetenskap
spellingShingle	Computer and Information Sciences Data- och informationsvetenskap Xing Luo, Oscar Deep Learning for Speech Enhancement : A Study on WaveNet, GANs and General CNN-RNN Architectures
description	Clarity and intelligiblity are important aspects of speech, especially in a time of misinformation and mistrust. The breakthrough in generative models for audio files has brought massive improvements for speech enhancement. Google’s WaveNet architecture has been modified for noise reduction in a model called WaveNet denoising and has proven to be state-of-the-art. Another competitor on the market would be the Speech Enhancement Generative Adversarial Network (SEGAN) which adapts the GAN architecture into applications on speech. While most older models focus on feature extraction and spectrogram analysis, these two models attempt to skip those steps and become end-to-end models completely. While end-to-end is good, data preprocessing is still a valuable asset to consider. A network designed by Microsoft Research called EHNet uses the spectrogram data as input instead of the mere 1D waveforms to capture more relations between datapoints as a higher dimension can enable more information. This thesis aims to explore the speech enhancement field of study from a deep learning perspective and focus on the three mentioned architectures in theory dissection and results from new datasets. There is also an implementation of the Wiener filter as a benchmark. We arrive at the conclusion that all three networks are viable in the task of enhancing speech, however SEGAN performed better on our dataset and was more robust to new data in comparison. For future work one could improve the evaluation methods, change datasets and implement hyperparameter optimization for further comparative analysis. === Klarhet och förståelse är viktiga aspekter av tal, särskilt i en tid då falsk information och misstrogenhet är vanligt. Genombrottet för generativa modeller inom ljud har medfört stora förbättringar inom talsignalförbättring. Googles WaveNet-arkitektur har modifierats för brusreducering i en modell som kallas för WaveNet-denoising vilket har visat goda resultat. En annan konkurrent på marknaden är den generella adversariella nätverket för talsignalförbättring (SEGAN) som anpassar GAN-arkitekturen till tillämpningar på tal. Medan de flesta äldre modeller fokuserar på särdragsextraktion och spektrogramanalys, så försöker de två nya modellerna med att ignorera dessa koncept och vara end-to-end istället. Medan end-to-end är bra är databehandling fortfarande en viktig aspekt som är värdefull att överväga. Ett nätverk som designats av Microsoft Research heter EHNet och använder spektrogramdata som input istället för enbart 1D-vågformer för att fånga upp fler relationer mellan datapunkter, då högre dimensioner möjliggör mer information. Detta examensarbete syftar till att utforska studieområdet inom talsignalförbättring samt utreda de tre nämnda arkitekturerna genom teoretisk undersökning och resultat på nya dataset. Det kommer också vara en implementering av Wienerfilter som riktmärke för resultaten. Vi kommer fram till slutsatsen att alla tre nätverk är möjliga alternativ inom talsignalförbättring men SEGAN är den bästa modellen när det kommer till resultat på vårt specifika dataset och med avseende på robusthet. För framtida arbeten kan man förbättra utvärderingsmetoderna, ändra datasetet och implementera hyperparameteroptimeringför ytterligare jämförande analyser.
author	Xing Luo, Oscar
author_facet	Xing Luo, Oscar
author_sort	Xing Luo, Oscar
title	Deep Learning for Speech Enhancement : A Study on WaveNet, GANs and General CNN-RNN Architectures
title_short	Deep Learning for Speech Enhancement : A Study on WaveNet, GANs and General CNN-RNN Architectures
title_full	Deep Learning for Speech Enhancement : A Study on WaveNet, GANs and General CNN-RNN Architectures
title_fullStr	Deep Learning for Speech Enhancement : A Study on WaveNet, GANs and General CNN-RNN Architectures
title_full_unstemmed	Deep Learning for Speech Enhancement : A Study on WaveNet, GANs and General CNN-RNN Architectures
title_sort	deep learning for speech enhancement : a study on wavenet, gans and general cnn-rnn architectures
publisher	KTH, Skolan för elektroteknik och datavetenskap (EECS)
publishDate	2019
url	http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-260351
work_keys_str_mv	AT xingluooscar deeplearningforspeechenhancementastudyonwavenetgansandgeneralcnnrnnarchitectures AT xingluooscar djupinlarningfortalsignalforbattringenstudieomwavenetgansochgenerellcnnrnnarkitektur
_version_	1719269866273243136

Deep Learning for Speech Enhancement : A Study on WaveNet, GANs and General CNN-RNN Architectures

Similar Items