Deep Learning for Speech Enhancement : A Study on WaveNet, GANs and General CNN-RNN Architectures

Clarity and intelligiblity are important aspects of speech, especially in a time of misinformation and mistrust. The breakthrough in generative models for audio files has brought massive improvements for speech enhancement. Google’s WaveNet architecture has been modified for noise reduction in a mod...

Full description

Bibliographic Details
Main Author: Xing Luo, Oscar
Format: Others
Language:English
Published: KTH, Skolan för elektroteknik och datavetenskap (EECS) 2019
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-260351
id ndltd-UPSALLA1-oai-DiVA.org-kth-260351
record_format oai_dc
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-2603512019-10-17T22:12:22ZDeep Learning for Speech Enhancement : A Study on WaveNet, GANs and General CNN-RNN ArchitecturesengDjupinlärning för talsignalförbättring : En studie om WaveNet, GANs och generell CNN-RNN-arkitekturXing Luo, OscarKTH, Skolan för elektroteknik och datavetenskap (EECS)2019Computer and Information SciencesData- och informationsvetenskapClarity and intelligiblity are important aspects of speech, especially in a time of misinformation and mistrust. The breakthrough in generative models for audio files has brought massive improvements for speech enhancement. Google’s WaveNet architecture has been modified for noise reduction in a model called WaveNet denoising and has proven to be state-of-the-art. Another competitor on the market would be the Speech Enhancement Generative Adversarial Network (SEGAN) which adapts the GAN architecture into applications on speech. While most older models focus on feature extraction and spectrogram analysis, these two models attempt to skip those steps and become end-to-end models completely. While end-to-end is good, data preprocessing is still a valuable asset to consider. A network designed by Microsoft Research called EHNet uses the spectrogram data as input instead of the mere 1D waveforms to capture more relations between datapoints as a higher dimension can enable more information. This thesis aims to explore the speech enhancement field of study from a deep learning perspective and focus on the three mentioned architectures in theory dissection and results from new datasets. There is also an implementation of the Wiener filter as a benchmark. We arrive at the conclusion that all three networks are viable in the task of enhancing speech, however SEGAN performed better on our dataset and was more robust to new data in comparison. For future work one could improve the evaluation methods, change datasets and implement hyperparameter optimization for further comparative analysis. Klarhet och förståelse är viktiga aspekter av tal, särskilt i en tid då falsk information och misstrogenhet är vanligt. Genombrottet för generativa modeller inom ljud har medfört stora förbättringar inom talsignalförbättring. Googles WaveNet-arkitektur har modifierats för brusreducering i en modell som kallas för WaveNet-denoising vilket har visat goda resultat. En annan konkurrent på marknaden är den generella adversariella nätverket för talsignalförbättring (SEGAN) som anpassar GAN-arkitekturen till tillämpningar på tal. Medan de flesta äldre modeller fokuserar på särdragsextraktion och spektrogramanalys, så försöker de två nya modellerna med att ignorera dessa koncept och vara end-to-end istället. Medan end-to-end är bra är databehandling fortfarande en viktig aspekt som är värdefull att överväga. Ett nätverk som designats av Microsoft Research heter EHNet och använder spektrogramdata som input istället för enbart 1D-vågformer för att fånga upp fler relationer mellan datapunkter, då högre dimensioner möjliggör mer information. Detta examensarbete syftar till att utforska studieområdet inom talsignalförbättring samt utreda de tre nämnda arkitekturerna genom teoretisk undersökning och resultat på nya dataset. Det kommer också vara en implementering av Wienerfilter som riktmärke för resultaten. Vi kommer fram till slutsatsen att alla tre nätverk är möjliga alternativ inom talsignalförbättring men SEGAN är den bästa modellen när det kommer till resultat på vårt specifika dataset och med avseende på robusthet. För framtida arbeten kan man förbättra utvärderingsmetoderna, ändra datasetet och implementera hyperparameteroptimeringför ytterligare jämförande analyser. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-260351TRITA-EECS-EX ; 2019:482application/pdfinfo:eu-repo/semantics/openAccess
collection NDLTD
language English
format Others
sources NDLTD
topic Computer and Information Sciences
Data- och informationsvetenskap
spellingShingle Computer and Information Sciences
Data- och informationsvetenskap
Xing Luo, Oscar
Deep Learning for Speech Enhancement : A Study on WaveNet, GANs and General CNN-RNN Architectures
description Clarity and intelligiblity are important aspects of speech, especially in a time of misinformation and mistrust. The breakthrough in generative models for audio files has brought massive improvements for speech enhancement. Google’s WaveNet architecture has been modified for noise reduction in a model called WaveNet denoising and has proven to be state-of-the-art. Another competitor on the market would be the Speech Enhancement Generative Adversarial Network (SEGAN) which adapts the GAN architecture into applications on speech. While most older models focus on feature extraction and spectrogram analysis, these two models attempt to skip those steps and become end-to-end models completely. While end-to-end is good, data preprocessing is still a valuable asset to consider. A network designed by Microsoft Research called EHNet uses the spectrogram data as input instead of the mere 1D waveforms to capture more relations between datapoints as a higher dimension can enable more information. This thesis aims to explore the speech enhancement field of study from a deep learning perspective and focus on the three mentioned architectures in theory dissection and results from new datasets. There is also an implementation of the Wiener filter as a benchmark. We arrive at the conclusion that all three networks are viable in the task of enhancing speech, however SEGAN performed better on our dataset and was more robust to new data in comparison. For future work one could improve the evaluation methods, change datasets and implement hyperparameter optimization for further comparative analysis. === Klarhet och förståelse är viktiga aspekter av tal, särskilt i en tid då falsk information och misstrogenhet är vanligt. Genombrottet för generativa modeller inom ljud har medfört stora förbättringar inom talsignalförbättring. Googles WaveNet-arkitektur har modifierats för brusreducering i en modell som kallas för WaveNet-denoising vilket har visat goda resultat. En annan konkurrent på marknaden är den generella adversariella nätverket för talsignalförbättring (SEGAN) som anpassar GAN-arkitekturen till tillämpningar på tal. Medan de flesta äldre modeller fokuserar på särdragsextraktion och spektrogramanalys, så försöker de två nya modellerna med att ignorera dessa koncept och vara end-to-end istället. Medan end-to-end är bra är databehandling fortfarande en viktig aspekt som är värdefull att överväga. Ett nätverk som designats av Microsoft Research heter EHNet och använder spektrogramdata som input istället för enbart 1D-vågformer för att fånga upp fler relationer mellan datapunkter, då högre dimensioner möjliggör mer information. Detta examensarbete syftar till att utforska studieområdet inom talsignalförbättring samt utreda de tre nämnda arkitekturerna genom teoretisk undersökning och resultat på nya dataset. Det kommer också vara en implementering av Wienerfilter som riktmärke för resultaten. Vi kommer fram till slutsatsen att alla tre nätverk är möjliga alternativ inom talsignalförbättring men SEGAN är den bästa modellen när det kommer till resultat på vårt specifika dataset och med avseende på robusthet. För framtida arbeten kan man förbättra utvärderingsmetoderna, ändra datasetet och implementera hyperparameteroptimeringför ytterligare jämförande analyser.
author Xing Luo, Oscar
author_facet Xing Luo, Oscar
author_sort Xing Luo, Oscar
title Deep Learning for Speech Enhancement : A Study on WaveNet, GANs and General CNN-RNN Architectures
title_short Deep Learning for Speech Enhancement : A Study on WaveNet, GANs and General CNN-RNN Architectures
title_full Deep Learning for Speech Enhancement : A Study on WaveNet, GANs and General CNN-RNN Architectures
title_fullStr Deep Learning for Speech Enhancement : A Study on WaveNet, GANs and General CNN-RNN Architectures
title_full_unstemmed Deep Learning for Speech Enhancement : A Study on WaveNet, GANs and General CNN-RNN Architectures
title_sort deep learning for speech enhancement : a study on wavenet, gans and general cnn-rnn architectures
publisher KTH, Skolan för elektroteknik och datavetenskap (EECS)
publishDate 2019
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-260351
work_keys_str_mv AT xingluooscar deeplearningforspeechenhancementastudyonwavenetgansandgeneralcnnrnnarchitectures
AT xingluooscar djupinlarningfortalsignalforbattringenstudieomwavenetgansochgenerellcnnrnnarkitektur
_version_ 1719269866273243136