Statistical Parametric Speech Synthesis using Deep Learning Architectures

本文研究了使用深度學習(Deep Learning)技術與模型的統計參數化語音合成(Statistical Parametric Speech Synthesis)框架。當前語音合成面臨的兩個主要的挑戰在於:採用聲學實現表達語音韻律的複雜度;訓練數據的稀疏性。這兩個問題很大地影響了合成語音的自然度。本文嘗試採用深度學習結構的建模能力,提高合成語音的語音自然度。 === 為了更精確地表示韻律上下文,本文定義了層次韻律結構,用以組織音段與超音段特征。本文採用深度學習結構,運用層次化結構的音節級別表示,構建語音合成系統。 === 受深度置信網絡(Deep Belief Network, DBN)在手...

Full description

Bibliographic Details
Other Authors: Kang, Shiyin (author.)
Format: Others
Language:English
Chinese
Published: 2016
Subjects:
Online Access:http://repository.lib.cuhk.edu.hk/en/item/cuhk-1292251