適用於中文史料文本之作者語言模型分析方法研究

因應近年來數位典藏的趨勢日漸發展,越來越多珍貴中文歷史文本 選擇進行數保存,而保存的同時會面對文本的作者遺失或從缺,進而 影響文本的完整性,而本論文提出了一個適用於中文史料文本作者分 析的方法,主要是透過語言模型的建構,為每一位潛在的作者訓練出 一個專屬的語言模型,而搭配不同的平滑方法能避免掉某一受測文本 單詞出現的機率為零的機率進而造成計算上的錯誤,而本論文主要採 用改良式 Kneser–Ney 平滑方法,該平滑方法因其會同時考慮到 N 詞彙 語言模型的高低頻詞的影響,而使其成為建構語言模型普遍選擇的平 滑方式。 若僅將每一位潛在作者的所有文章進行合併訓練成單一的語言模型 會忽略掉許多特性,...

Full description

Bibliographic Details
Main Authors: 梁韶中, Liang, Shao Zhong
Language:中文
Published: 國立政治大學
Subjects:
Online Access:http://thesis.lib.nccu.edu.tw/cgi-bin/cdrfb3/gsweb.cgi?o=dstdcdr&i=sid=%22G0103753014%22.