以詞性組合為基礎之中文語言特徵研究
在作者歸屬的研究中,語言特徵的選擇一直是很重要的一環,因為會反映到整個預測結果表現。大多數常用的語言特徵雖然在分類上表現優異,像是高頻詞彙、n-grams、及標點符號等,但這些語言特徵內的詞組卻無法解釋分類間的因果關係及相互差異。為了解決這問題,本論文提出詞性組合、否定程度組合及情態詞組合共3種具有語言學意義的語言特徵作為輔助驗證,並以雷震這位作者的文本為基準,探討在「同主題不同作者」及「同作者不同主題」兩個研究方向上是否適用。本論文將會使用隨機森林演算法建立分類模型,使用OOB錯誤率評估分類模型分類表現,並透過重要特徵數值找出各詞組作為決策點的權重。最後希望能從分類規則中,找出不同作者以及不...
Main Authors: | , |
---|---|
Language: | 中文 |
Published: |
國立政治大學
|
Subjects: | |
Online Access: | http://thesis.lib.nccu.edu.tw/cgi-bin/cdrfb3/gsweb.cgi?o=dstdcdr&i=sid=%22G0104753018%22. |