文字探勘於財金應用之三大步驟教學

文字探勘主要分為爬蟲獲取文字來源、斷詞拆解詞句、文字情緒分析等三大步驟步驟。首先，使用者可以透過「網路爬蟲」技術，爬取全台最大的電子布告欄系統-批踢踢實業坊的Stock版，以及蒐集相關電子媒體的財金新聞，作為文字來源。接下來在「斷詞」方面，可透過開源中文斷詞系統-結巴(JieBa)文本斷詞。結巴的原理是其基於 Trie Tree 結構去生成句子中中文字所有可能成詞的情況，然後使用動態規劃（Dynamic programming）算法來找出最大機率的路徑，這個路徑就是基於詞頻的最大斷詞結果，「結巴」在目前的中文斷句上都有良好的表現。接著，藉由內容分析法衡量文字資訊所隱含之悲觀或樂觀情緒，而內容分析法多根據情緒辭典衡量，因此良好之情緒詞典實為文字資訊分析最之根本。使用者可利用開源之「財金情緒辭庫」當作情緒詞典，利用現有的財金情緒字典進行自動化修正與擴充，衡量文字所隱含之樂（悲）觀情緒，達到更好的輿情分析。

最後計算情緒字詞比例公式如下所示:

情緒字詞正(負)面比例 =詞庫正(負)面字/文章總字數

本文內容參考自2017年證交所計畫- 台灣證券市場情緒指標

若喜歡本文，請關注我們的臉書 Please Like our Facebook Page： Big Data In Finance

WORK

文字探勘於財金應用之三大步驟教學

留下你的回應

以訪客張貼回應

回應

釘選列表

喜愛列表

Web Services

YOU MAY BE INTERESTED

	今日	928
	昨日	1697
	本週	5432
	本月	49184
	總訪客量	2795218