文字探勘主要分為爬蟲獲取文字來源、斷詞拆解詞句、文字情緒分析等三大步驟步驟。首先,使用者可以透過「網路爬蟲」技術,爬取全台最大的電子布告欄系統-批踢踢實業坊的Stock版,以及蒐集相關電子媒體的財金新聞,作為文字來源。接下來在「斷詞」方面,可透過開源中文斷詞系統-結巴(JieBa)文本斷詞。結巴的原理是其基於 Trie Tree 結構去生成句子中中文字所有可能成詞的情況,然後使用動態規劃(Dynamic programming)算法來找出最大機率的路徑,這個路徑就是基於詞頻的最大斷詞結果,「結巴」在目前的中文斷句上都有良好的表現。接著,藉由內容分析法衡量文字資訊所隱含之悲觀或樂觀情緒,而內容分析法多根據情緒辭典衡量,因此良好之情緒詞典實為文字資訊分析最之根本。使用者可利用開源之「財金情緒辭庫」當作情緒詞典,利用現有的財金情緒字典進行自動化修正與擴充,衡量文字所隱含之樂(悲)觀情緒,達到更好的輿情分析。
最後計算情緒字詞比例公式如下所示:
情緒字詞正(負)面比例 =詞庫正(負)面字/文章總字數
本文內容參考自2017年證交所計畫- 台灣證券市場情緒指標
若喜歡本文,請關注我們的臉書 Please Like our Facebook Page: Big Data In Finance
留下你的回應
以訪客張貼回應