文字探勘以及機器學習於金融市場之應用

文字探勘是涉及了統計學、機器學習、自然語言處理等不同領域的新學科，可以應用在輿情分析、文本的分類、聲量分析等，Arman Khadjeh等人提出一套利用文字探勘預測市場的框架，第一步是透過蒐集不同來源的結構性資料進行研究，第二步則是進行資料的前處理，如:降維、資料正規化等，最後一步則是透過不同的機器學習演算法預測金融市場。

近年來，也越來越多學者將文字探勘運用在財務領域，如:Bijalwan(2014)首度使用KNN演算法完成新聞元件的TC(text categorization)自動分類文件，且相對其他演算法準確率較高; Shirata and Sakagami (2009) Cindy Yoshiko Shirata Hironori Takeuchi Shiho Ogino Hideo Watanabe(2011)則透過提取財務報表的關鍵字分類破產公司與非破產公司; Mine Ertugrul, Jin Lei,Jiaping Qiu, and Chi Wan(2017)分析年報的可讀度、曖昧字詞的多寡，發現會增加借貸成本以及Crash發生的機會，原因來自可讀度低以及不確定字詞越多時表示存在著資訊風險，部分的壞消息被隱藏。

在預測金融市場方面，Nassirtoussi ,Aghabozorgi ,Wah,and Ngo(2014)提出一套利用文字探勘預測市場的框架。第一步是透過蒐集不同來源的結構性資料進行研究，如:新聞、社群媒體、金融期刊等，而相關的文獻則有: Bollen,Mao, and Zeng (2011), Sprenger et al. (2013), and Liew and Wang (2016)以tweet衡量情緒與道瓊指數與個股報酬間的關係; Chester Curme,Tobias Preis,H. Eugene Stanley(2014)則透過LDA技術將Google Search分類後建構策略發現，當人們關注總經議題時表示對未來的信心下降使得報酬減少; Steven L. Heston and Nitish R. Sinha(2017)透過Sentiment Engine將新聞文章分類(正面/負面/中立)並且建構交易策略，發現周頻的情緒較有預測力; Shubhkirti Sinha則透過新聞輿情建構交易策略的方法，並分成Profitable Return(小公司比中、大公司更容易反應情緒、Hard News則是已經發生的事實，此者會強力影響股價)和Probable Pitfall(雙重負面新聞)作探討。

第二步則是進行資料的前處理，如:降維、資料正規化等，最後一步則是透過不同的機器學習演算法，如:鍾任明、李維平、吳澤民以新聞元件搭配Tick Data結合倒傳遞類神經網路進行趨勢預測，以及不同的目標變數進行預測及優化，除了上述文獻針對報酬率的預測外，亦有對股市危機等金融現象所進行之預測，如:Asaf Manela Alan Moreira利用front-page articles of the Wall Street Journal搭配機器學習分配權重得到NVIX指標，且此指標能夠預測重大的災難事件，而此預測能力來自投資人對災害的關注。

點擊觀看我們建構的個股情緒指標

本文內容參考自2017年科技部計畫- 大數據、文字探勘與網絡分析之情緒指標機器學習與資料視覺化平台

若喜歡本文，請關注我們的臉書 Please Like our Facebook Page： Big Data In Finance

Literature

文字探勘以及機器學習於金融市場之應用

留下你的回應

以訪客張貼回應

回應

釘選列表

喜愛列表

Web Services

YOU MAY BE INTERESTED

	今日	1599
	昨日	1727
	本週	7378
	本月	15721
	總訪客量	2761755