文字探勘是涉及了統計學、機器學習、自然語言處理等不同領域的新學科,可以應用在輿情分析、文本的分類、聲量分析等,Arman Khadjeh等人提出一套利用文字探勘預測市場的框架,第一步是透過蒐集不同來源的結構性資料進行研究,第二步則是進行資料的前處理,如:降維、資料正規化等,最後一步則是透過不同的機器學習演算法預測金融市場。
近年來,也越來越多學者將文字探勘運用在財務領域,如:Bijalwan(2014)首度使用KNN演算法完成新聞元件的TC(text categorization)自動分類文件,且相對其他演算法準確率較高; Shirata and Sakagami (2009) Cindy Yoshiko Shirata Hironori Takeuchi Shiho Ogino Hideo Watanabe(2011)則透過提取財務報表的關鍵字分類破產公司與非破產公司; Mine Ertugrul, Jin Lei,Jiaping Qiu, and Chi Wan(2017)分析年報的可讀度、曖昧字詞的多寡,發現會增加借貸成本以及Crash發生的機會,原因來自可讀度低以及不確定字詞越多時表示存在著資訊風險,部分的壞消息被隱藏。
在預測金融市場方面,Nassirtoussi ,Aghabozorgi ,Wah,and Ngo(2014)提出一套利用文字探勘預測市場的框架。第一步是透過蒐集不同來源的結構性資料進行研究,如:新聞、社群媒體、金融期刊等,而相關的文獻則有: Bollen,Mao, and Zeng (2011), Sprenger et al. (2013), and Liew and Wang (2016)以tweet衡量情緒與道瓊指數與個股報酬間的關係; Chester Curme,Tobias Preis,H. Eugene Stanley(2014)則透過LDA技術將Google Search分類後建構策略發現,當人們關注總經議題時表示對未來的信心下降使得報酬減少; Steven L. Heston and Nitish R. Sinha(2017)透過Sentiment Engine將新聞文章分類(正面/負面/中立)並且建構交易策略,發現周頻的情緒較有預測力; Shubhkirti Sinha則透過新聞輿情建構交易策略的方法,並分成Profitable Return(小公司比中、大公司更容易反應情緒、Hard News則是已經發生的事實,此者會強力影響股價)和Probable Pitfall(雙重負面新聞)作探討。
第二步則是進行資料的前處理,如:降維、資料正規化等,最後一步則是透過不同的機器學習演算法,如:鍾任明、李維平、吳澤民以新聞元件搭配Tick Data結合倒傳遞類神經網路進行趨勢預測,以及不同的目標變數進行預測及優化,除了上述文獻針對報酬率的預測外,亦有對股市危機等金融現象所進行之預測,如:Asaf Manela Alan Moreira利用front-page articles of the Wall Street Journal搭配機器學習分配權重得到NVIX指標,且此指標能夠預測重大的災難事件,而此預測能力來自投資人對災害的關注。
本文內容參考自2017年科技部計畫- 大數據、文字探勘與網絡分析之情緒指標機器學習與資料視覺化平台
若喜歡本文,請關注我們的臉書 Please Like our Facebook Page: Big Data In Finance
留下你的回應
以訪客張貼回應