本文重點:
1. 新聞與批踢踢論壇文章正負面字詞比例,與市場變數關係不一,推測市場存在意見分歧的現象。
2. 在VaR 方面,不論新聞或批踢踢,負面詞彙比例皆與VaR 負相關,使得最大可能損失增加。
3. 在波動度方面,批踢踢正負面字詞比例及新聞負面字詞比例與波動度正相關,增加市場不穩定性,而新聞正面字詞比例則負相關,推測市場為多頭狀態,波動度較小。
4. 整體而言負面詞比例對任何解釋變數相關性皆比正面詞大,可能顯示正負面字詞情緒對市場狀況存在著不對稱的影響力,符合行為財務中展望理論所述損失厭惡性。
隨著網路科技的日新月異,虛擬世界已讓人類的生活變得更加便利,而人們的生活重心也跟著從真實世界中快步邁進網路世界內,網路世界裡充斥著各式人類生活的足跡,與資訊。在這樣網路資訊爆炸發展的時代下,爬蟲與文字探勘已成為各行各業不可或缺的技術。將文字探勘的技術運用在金融市場中,我們可以運用電腦程式幫助我們擷取網路中的大量新聞,捕捉大眾對於市場的各種評論與意見,進而判斷投資人大眾對與市場的看法走向與趨勢。然而實務中,文字探勘真的能捕捉情緒嗎?
在本文中,我們蒐集了批踢踢實業-Stock 版,從2008/1/18 至 2017/3/21 日共69890 篇文章,以及各大報社財金相關新聞,從2000/2/13 至 2016/6/29 日共131,741 篇新聞,首先以結巴套件進行中文斷詞,再以謝委霖財金相關辭庫計算每篇文章的情緒字詞比例,以利輿情探勘。以下則為我們對與文字探勘的發現:
上表4-4為文字探勘中,我們針對情緒字詞比例所做出的敘述統計,透過上表我們不難看出新聞的正面字詞比例大於負面,我們推測是財經記者在撰寫新聞時傾向使用正面詞彙增加投資人信心,也就是說,財經新聞的內容普遍存在過度樂觀的現象。而我們再比照Ptt 投資論壇(論壇較能體現市場一般大眾的心聲),情緒字詞佔文章比例反而無太大差異,我們更加能肯定財經新聞傾向過於樂觀的結論。
為了更深入研究文字探勘結果與市場現象之間的關聯性我們做出了情緒字詞比例與市場變數的銅期相關係數表。首先,由表我們可看出無論是新聞還是Ptt 文章情緒字詞的文字探勘結果,都與市場報酬無顯著關係。我們近一步推敲文字探勘結果與投資人風險之間的關聯性,觀察新聞與Ptt 文章情緒字詞比例:在VaR(Value at Risk : 在市場正常波動下,某一金融資產或證券組合所面臨的最大可能損失)方面,發現負面字詞增加會使得報酬下降且損失提高;而在波動度與文字探勘結果方面,當正面字詞增加表示市場看多,使得波動度下降,反之當市場看空時則使得波動度增加,增加市場的不確定性。在Ptt 論壇方面,負面詞比率與大盤報酬VaR 顯著負相關,這表示當市場看空時會造成報酬下降且損失提高,在非流動性指標(Amihud)及未預期波動度部分,與負面詞比率顯著正相關,當市場看空時,會使得市場效率下降且波動度增加,又整體而言負面詞的比例對任何應變數相關性皆比正面詞來的大,我們猜測台灣市場投資人對情緒存在著不對稱的現象,符合行為財務中展望理論所述損失厭惡性。
最後我們取出新聞正負面情緒字詞含量最大的兩天,製作成文字雲予以視覺化,解析市場情況,圖4-13 為2008/10/20 當天新聞文字雲,達到負面字詞含量最大,當時遭遇金融海嘯危機,由文字雲可以看到跌幅、減半、台股跌等負面字詞頻率增加,投資人對市場呈現恐慌狀態,又圖4-14 為2014/03/22 當天的新聞文字雲,經濟成長、升息、投資等正面字詞頻率增加,看出投資人對市場呈現樂觀狀態。
本文內容參考自2017年證交所計畫- 台灣證券市場情緒指標
若喜歡本文,請關注我們的臉書 Please Like our Facebook Page: Big Data In Finance
留下你的回應
以訪客張貼回應