摘要: 一、互聯網讓大數據就在身邊互聯網作為改變人類歷史的產物,近年來得到了飛速的發展,隨著互聯網的日益普及,其正在逐漸改變人們的生活習慣。商場的購物份額正在被足不出戶的網絡購物所侵蝕;新聞媒介受到鋪天蓋...
一、互聯網讓大數據就在身邊
互聯網作為改變人類歷史的產物,近年來得到了飛速的發展,隨著互聯網的日益普及,其正在逐漸改變人們的生活習慣。商場的購物份額正在被足不出戶的網絡購物所侵蝕;新聞媒介受到鋪天蓋地的網絡資訊衝擊,紙媒生存空間日益狹隘;人與人之間的聯繫不再局限於寫信、電話,微博、網絡電話等互聯網工具日新月異;旅行社的預定功能難以抗衡網絡預定賓館、機票的透明度;就醫、就餐無需再早早敢去排隊,網絡預約極大的提高了便利性;更為典型的是,具備搜索功能的互聯網, 正在逐步替代字典、地圖乃至百科全書等一系列具備查詢功能的產品。
互聯網的滲透不僅僅體現在上述方面,從使用群體數量而言同樣極為驚人。根據中國互聯網絡信息中心(CNNIC)今年7月份發布的第34次《中國互聯網絡發展狀況統計報告》顯示,截至2014年6月,中國網民規模達6.32億,較2013年底增加1442萬人,其中,手機網民規模5.27億,互聯網普及率達到46.9%。相比歐美髮達國家,互聯網起步較晚的中國的網絡覆蓋率就已經如此驚人,可想而知全球互聯網使用者群體之龐大。在使用互聯網的過程中,使用者會接觸到文本、音頻、視頻、圖片、位置等各類信息,而這所有的信息均可以歸納為“數據”。互聯網使用如此之頻繁以至於這些數據如此之大,根據馬欣《互聯網與大數據發展研究》中的數據顯示:2009年,僅美國政府產生的數據就達到848PB(1PB=1000TB);2009年,美國醫療數據為150EB(1EB=1000PB);2012年,全球產生的數據量為1.8ZB(1ZB=1024EB);2013年,Gartner統計,全球互聯網企業在數據中心建設方面的支出為1500億美元;2017年,據Cisco預測,全球數據流量將達到7.7ZB;2020年,IDC預測全球數據量將達到35ZB。人們為互聯網龐大的數據量起了個形象的稱謂——“大數據”。
麥肯錫在2011年對大數據概念進行了明確的定義——大數據是值大小超出了典型數據庫軟件的採集、儲存、管理和分析等能力的數據集。同時麥肯錫在《大數據:創造、生產力和競爭的下一個前沿》中指出,大數據可以通過多種方式創造價值,包括:
1、創建透明度,讓利益相關方更容易獲得及時信息,創造更大價值。
2、發現需求,通過交易數據對比得到更好的決策。
3、細分客戶人群,從而精確定制服務和產品滿足需求。
4、通過自動化算法替換人為決策。
5、創新商業模式、產品和服務。
事實上,正如麥肯錫所言的大數據可以創造價值,越來越多的行業也意識到這一點,並逐漸開始應用大數據創造價值,金融行業即是其中之一。
二、大數據與金融的碰撞
關鍵詞搜索量分析
從21世紀以來,學術界中湧現出了一批關於大數據與金融之間聯繫的研究成果。 2010年,美國印第安納大學的一項研究成果表明從Twitter信息中表現出來的情緒指數與道瓊斯工業指數的走勢之間具有很強的相關性。研究表明,Twitter中表現出來的情緒和道指接下來幾天的上漲或者下跌的相關性達到了87%。隨後在2011年,作者將研究的範圍擴展到了新聞調查、Twitter訂閱以及GOOGLE搜索引擎數據,通過情緒追踪技術,比較這些指標對道瓊斯工業指數價格、交易量、市場波動率(VIX)還有黃金價格的影響。同時,作者還使用了傳統的記錄投資者情緒的數據,與上述的互聯網上的大數據進行比較, 看它們對金融市場的影響。結果表明,傳統的關於投資者情緒的調查數據是金融市場的滯後指標,也即是說,利用傳統的投資者情緒指標無法預測股票市場的漲跌變化。然而,每週的GOOGLE金融搜索數據則能夠預測股票市場的變化,用Twitter投資者情緒指標預測一到兩天后的股市收益率的結論也是統計上顯著的。這就說明,利用網絡大數據來預測股市的變化是可行的。此外,美國佩斯大學在2011年的研究成果表明,社交媒體可以預測出三大國際知名品牌股票價格的漲跌,包括星巴克、可口可樂和耐克。
這 裡我們詳細介紹一下,美國印第安納大學Huina Mao和Johan Bollen與微軟研究員Scott Counts在2011年發表的學術論文Predicting Financial Markets: Comparing Survey, News, Twitter and Search Engine Data的主要內容。傳統的有效市場假設理論(EMH)認為由於理性投資者的利潤最大化需求,金融市場中資產的價值已經包含了一切存在的、新的甚至是隱藏的信息。然而,行為金融學的理論對這個觀點產生了質疑,它更重視行為和情緒因素以及社會情緒在金融決策中的作用。因此,如何合理而有效的衡量投資者情緒和社會情緒指標成為了金融預測中最重要的一環。傳統上習慣通過問卷調查來衡量投資者的情緒指標,不過這種做法有諸多弊端。近年來,研究人員基於大規模網絡數據開發了一系列的計算投資者情緒指標的方法,這些方法相比傳統的問卷調查更快速、更精確、成本更低。研究者所使用的大規模網絡數據主要包括了三種類型的數據:新聞媒體數據、網絡搜索數據和社交媒介簡訊,其中,社交媒介簡訊又主要包括Facebook、Twitter、LiveJournal等數據源。這些數據被證明能夠有效地預測股市中的波動。作者收集了各種多維的數據來源,同時定義了一些情緒指標,比如投資者調查情緒指標、負面新聞情緒指標、谷歌搜索量指標等,並且研究這些情緒指標對一些金融指標的預測能力,比如道瓊斯工業指數價格、交易量、市場波動率(VIX)和黃金價格等。
在整個收集數據以及製作情緒指標的過程中,作者運用了一些量化的手法。比如說,在利用Twitter數據計算指標Twitter投資者情緒時,如果一條Twitter中包含了“牛市”這個詞,那麼就認為這條Twitter是看多的;反之,如果Twitter中包含了“熊市”,就認為該Twitter是看空的。統計出一天內看多和看空的Twitter的數量,再基於此定義投資者情緒得分,即投資者情緒指標為:
此 外,作者還定義了兩個搜索量指標Tweet Volumes of Financial Search Terms (TV-FST)和Google search volumes (GIS),分別代表了基於tweet的股票討論的數量以及基於GOOGLE的26個關鍵詞的搜索量。作者將這兩個指標進行比較,發現二者的走勢是比較接近的。
圖1TV-FST和GIS指標走勢圖
資料來源:Predicting Financial Markets: Comparing Survey, News, Twitter and Search Engine Data
在接下來的篇幅中,作者著重驗證了上述各種情緒指標對金融指標變化預測的有效性。下圖展示了GIS與各個金融指標之間的變化情況,我們發現GIS與VIX之間的相關係數為0.88,GIS與黃金價格的相關係數為0.70,同時,GIS與道瓊斯工業指數的收盤價呈現出了很高的負相關性,為-0.77。事實上,VIX是衡量股市風險的常用工具,通常被稱作“投資者恐慌指標”,那麼,GIS與VIX呈現出很高的正相關性的結論,恰好說明了一個金融術語在網絡上被查詢的越多,就越說明投資者對其的恐慌情緒的程度。隨後,經過格蘭傑因果檢驗,作者證明了GIS對金融指標確實有預測能力。
圖2 GIS與各個金融指標之間的走勢變化
資料來源:Predicting Financial Markets: Comparing Survey, News, Twitter and Search Engine Data
下圖是作者把四種情緒指標,分別是從Twitter中提取出來的兩種指標TIS(Twitter投資者情緒指標)和TV-FST(Tweet中金融術語搜索量),從新聞頭條中提出出來的指標NNS(新聞負面情緒指標)以及從問卷調查中提取出來的指標DSI(每日情緒指標)與道指的收盤價走勢進行比較。我們發現TIS與道指收益率正相關,與VIX負相關;DSI與道指收盤價和收益率正相關,與交易量和VIX負相關。由於VIX代表市場風險,因此VIX與TIS和DSI負相關說明這兩種情緒指標是衡量正面情緒的指標。而與此同時,由於VIX與NNS以及TV-FST呈現出正相關性,就說明後兩者是衡量負面情緒的指標。經過格蘭傑因果檢驗,發現從兩個Twitter情緒指標TIS和TV-FST以及新聞情緒指標NNS是能夠預測道指收益率的,而問卷調查情緒指標DSI不具備預測的能力。
圖3 TIS、TV-FST、NNS和DSI指標與DJIA收盤價的走勢
資料來源:Predicting Financial Markets: Comparing Survey, News, Twitter and Search Engine Data
文本語義分析
除了從搜索量的角度研究大數據與金融的關係以外,從文本語義分析的角度進行研究也非常熱門。在2014年牛津大學期刊發表的一篇文章中,作者發現通過分析投資者在網絡發帖和評論中表現出來的觀點也能夠有效地預測未來股市的收益。作者使用的原始數據來自於投資者在美國最大的投資社交網站Seeking Alpha發表的文章和評論以及道瓊斯新聞服務網站DJNS上的新聞報導和評論,在經過一系列的文本識別方法和算法對內容進行辨識和分析後,定義報導或評論的負面率為文章中負面詞彙的個數佔總字數的比例,代表其對於股票的多空態度。下面圖4-7是在Seeking Alpha網站上針對的GOOGLE的幾篇正面和負面的新聞報導和評論,其中圖4是關於GOOGLE的負面報導,報導篇幅總字數為494個,其中負面詞彙字數為12個,報導的負面率為2.43%;圖5是關於GOOGLE的正面報導,篇幅總字數為447個,其中負面詞彙字數為0,報導的負面率為0%。圖6是關於GOOGLE的兩條負面評論,負面率分別為2.4%和5.23%;圖7是關於GOOGLE的兩條正面評論,負面率分別為1.26%和0.58%。
圖4 一篇關於GOOGLE的負面報導
資料來源:Wisdom of Crowds: The Value of Stock Opinions Transmitted Through Social Media, Seeking Alpha
圖5 一篇關於GOOGLE的正面報導
資料來源:Wisdomof Crowds: The Value of Stock Opinions Transmitted Through Social Media,Seeking Alpha
圖6 兩條關於GOOGLE的負面評論
資料來源:Wisdom of Crowds: The Value of Stock Opinions Transmitted Through Social Media, Seeking Alpha
圖7 兩條關於GOOGLE的正面評論
資料來源:Wisdomof Crowds: The Value of Stock Opinions Transmitted Through Social Media,Seeking Alpha
在模型方面,作者提出瞭如下的回歸模型研究報導和評論的負面率與股票超額收益之間的關係:
圖8 研究Seeking Alpha中新聞報導和評論中的負面率與股票超額收益之間的關係
資料來源:Predicting Financial Markets: Comparing Survey, News, Twitter and Search Engine Data
從結論中可以看出,當SA上關於某隻股票的報導的負面率增加1%時,這隻股票的而未來預期收益率就會降低0.32%;同時,當SA上關於某隻股票的評論的負面率增加1%時,這隻股票的未來預期收益率就會降低0.196%。這也就印證了SA上的新聞報導和評論對股票未來的價格是有預測能力的。基於這個結論,作者提出了四個交易策略。圖9是四個交易策略從2006年到2012年之間的累計淨值表現,可以看出基於互聯網情緒指標構建的交易策略的淨值表現很好。
圖9 四類多空交易策略淨值表現(2006-2012)
資料來源:Predicting Financial Markets: Comparing Survey, News, Twitter and Search Engine Data
三、大數據金融應用的翹楚——CAYMAN ATLANTIC公司
美國市場大量有關金融和大數據成功結合的案例鼓舞了投資管理人,那麼理論上有效的東西在實際運作中能否產生利潤呢?勇於嘗試新鮮事物的美國投資管理人決定將其應用到實際中來檢測效果,並基於此開發了相應的產品。作為最火的社交網絡,Twitter擁有眾多互聯網使用群體的信息,因而其被大量的投資管理人視為大數據的最佳來源,並依此開發了相應的對沖產品, CAYMAN ATLANTIC公司就是其中的翹楚之一。
CAYMAN ATLANTIC公司是一家專門基於互聯網數據和Twitter等媒體數據進行投資的資產管理公司。事實上,創始人Paul Hawtin在2009年創立了Derwent Capital Market公司。這家公司通過分析社會媒體信息中的情緒信息來交易金融衍生品,曾近發行了第一隻“Twitter基金”——Derwent Absolute Return Fund並且取得了正收益,不過三年後Paul就把整個公司賣給了Peanuts。隨後他就成立了CAYMAN ATLANTIC公司並發行了一隻利用Twitter信號、大數據等新聞媒體信息進行交易的對沖基金。
CAYMAN ATLANTIC的投資理念認為,我們現在正處在一個被大數據包圍的環境當中。根據他們的統計數據,直到2014年4月份,全球有90%的數據都是在最近兩年內被創造出來的。因此,CAYMAN ATLANTIC採用了一些非常複雜的信息處理技術,通過對真實並且實時的數據進行分析從而發現市場中的趨勢、事件和情緒。基於這些非常有價值的內在信息,CAYMAN ATLANTIC針對主要是歐洲和美國的證券交易所中的許多金融資產都設計了交易策略,包括股票、大宗商品等,目標直指長期投資的絕對收益。
在CAYMAN ATLANTIC的大數據交易模型中,原始信息主要包括了谷歌、Twitter和Facebook等多維、實時的信息來源。 CAYMAN ATLANTIC提出了一種具備彈性計算技術的低延時、多層搜索過濾系統,通過關鍵字過濾器、微博影響力過濾器、多人轉發監測器以及來源真實性監測器等模塊的處理後,最終將其轉化為指向多空的交易信號。比如說,有人發了一條新微博“油罐車爆炸了”,那麼關鍵字過濾器會得到三個關鍵字“爆炸”、“油罐車”和“油”。隨後,微博影響力過濾器會監測這個微博的作者的粉絲是否大於1000人從而判斷這條信息的影響力的大小。同時,多人轉發監測器會來確認是否有別人也發布了同樣的信息。最後,系統會確認信息來源的真實性。經過系統的層層處理以後,每一條實時文字信息就轉換成了可以被量化處理的信息。交易員就會根據這樣的信息尋找交易機會,做多或做空相關標的。
CAYMAN ATLANTIC在其官網上披露了旗下對沖基金的歷史收益數據。從2012年7月該基金成立至2014年6月,基金的累計收益率達到了48.36%,年化收益率為21.8%。在24個月中,有20個月獲得了正收益,平均每次盈利為2.03%;只有4個月的收益為負,平均每次虧損為-0.14%,基金的月勝率達到了83.3%。基金從2012年12月至2013年2月曾經出現連續3個月虧損,不過這輪連續虧損僅讓基金的淨值下降了-0.21%。從風險指標的角度來看,基金在兩年中的收益率的標準差為1.68%,最大回撤出現在2014年5月,僅為-0.33%。分年度來看,2012年後半年基金的累計收益率為3.56%,2013年全年的累計收益為26.32%,而2014年上半年為13.42%。可以說這只基金在非常低的風險下,創造了相當高的收益。
圖10 CAYMAN ATLANTIC對沖產品業績表現(2012.7- 2014.6)
資料來源:海通金融產品研究中心
四、大數據走入中國——新浪南方合作“財經大數據策略”指數
無論從理論上還是實際投資上,大數據對於金融投資的指導意義都獲得了令人稱嘆的效果。事實上,這種現象的存在並非無花之果,因為從某種角度而言,市場的走勢是由投資者情緒驅動的,針對同一件事情,樂觀的投資者情緒可以將其解釋為利多,反之悲觀的情緒也可以從負面解讀,而投資者的搜索以及發表的言論正是其情緒的反應,基於此搜索的大數據,只要過濾掉擾動,就能真實反應投資者對於市場的真實情緒,從而對於後市投資具備指導意義。中國近年來的金融發展日新月異,海外成功的金融產品創新的舶來也日益增多,如今海外大數據與金融完美結合的案例也鞭笞著國內管理人本土化的實踐,作為互聯網覆蓋率已經極高的今天,在我國開發相應的產品具備了肥沃的土壤,且國內投資者相比海外更為顯著的羊群效應也為大數據策略提供了更好的應用基礎。本次南方基金聯合新浪網就瞄準了這一創新品種,將其進行了本土化實驗。
南方基金作為國內最早一批基金公司,一直以其穩健的投資理念以及跟隨時代的創新精神吸引著大量投資者,穩健而良好的業績以及符合投資者需求的產品使得公司的規模一直位居中國基金公司第一梯隊,而新浪財經作為國內領先的財經數據平台,其股票頻道、財經新聞、股吧論壇、尤其是新浪微博相關財經賬號,對上市公司有著更及時全面的資訊覆蓋、其財經數據的互動信息來自專業的投資者,較普通的互聯網媒體有著更具有價值的信息。其體現的市場情緒變化涵蓋了宏觀經濟、行業動向、個股關注、財經新聞報導曝光度、股票論壇用戶參與度,全方位的展現了投資者與股票間的互動情況,隱含了海量的投資輔助信息。兩者本次的強強碰撞,希望在互聯網基金創新上邁入新紀元。
南方基金通過對新浪在財經領域的“大數據”定性與定量分析,找出股票熱度預期、成長預期、估值提升預期與股價表現的同步關係,構建策略因子,精選出具有超額收益預期的股票,構建、編制並發布南方-新浪財經大數據策略指數。從歷史業績來看,在波動率增大的情況下,南方-新浪財經大數據策略指數大幅跑贏同期的滬深300以及中證500等基準指數,並且相對的優勢一直在穩定的不斷增大,每年都有相對明顯的超額收益。作為一個投資標的,指數的業績固然是其吸引投資者的重要來源,但其市場容量同樣重要,如果一隻指數的規模過小,那麼投資者的申贖行為將會對組合業績造成極大的衝擊,南方-新浪財經大數據策略指數在編制過程中也考慮了市場容量,最新一期南方—新浪財經大數據策略指數的流通市值超過1萬億,和目前的主流寬基指數容量處於同一數量級,有很好的流動性保證。基於這樣一個策略指數,南方希望將其產品落地化,在不遠的將來將針對該指數開發相應的指數產品,我們拭目以待國內首只互聯網與金融碰撞出火花的產品能早日橫空出世。
資料來源:煉數成金
留下你的回應
以訪客張貼回應