摘要: 問:機器學習(非傳統統計方法如回歸)到底在量化金融裡哪些方面有應用?機器學習和統計很難隔離,這裡排除傳統統計方法是想知道現代機器學習方法在量化金融的應用,如有困難請忽略此要求。 Weicong Liu答:嘗試回答 ...

問:機器學習(非傳統統計方法如回歸)到底在量化金融裡哪些方面有應用?
機器學習和統計很難隔離,這裡排除傳統統計方法是想知道現代機器學習方法在量化金融的應用,如有困難請忽略此要求。

Weicong Liu答:
嘗試回答一下這個問題,也算是對自己閱讀的一些論文的總結,順帶談下一點自己的思考。前一陣子被吐槽說中英夾雜,也不是為了裝逼,因為其實翻譯過來,意思反而有了偏差。

 

如果你去搜索早期的神經網絡、SVM的相關論文,會發現不少是做股票預測的。原因很簡單,因為似乎我們可以天然地把股票投資的問題看成一個分類問題或者回歸問題。回歸的角度,我們可以根據之前的歷史數據,預測下一個時間點的股價;分類的角度,我們可以根據歷史數據,預測下一個時間點股價的正負。看起機器學習的方法可以完美適用了。不過這個結論顯然是錯的,因為如果真的完美適用,那麼機器學習的大牛們怕是已經賺發了以致無心學術。


那麼,問題在哪裡?我個人的觀點,大家沒有太多關注機器學習算法能夠work的assumption。以分類問題為例,分類算法能夠work的assumption是在同一類下,樣本數據應該是iid的。而股票價格數據特點就是,股票return的correlation極低,noise多,而且不stationary。如果明白了這兩點,我們再回過頭去看這類文章的思路,就發現了問題。絕大部分文章在提取特徵方面基本沒下什麼功夫,就靠股票的return的信息來構成pattern。這樣,因為股票return的不穩定、高噪聲、低相關性,使得最終做成的pattern沒法滿足在同一類的情況下iid的條件,因此,這類方法的失敗也是必然的。如果你仔細觀察,會發現這類文章喜歡使用IBM啊MSFT啊這樣的股票做實驗,為什麼?因為這種頂級公司股票的價格比較穩定,噪聲少,相關性強。

不過,近年來已經有一些研究者開始從別的角度思考問題。傳統的機器學習方法使用的基本是是股票的日線圖和月線圖。實際的股票交易大部分是使用limit order book的,一些能夠得到數據的研究者,開始思考將機器學習的方法應用於limit order book層次的數據上,典型的論文就是今年新晉的ACM fellow,Michael Kearns在ICML06上發表的Reinforcement learning for optimized trade execution 不同於之前的論文,這篇文章試圖為歷史數據的每一個時間點構建state,這樣可以將增強學習的框架應用其中。這提供了與以前截然不同的思路,不過也並沒有從assumption的層面證實文章的方法確實是適應limit order book數據性質的。

在種種的失敗之後,開始有一些learning領域的研究者認識到,如果想在股票投資的問題上成功,似乎不能夠獨立於股票數據固有的性質。於是開始有一些方法,試圖利用股票數據既有的性質,來設計online learning的算法。典型的是之前NTU計算機系的PhD, Bin Li在ICML,IJCAI的一系列paper。他的核心其實就是抓住了股票的mean reversion的性質。簡單的理解,mean reversion認為股票有它自己的隱含價值,股價在這個值附近波動。他的這一系列paper,其實就是在怎麼找這個'mean'方面有些許變化。在時間點t,最開始他認為這個mean就是t-1的股價,後來他又認為這個mean是過去一個窗口時間上的均值。這些paper的思路、算法都很簡單容易理解,但是包含的思想是前人不曾有過的,就是利用股票數據的性質設計算法,而不是硬將數據往既有的機器學習算法裡套。他現在已經憑藉這些paper在武大金融系當上了副教授。

一家基金公司,通常會同時運行好多種strategy進行投資。這就產生了另外一個問題,應該如何給這些strategy動態地分配權值?機器學習領域有很多類似的問題,比如我要做一個分類問題,我有好多個分類器,如何ensemble它們使得它們的表現比較好?關於多種strategy的權值問題,Das在KDD11的paper,Meta optimization and its application to portfolio selection中有詳細的討論。這類方法被稱為Meta-Learning Algorithm。

現如今的股票交易已經比幾十年前要復雜的多,催生了很多新的交易場所和交易類型。這也給機器學習的專家們很多的機會。典型的例子是Michael Kearns在UAI09年發表的Censored exploration and the dark pool problem。這篇文章是描述暗池交易的,我在另一個回答裡也提到過。向某個暗池提交v股的交易量,如果實際成交量小於v,我們知道其容量;而如果實際交易量就是v,則只能知道其實際容量是大於v的。假使在某時刻,我們需要在K個暗池中交易V手股票,我們就需要根據歷史數據推斷哪些暗池的容量大,在這些暗池裡我們就多投入。如果暗池的容量都stochastic的,是不是就是另外一個更複雜的故事了?事實上已經有很多後續的工作來講述這個故事,不過不是learning界,而來自主流的FE界和OR界。

那麼learning界最為紅火的deep learning在這個問題上是否有所斬獲?前一陣子看新聞說,已經有幾個人利用deep learning的技術開了家對沖基金公司,賺了很多錢。那麼deep learning問題在交易上的作用可能體現在哪裡?我自己沒事兒也YY過這個問題,我覺得可能是在統計套利方面。最簡單的統計套利方法是看股價的correlation,比如A和B兩隻股票價差一向穩定在10塊錢,某天價差突然跌倒5塊錢,統計套利就假設,這個價差會恢復到10塊錢,那麼我們就可以就此設計交易策略。如果股價價差真的恢復了,那麼就可以實現套利。但是顯然,這樣的關係可能​​不是那麼明顯地存在於股票的價格中,可能存在於return中或者variance中,甚至更高複雜度的統計量中。 deep learning提供了將原數據投影到另一個特徵空間中的方法,而且是高度非線性的。那麼,原數據中沒有體現出來的correlation,會不會在這種高度非線性的投影空間中體現出來呢?如果有體現,是不是能夠設計交易策略實現套利呢?這是我自己的一點點思考。

 

資料來源:煉數成金

留下你的回應

以訪客張貼回應

0

在此對話中的人們