盤點金融領域裡常用的深度學習模型

作者:Sonam Srivastava

在今天我們發布的這篇文章中,作者Sonam Srivastava 介紹了金融中的三種深度學習用例及這些模型優劣的證據。

我們跟隨Sonam Srivastava 的分析,並展望深度學習在金融領域的運用前景。雖然金融是計算密集型最多的領域,但廣泛使用的金融模型:監督和無監督模型、基於狀態的模型、計量經濟學模型甚至隨機模型都受到過度擬合和啟發式問題帶來的影響,抽樣結果很差。因為金融生態圈異常複雜,其非線性充斥著大量的相互影響的因素。

大數據

要解決這個問題,如果我們考慮到深度學習在圖像識別、語音識別或情感分析方面所做的研究,我們就會看到這些模型能夠從大規模未標記數據中學習,形成非線性關係的遞歸結構,可以輕鬆予以調整以避免發生過度擬合。

如果金融生態圈能夠使用這些網絡進行建模,應用領域就會深遠而廣泛。這些模型可用於定價、投資組合構建、風險管理甚至高頻交易等領域,讓我們來解決這些問題。

收益預測

 

以預測每日黃金價格的抽樣問題為例,我們首先看看傳統的方法。

ARIMA 模型

ARIMA 模型(Autoregressive Integrated Moving Average model),差分整合移動平均自回歸模型,又稱整合移動平均自回歸模型(移動也可稱作滑動),時間序列預測分析方法之一。ARIMA(p,d,q)中,AR 是“自回歸”,p 為自回歸項數;MA 為“滑動平均”,q 為滑動平均項數,d 為使之成為平穩序列所做的差分次數(階數)。“差分”一詞雖未出現在ARIMA 的英文名稱中,卻是關鍵步驟。

ARIMA 模型的基本思想是:將預測對象隨時間推移而形成的數據序列視為一個隨機序列,用一定的數學模型來近似描述這個序列。這個模型一旦被識別後就可以從時間序列的過去值及現在值來預測未來值。現代統計方法、計量經濟模型在某種程度上已經能夠幫助企業對未來進行預測。利用整合移動平均自回歸模型,來嘗試預測季節性平穩時間序列,我們得到結果如下圖所示:

大數據

VAR 模型

VAR 模型,(Vector Autoregression model)向量自回歸模型,是一種常用的計量經濟模型,由計量經濟學家和宏觀經濟學家Christopher Sims 提出。它擴充了只能使用一個變量的自回歸模型(簡稱:AR 模型),使容納大於1 個變量,因此經常用在多變量時間序列模型的分析上。

如果我們將相關的預測變量添加到我們的自回歸模型中並移動到向量自回歸模型,我們得到結果如下圖所示:

大數據

深度回歸模型

如果在數據上使用簡單的深度回歸模型,使用相同的輸入,會得到更好的結果,如下圖所示:

大數據

卷積神經網絡

卷積神經網絡(Convolutional Neural Network, CNN)是一種前饋神經網絡,它的人工神經元可以響應一部分覆蓋範圍內的周圍單元,對於大型圖像處理有出色表現。

卷積神經網絡由一個或多個卷積層和頂端的全連通層(對應經典的神經網絡)組成,同時也包括關聯權重和池化層(pooling layer)。這一結構使得卷積神經網絡能夠利用輸入數據的二維結構。與其他深度學習結構相比,卷積神經網絡在圖像和語音識別方面能夠給出更好的結果。這一模型也可以使用反向傳播算法進行訓練。相比較其他深度、前饋神經網絡,卷積神經網絡需要考量的參數更少,使之成為一種頗具吸引力的深度學習結構。

修改我的架構,使用卷積神經網絡來解決同一個問題,得到結果如下圖所示:

大數據

所得結果大為改善。但最好的結果還在後頭。

長短期記憶網絡

長短期記憶網絡(Long Short-Term Memory, LSTM)是一種時間遞歸神經網絡(RNN),論文首次發表於1997 年。由於獨特的設計結構,LSTM 適合於處理和預測時間序列中間隔和延遲非常長的重要事件。

LSTM 的表現通常比時間遞歸神經網絡及隱馬爾科夫模型(HMM)更好,比如用在不分段連續手寫識別上。2009 年,用LSTM 構建的人工神經網絡模型贏得過ICDAR 手寫識別比賽冠軍。LSTM 還普遍用於自主語音識別,2013 年運用TIMIT 自然演講數據庫達成17.7% 錯誤率的紀錄。作為非線性模型,LSTM 可作為複雜的非線性單元用於構造更大型深度神經網絡。

使用循環神經網絡(RNN)的變種後,我得到結果如下所示:

大數據

因此,整體來說均方誤差的趨勢出乎意料。

大數據

投資組合構建

 

我們嘗試使用深度學習解決的第二個金融問題是投資組合構建。在這個問題上,深度學習的實際應用效果很好。我的研究靈感來自這篇論文:《深度投資組合》(https://0x9.me/8uOBt)

這篇論文的作者嘗試構建自動編碼器,將時間序列映射到自身。使用這些自動編碼器的預測誤差成為股票測試版(與市場相關)的代用指標,自動編碼器用作市場的模型。

自動編碼器(auto-encoder),是一種無監督的學習算法,主要用於數據的降維或者特徵的抽取,在深度學習中,自動編碼器可用於在訓練階段開始前,確定權重矩陣W的初始值。基於上述自動編碼器的誤差選擇不同的股票,我們可以使用另一個深度神經網絡來構建深度指標,結果相當不錯,如下圖所示:

大數據

深度神經網絡已成為利用股票複製指數的指數構建方法。

但這只是它的開始!如果我們應用智能索引,在我去掉指數的極端下降期,並在智能索引上訓練我的指數映射深度神經網絡時,我就能以驚人的速度超過指數!

大數據

這種技術在證券投資組合領域有著巨大的潛力!

結論

 

目前金融業的趨勢是朝更複雜、更健全的的模式發展。隨著大量數據科學家湧入該行業,對所有銀行來說,技術是一個巨大的壓力。像RelTec、Worldquant 這樣的對沖基金,在其交易中已經使用這種技術。由於這些複雜模型在其他領域所表現出的優異結果,以及在金融建模領域的巨大差距,將會有一系列的戲劇性的創新湧現!

更好地解決金融和貿易領域的關鍵問題,將會提高效率、提高透明度、加強風險管理和新的創新。

 

End.

轉貼自: 36大數據


留下你的回應

以訪客張貼回應

0

在此對話中的人們

每月文章