摘要: 在這篇文章中,我們將介紹 LSTM 模型。
Sepp Hochreiter 和 Jurgen Schmidhuber 提出了 LSTM。
LSTM架構
LSTM 模型將各種運算集合在一個單元中,LSTM 有一個內部狀態變量,並且該狀態變量可以從一個單元傳遞到另一個 LSTM 單元中,同時通過門運算進行修改。
1. 遺忘門
這是一個 Sigmoid 層,以 t-1 時刻的輸出和 t 時刻的當前輸入爲參量串接到一個單張量中,加上線性變換,最後用 sigmoid 函數變換。由於 sigmoid 函數的性質,這個門的值被限定在 0 和 1 之間,該值與內態的值相乘,這也它會被叫做忘記門的原因。如果 ft=0 那麼過去的內態將被忽略,如果 ft=1 那麼內態將被完整的傳遞。
2. 輸入門
輸入門以過去的輸出和當前輸入爲參量並饋送到一個 sigmoid 層。同樣,這個門的輸出值也是在 0 和 1 之間,輸入門的值將和候選層的輸出值相乘。
這個層對當前輸入和過去輸出應用了雙曲正切函數作爲變換(激活函數),結果將返回一個與內部狀態相加的候選向量。
內態通過這個規則不斷更新:
過去的狀態和遺忘門的值相乘,然後加上輸出門所給出新的候選狀態。
3. 輸出門
這個門控制多大比率的內部狀態將被傳遞到輸出,這和其它門的工作方式類似。
以上描述的三個門有互相獨立的權重和偏置,因此,網絡將分別學會,保持過去輸出的概率、保持當前輸入的概率以及將內態傳遞給輸出的概率。
結論
通過學習過去行爲的主要特徵並區分哪些特徵纔是對預測未來所需,LSTM 模型確實是很強大的工具。已經有幾種應用管法廣泛使用了 LSTM,比如語音識別、作曲、手寫字識別,甚至還有我最近研究中的對人體移動和交通運輸的預測實驗。
對於我們而言,LSTM 就是一個擁有自己的記憶並能像天才一樣做出精準決策的模型。
留下你的回應
以訪客張貼回應