online gambling singapore online gambling singapore online slot malaysia online slot malaysia mega888 malaysia slot gacor live casino malaysia online betting malaysia mega888 mega888 mega888 mega888 mega888 mega888 mega888 mega888 mega888 深度學習進階之路 - 從遷移學習到強化學習

摘要: 初步理解遷移學習、強化學習

 

一、深度學習及其適用範圍

大數據造就了深度學習,通過大量的數據訓練,我們能夠輕易的發現數據的規律,從而實現基於監督學習的數據預測。

沒錯,這裡要強調的是基於監督學習的,也是迄今為止我在講完深度學習基礎所給出的知識範圍。

基於卷積神經網絡的深度學習(包括CNN、RNN),主要解決的領域是 圖像、文本、語音,問題聚焦在 分類、回歸。然而這裡並沒有提到推理,顯然我們用之前的這些知識無法造一個 AlphaGo 出來,通過一張圖來了解深度學習的問題域:

2016年的 NIPS 會議上,吳恩達 給出了一個未來 AI方向的技術發展圖,還是很客觀的:

毋庸置疑,監督學習是目前成熟度最高的,可以說已經成功商用,而下一個商用的技術 將會是 遷移學習(Transfer Learning),這也是 Andrew 預測未來五年最有可能走向商用的 AI技術。

二、遷移學習(舉一反三的智能)

遷移學習解決的問題是 如何將學習到知識 從一個場景遷移到另一個場景?

拿圖像識別來說,從白天到晚上,從 Bottom View 到 Top View,從冬天到夏天,從識別中國人到 識別外國人……

這是一個普遍存在的問題,問題源自於你所關注的場景缺少足夠的數據來完成訓練,在這種情況下你需要 通過遷移學習來實現 模型本身的泛化能力。

用一張示意圖(From:A Survey on Transfer Learning)來進行說明:

實際上,你可能在不知不覺中使用到了 遷移學習,比如所用到的預訓練模型,在此基礎所做的 Fine-Turning,再比如你做 Tracking 所用的 online learning。

遷移學習的必要性和價值體現在:

1. 重複用現有知識域數據,已有的大量工作不至於完全丟棄;

2. 不需要再去花費巨大代價去重新採集和標記龐大的新數據集,也有可能數據根本無法獲取;

3. 對於快速出現的新領域,能夠快速遷移和應用,體現時效性優勢;

關於遷移學習算法 有許多不同的思路,我們總結為:

1. 通過 原有數據 和 少量新領域數據混合訓練;

2. 將原訓練模型進行分割,保留基礎模型(數據)部分作為新領域的遷移基礎;

3. 通過三維仿真來得到新的場景圖像(OpenAI的Universe平台借助賽車遊戲來訓練);

4. 借助對抗網絡 GAN 進行遷移學習 的方法;

三、強化學習(反饋,修正)

強化學習全稱是Deep Reinforcement Learning(DRL),其所帶來的推理能力是智能的一個關鍵特徵衡量,真正的讓機器有了自我學習、自我思考的能力,毫無疑問Google DeepMind 是該領域的執牛耳者,其發表的DQN 堪稱是該領域的破冰之作。

目前強化學習主要用在遊戲AI 領域(有我們老生常談的AlphaGo)和機器人領域,除此之外,Google宣稱通過強化學習將數據中心的冷卻費用降低了40%,雖無法考證真偽,但我願意相信他的價值。

強化學習 是個複雜的命題,Deepmind 大神 David Silver 將其理解為這樣一種交叉學科:

實際上,強化學習是一種探索式的學習方法,通過不斷“試錯” 來得到改進,不同於監督學習的地方是強化學習本身沒有Label,每一步的Action 之後它無法得到明確的反饋(在這一點上,監督學習每一步都能進行Label 比對,得到True or False)。

強化學習是通過以下幾個元素來進行組合描述的:

1. 對象(Agent): 也就是我們的智能主題,比如 AlphaGo。

 

2. 環境(Environment): Agent 所處的場景-比如下圍棋的棋盤,以及其所對應的狀態(State)-比如當前所對應的棋局。 Agent 需要從 Environment 感知來獲取反饋(當前局勢對我是否更有利)。

3. 動作 (Actions) : 在每個State下,可以採取什麼行動,針對每一個 Action 分析其影響。

4. 獎勵 (Rewards) 執行 Action 之後,得到的獎勵或懲罰,Reward 是通過對 環境的觀察得到。

通過強化學習,我們得到的輸出就是:Next Action?下一步該怎麼走,這就是 AlphaGo 的棋局,你能夠想到,對應圍棋的 Action 數量嗎?

關於強化學習的具體算法,大多從 馬爾可夫鏈 講起,本節只做普及性說明

 

原文鏈接: CDSN

版权声明:本文為CSDN博主「linolzhang」的原創文章,遵循 CC 4.0 by-sa 版權協議,,轉載請附上原文出處鏈接及本聲明。

若喜歡本文,請關注我們的臉書 Please Like our Facebook Page: Big Data In Finance

 


留下你的回應

以訪客張貼回應

0
  • 找不到回應