摘要: 介紹共享表示學習最相關的機器學習領域-遷移學習(Transfer Learning)。文章內容主要整理自論文《A survey on transfer Learning》。
一、遷移學習提出的背景及歷史
在機器學習、深度學習和數據挖掘的大多數任務中,我們都會假設training和inference時,採用的數據服從相同的分佈(distribution)、來源於相同的特徵空間(feature space)。但在現實應用中,這個假設很難成立,往往遇到一些問題:
1.帶標記的訓練樣本數量有限。比如,處理A領域(target domain)的分類問題時,缺少足夠的訓練樣本。同時,與A領域相關的B(source domain)領域,擁有大量的訓練樣本,但B領域與A領域處於不同的特徵空間或樣本服從不同的分佈。
2. 數據分佈會發生變化。數據分佈與時間、地點或其他動態因素相關,隨著動態因素的變化,數據分佈會發生變化,以前收集的數據已經過時,需要重新收集數據,重建模型。
這時,知識遷移(knowledge transfer)是一個不錯的選擇,即把B領域中的知識遷移到A領域中來,提高A領域分類效果,不需要花大量時間去標註A領域數據。遷移學習,做為一種新的學習範式,被提出用於解決這個問題。
遷移學習的研究來源於一個觀測:人類可以將以前的學到的知識應用於解決新的問題,更快的解決問題或取得更好的效果。遷移學習被賦予這樣一個任務:從以前的任務當中去學習知識(knowledge)或經驗,並應用於新的任務當中。換句話說,遷移學習目的是從一個或多個源任務(source tasks)中抽取知識、經驗,然後應用於一個目標領域(target domain)當中去。
自1995年以來,遷移學習吸引了眾多的研究者的目光,遷移學習有很多其他名字:學習去學習(Learning to learn)、終身學習(life-long learning)、推導遷移(inductive transfer)、知識強化(knowledge consolidation)、上下文敏感性學習(context-sensitive learning)、基於知識的推導偏差(knowledge-based inductive bias)、累計/增量學習(increment / cumulative learning)等。
二、遷移學習中的符號及概念的定義
領域(domain)和任務(task)定義:
領域由兩個部分組成:特徵空間(feature space)X和特徵空間的邊緣分佈P(x),其中,x={x1,x2......xn} 屬於X。如果兩個領域不同,它們的特徵空間或邊緣概率分佈不同。領域表示成D={X,P(x)}。
任務組成:給定一個領域D={X,P(x)}的情況下,一個任務也包含兩個部分:標籤空間Y和一個目標預測函數f(.)。一個任務表示為:T={Y,f(.)}。目標預測函數不能被直接觀測,但可以通過訓練樣本學習得到。從概率論角度來看,目標預測函數f(.)可以表示為P(Y|X)。任務表示成T={Y,P(Y|X)}
一般情況下,只考慮只存在一個source domain Ds 和一個target domain Dt的情況。其中,源領域Ds = {(xs1,ys1),(xs2,ys2)......(xsns,ysns)},xsi 屬於Xs,表示源領域的觀測樣本,ysi屬於Ys,表示源領域觀測樣本xsi對應的標籤。目標領域Dt = {(xt1,yt1),(xt2,yt2).......(xtnt,ytnt)},xti屬於Xt,表示目標領域觀測樣本,ysi屬於Yt,表示目標領域xti對應的輸出。通常情況下,源領域觀測樣本數目ns與目標領域觀測樣本數目nt存在如下關係:1<= nt << ns。
基於以上的符號定義,給出正式的遷移學習的定義:在給定源領域Ds和源領域學習任務Ts、目標領域Dt和目標領域任務Tt的情況,且Ds 不等於Dt或Ts不等於Tt,情況下;遷移學習使用源領域Ds和Ts中的知識提升或優化目標領域Dt中目標預測函數ft(.)的學習效果。
通過以上的定義可以發現:
1. 領域D=(X,P(x)),當源和目標領域D不同時,存在兩種情況:(1)Xs不等於XT,源領域和目標領域的特徵空間不同;(2) P(xs)不等於P(xt),即源空間和目標空間的特徵空間相同,但觀測樣本X的邊緣分佈不同。
2. 任務T={Y,P(Y|X)},當源和目標領域T不同時,存在兩種情況:(1)Ys不等於Yt,源領域的標籤空間與目標領域的標籤空間不同;(2)P(Ys|Xs)不等於P(Yt|Xt),即源領域和目標領域的條件概率分佈不同。
三、遷移學習的分類
在遷移學習領域有三個研究問題:(1)、遷移什麼;(2)、如何遷移;(3)、什麼時候遷移。
1. 遷移什麼:那一部分知識可以在多個領域或任務之間遷移,即多個領域或任務知識的共同部分,通過從源領域學習這部分共同的知識,提升目標領域任務的效果。
關注遷移什麼知識時,需要注意negative transfer問題:當源領域和目標領域之間沒有關係,卻要在之間強制遷移知識是不可能成功的。極端情況下,反倒會影響目標領域任務學習的效果,這種情況稱為負遷移(negative transfer),需要盡力避免。
2. 找到了遷移什麼,接下來需要解決如何遷移:怎麼做知識遷移。什麼時候遷移:在什麼情況下、什麼時候,可以做知識的遷移。
推導學習(inductive learning)與轉導學習(tranductive learning)的區別:
推導學習:需要先用一些樣本(training set)建立一個模型,再基於建立好的模型去去預測新的樣本(testing set)的類型。以分類為例,推到學習就是一個經典的貝葉斯決策,通過貝葉斯共識:P(Y|X)=P(X|Y)*P(Y)/ P(X),建立後驗概率分佈P(Y|X),進而預測測試樣本類別。缺點就是必須先建立一個模型,很多時候建立效果好的模型並不容易,特別是當帶標記的訓練樣本少、無標記的測試樣本非常多時。那麼能否直接利用大量無標記的測試樣本來識別樣本類別呢?由此產生了轉到學習方法。
轉導學習:不需要建立後驗概率模型,直接從無標記的測試樣本X出發,構建P(X)的分佈,對測試樣本分類。與推到學習相比,轉到學習也有它的缺點:因為是直接基於P(X)處理,轉導學習的測試樣本必須預先已知。
基於遷移學習的定義中源領域和目標領域D和任務T的不同,遷移學習可以分成三類:推導遷移學習(inductive transfer learning),轉導遷移學習(tranductive transfer learning)和無監督遷移學習(unsupervised transfer learning)
推導遷移學習定義:給定源領域Ds和源領域學習任務Ts、目標領域Dt和目標領域任務Tt的情況,且Ts不等於Tt,情況下;推導遷移學習使用源領域Ds和Ts中的知識提升或優化目標領域Dt中目標預測函數ft(.)的學習效果。
可見,在推導遷移學習中,源任務(source task)與目標任務(target task)一定不同,目標領域Dt與源領域Ds可以相同,也可以不同。在這種情況下,目標領域需要一部分帶標記的數據用於建立目標領域的預測函數ft(.)。根據源領域中是否含有標記樣本,可以把推導遷移學習分為兩個類:
(1) 當源領域中有很多標記樣本時,推導遷移學習與多任務學習(multitask learning)類似。區別在於,通過從源領域遷移知識,推導遷移學習只注重提升目標領域的效果;但多任務學習注重同時提升源領域和目標領域的效果。
(2)當源領域沒有標記樣本時,推導遷移學習與自學習類似。
轉導遷移學習定義:給定源領域Ds和源領域學習任務Ts、目標領域Dt和目標領域任務Tt的情況,且Ts等於Tt、Ds不等於Dt,情況下;轉導遷移學習使用源領域Ds和Ts中的知識提升或優化目標領域Dt中目標預測函數ft(.)的學習效果。此外,模型訓練師,目標領域Dt中必須提供一些無標記的數據。
可見,在轉導遷移學習中,源任務Ts和目標任務Tt相同,但領域Ds與Dt不同。這種情況下,源領域有大量標記樣本,但目標領域沒有標記樣本。根據Ds和Dt的不同,可以把轉到學習分為兩個類:(1)、源領域和目標領域特徵空間不同,即Xs不等於Xt。 (2)、特徵空間相同,但邊緣概率不同,即P(xs)不等於P(xt)。在(2)情況下,轉導遷移學習與領域適應性(domain adaptation)、協方差偏移(covariate shift)問題相同。
無監督遷移學習定義:給定源領域Ds和源領域學習任務Ts、目標領域Dt和目標領域任務Tt的情況,且Ts不等於Tt、標籤空間Yt和Ys不可觀測,情況下;轉導遷移學習使用源領域Ds和Ts中的知識提升或優化目標領域Dt中目標預測函數ft(.)的學習效果。
在無監督遷移學習中,目標任務與源任務不同但卻相關。此時,無監督遷移學習主要解決目標領域中的無監督學習問題,類似於傳統的聚類、降維和密度估計等機器學習問題。
(1) 當源領域中有很多標記樣本時,推導遷移學習與多任務學習(multitask learning)類似。區別在於,通過從源領域遷移知識,推導遷移學習只注重提升目標領域的效果;但多任務學習注重同時提升源領域和目標領域的效果。
(2)當源領域沒有標記樣本時,推導遷移學習與自學習類似。
轉導遷移學習定義:給定源領域Ds和源領域學習任務Ts、目標領域Dt和目標領域任務Tt的情況,且Ts等於Tt、Ds不等於Dt,情況下;轉導遷移學習使用源領域Ds和Ts中的知識提升或優化目標領域Dt中目標預測函數ft(.)的學習效果。此外,模型訓練師,目標領域Dt中必須提供一些無標記的數據。
可見,在轉導遷移學習中,源任務Ts和目標任務Tt相同,但領域Ds與Dt不同。這種情況下,源領域有大量標記樣本,但目標領域沒有標記樣本。根據Ds和Dt的不同,可以把轉到學習分為兩個類:(1)、源領域和目標領域特徵空間不同,即Xs不等於Xt。 (2)、特徵空間相同,但邊緣概率不同,即P(xs)不等於P(xt)。在(2)情況下,轉導遷移學習與領域適應性(domain adaptation)、協方差偏移(covariate shift)問題相同。
原文鏈接: CDSN
版权声明:本文為CSDN博主「掃描頭像關注公眾號獲取更多乾貨」的原創文章,遵循 CC 4.0 by-sa 版權協議,,轉載請附上原文出處鏈接及本聲明。
若喜歡本文,請關注我們的臉書 Please Like our Facebook Page: Big Data In Finance
留下你的回應
以訪客張貼回應