摘要: 雖然ICLR 2018將公開評審改成了評審人和作者相互不知道雙方信息的雙盲評審,但論文的投稿者仍然可以通過其他公開渠道對其論文進行推廣。尤其對於大公司研究院來說,早早公開自己的論文能比盲審有額外加成,例如雷鋒網就注意到,就在上週五ICLR論文投遞截止後不久,NVIDIA在Blog上就發布了一篇通過生成對抗網絡(GAN)產生獨特面孔的新方法,這篇論文正是NVIDIA投遞到ICLR的論文之一。
在本文中,我們描述了生成對抗網絡(GAN)的新的訓練方法。關鍵思想是通過漸進的方式訓練生成器和鑑別器:從低分辨率開始,我們逐步添加新的層次,從而在訓練進展中增加更精細的細節。這既加快了訓練速度,又能增加訓練的穩定性,從而使我們能夠製作出前所未有的質量的圖像,例如用1024x1024像素的CelebA圖像(雷鋒網(公眾號:雷鋒網)注:CelebA是香港中文大學發布的20多萬的名人人臉數據庫,被很多算法用來訓練)製作更高精度的數據集。我們還提出了一種增加生成圖像變化的簡單方法,並且在無監督的CIFAR10中實現了創記錄的8.80的初始分數。此外,我們描述了幾個實現細節,這些細節對於抑制生成器和鑑別器之間的不健康競爭非常重要。最後,我們提出了一個新的衡量GAN結果的指標,無論是在圖像質量和變化方面。作為額外的貢獻,我們構建了更高質量的CelebA數據集。
在論文中NVIDIA稱,在從高維數據分佈生成新樣本的方法在圖像領域中被廣泛使用,主流算法包括自回歸模型(Autoregressive Models)、變化自動編碼器(VAE)和生成對抗網絡(GAN) 。這幾種算法都有著各自的優勢和劣勢:自回歸模型(如PixelCNN)能產生清晰的圖像,但評估速度較慢,而且由於其直接對像素的條件分佈直接建模,因此沒有潛在的表徵,這也進一步限制了其適用性;VAE易於訓練,但生成的結果往往是模糊的;GAN可以生成清晰的圖像,但在分辨率上只能有小範圍的變化,而且質量一直不穩定;混合方法可以結合上述三種方法的優勢,但在圖像質量上仍落後於GAN。
NVIDIA的主要改進方法是使用改進的Wasserstein Loss(關於用Wasserstein GAN生成圖片請參閱雷鋒網之前文章:《令人拍案叫絕的Wasserstein GAN》),同時也嘗試最小二乘法損失。由於生成高分辨率圖像之所以困難是因為這一過程中會極大放大梯度問題,而且由於內存的限制,大圖片還要分割成若干塊分別計算,從而影響了訓練的穩定性。而NVIDIA的做法是從簡單的低分辨率圖像開始,在訓練時逐步添加更高分辨率細節的層次,從而大大加快了訓練和提高高分辨率的穩定性。
讓我們來看一下圖片生成的效果。
下圖是訓練開始2個多小時候,8X8的效果。
經過11個多小時訓練後,生成圖片分辨率提升為32x32,已經能看出面孔的輪廓了;
訓練16天后的1024x1024分辨率圖片:
NVIDIA還專門準備了一部關於這篇論文的說明短片,更加直觀說明了這一算法的具體效果:
轉貼自: 雷鋒網
留下你的回應
以訪客張貼回應