摘要: 近日,UCB和MIT研究者發佈的一篇名爲《Do CIFAR-10 Classifiers Generalize to CIFAR-10?》的新論文提出了學界一個尖銳的問題:包括CIFAR10在內的知名基準測試集,都存在驗證集過擬合問題。
這一論文引起了Keras之父François Chollet的關注與力挺,關於數據集的討論在推特上一發不可收拾,包括Gary Marcus和François都連發數條推特對此問題進行了討論。
在連續20幾個小時的連續發推中,François Chollet肯定了這篇論文帶來對過測試集擬合問題的思考,但是也提出了一些論文中不恰當的地方。
最後,大神也提出了自己的建議,通過高熵驗證過程(如k-fold驗證)來解決這個問題。
這篇論文創建了一組真正「未出現過」的同類圖像來測量 CIFAR-10 分類器的準確率,以驗證當前的測試集是否會帶來過擬合風險。
論文中稱,我們通常只能獲取具備同樣分佈的有限新數據。現在大家普遍接受在算法和模型設計過程中多次重用同樣的測試集。但顯而易見的是,當前的研究方法論忽視了一個關鍵假設:分類器與測試集應該獨立存在。
這種不獨立帶來了顯而易見的威脅——研究社區可能會設計出只在特定測試集上性能良好,但無法泛化至新數據的模型。
顯而易見,目前深度學習領域的很多「標題黨論文」,都存在驗證集過擬合問題,包括CIFAR10在內的知名基準測試集。
大量「標題黨」論文
François Chollet稱很高興在這篇論文《Do CIFAR-10 Classifiers Generalize to CIFAR-10?》看到對驗證集過擬合的量化。從2015年以來,ImageNet數據集也存在這樣的問題。
如果爲了發論文,針對固定驗證集,選擇特定的方法、體系結構和超參,那麼它就已經不再是驗證集,而是訓練集,而且不能保證選定方法能推廣到真實數據。
很多深度學習研究並未遵循科學方法,驗證集過擬合問題不容忽視。另外,使用弱基準測試集,很難將實驗結果與論文提出的重大想法建立明確的聯繫(因爲有的太多可變因素)。
同樣,想要復現大多數論文中的模型或想法也很困難。例如實驗結果的後選擇、對比實驗結果時缺乏顯著性檢驗等問題。
假如你正在參加Kaggle比賽,如果你使用從訓練集(包括public leaderboard)分離出來的固定驗證集來評估你的模型/想法,那麼你的模型在private leaderboard上的表現肯定很一般。學術研究同樣如此。
François Chollet還提出了克服該問題的一個簡單建議:用高熵驗證過程(如k-fold驗證),用帶shuffling的遞歸k-fold驗證更好。並且只在最終官方驗證集上檢驗結果。
的確成本更高了,不過成本也是正則化項,迫使你嘗試更少更明智的方法。
同時,François Chollet對前段時間引起軒然大波的文章,計算機視覺和 AI 領域專家 Filip Piekniewski的文章《AI Winter Is Well On Its Way》也發表了自己的見解:
自動駕駛汽車是一個很好的例子,因爲在這種情況下,存在兩種相互競爭的方法:一種是符號方法,另一種是深入學習方法,即通過端到端的學習。其中一種方法會到達L4,在一定程度上甚至會達到L5,另一種卻永遠達不到。
這並不是說深度學習本質上無法與無人駕駛相融合,而是因爲狀態空間維度極高,深度學習系統需要在系統運行的同一維度的密度抽樣中進行訓練。
由於這種具有代表性的密度抽樣是不可取的,即使在大量利用模擬環境的情況下,符號方法也將佔上風,具體來說,雖然這種方法大多是抽象性的,但卻將人類抽象概念與學習的感知基元結合了起來。
讓我們用François Chollet的一段話做結:
與大多數事物一樣,科學也是一種不精確的藝術,一種靠知識創造的藝術。就像所有的藝術一樣,它有我們應該遵循的精確規則。這些規則很容易被破壞,但你破壞的規則越多,你的努力也就越低效。(Science, like most thing, is an inexact art. The art of knowledge creation. And like any art, it has precise rules that one should follow. Any of these rules may be broken, but the more of them you break, the less effective your effort.)
轉貼自: 幫趣
留下你的回應
以訪客張貼回應