摘要: 麻省理工學院CSAIL專案顯示,若我們使用比一般小的“子網絡“訓練網路,可以學習得更好而且更快。
近年來,幾乎所有基於人工智能的產品都依賴深度學習網絡去自動學習標籤化後的資料。
然而,對於大多數組織和個人而言,深度學習的進入門檻很高。為了更好地學習,神經網絡必須非常大並且需要大量的數據集。此培訓過程通常需要幾天的培訓和昂貴的圖形處理單元(GPU) - 有時甚至是定制設計的硬體。
但是,畢竟,如果那些資料實際上並不是那麼大呢?
在一個新的文件,從麻省理工學院計算機科學和人工智能實驗室(CSAIL)的研究表明,神經網絡包含有多達十分之一的大小還能夠被訓練成能把同樣準確的預測子網 - 有時可以學習這麼做所以甚至比原始的神經網更快。
團隊的方法現在並不是特別有效 - 他們必須在找到成功的子網之前多次訓練和“修剪”整個網絡。然而,麻省理工學院助理教授Michael Carbin說,他的研究小組的研究結果表明,如果我們能夠精確地確定其原有網絡的一部分是相關的最終預測,科學家也許有一天能夠完全跳過這一昂貴的過程。這樣的啟示有可能節省數小時的工作量,並使人們更容易被個體程序員創建,而不僅僅是大型科技公司。
“如果最初的網絡不必要那麼大,你為什麼不一開始就創建適當大小的呢?”Jonathan Frankle說,他在ICLR(International Conference on Learning Representations)提出了他和Carbin 合著的新論文。在大約1,600份提交的文件中,該項目是ICLR的兩篇最佳論文之一。
這團隊認為傳統的深度學習方式與樂透大同小異。訓練大型神經網絡有點像試圖保證你可以通過盲目購買任何可能的票來贏得樂透。但是,如果我們可以在一開始就選擇中獎號碼呢?
“通過傳統的神經網絡,你可以隨機初始化這個大型結構,並且在它擁有大量數據後,它神奇地起作用,”Carbin說。 “這是獲得大量資金的好方法。”
團隊的工作也可能對所謂的“遷移式學習”產生影響,這是一項完全不同的任務。
傳統的遷移式學習涉及訓練網絡然後再為了其他任務而訓練的層上多加另一層。在許多情況下,我們可以在為了目的而訓練的的網絡上抽取部分訊息然後用於其他用途。
儘管已經受到了與神經網絡一樣多的炒作,因為培訓費用過於昂貴,數據科學家必須做出很多讓步,作出一系列的權衡:培訓所花費的時間以及最終的表現。
為了測試他們所謂的“樂透假設”並顯示這些較小的子網絡的存在,團隊需要一種方法來找到它們。他們開始使用藉由減少神經網絡上不必要的連接使低階設備例如智慧型手機也適用:他們被“權重”“修剪”。
他們的關鍵創新是在網絡訓練之後修剪的連結可能根本就沒有必要。為了測試這個假設,他們嘗試再次訓練完全相同的網絡,但沒有修剪過的連接。重要的是,他們將每個連接“重置”到訓練開始時分配的重量。這些初始權重對於幫助贏得樂透至關重要:如果沒有它們,被修剪的網絡將無法學習。通過修剪越來越多的連接,他們確定在不損害網絡學習能力的情況下可以刪除多少。
為了驗證這一假設,他們在各種條件下在許多不同的網絡上重複了這個過程數萬次。
“令人驚訝的是,重置一個表現良好的網絡通常會帶來更好的效果,”Carbin說。 “這表明,無論我們第一次做什麼都不是最佳,並且還有改進這些模型學習改善自己的空間。”
作為下一步,該團隊計劃探索為什麼某些子網特別擅長學習,以及有效查找這些子網的方法。
“了解'樂透假設'可能會讓研究人員在未來幾年內保持忙碌,”多倫多大學統計學助理教授Daniel Roy說,他沒有參與該論文。 “這項工作也可能適用於網絡壓縮和優化。我們能否在培訓早期識別出這個子網,從而加快培訓速度?這些技術是否可以用於構建有效的壓縮方案值得好好研究。“
轉貼自: MIT News
若喜歡本文,請關注我們的臉書:Big Data In Finance
留下你的回應
以訪客張貼回應