日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關咨詢
選擇下列產(chǎn)品馬上在線溝通
服務時間:8:30-17:00
你可能遇到了下面的問題
關閉右側工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
神經(jīng)架構搜索方法知多少

研究人員對機器學習和深度學習自動化興趣的日益增長,促進了神經(jīng)架構優(yōu)化的自動化方法的發(fā)展。網(wǎng)絡架構的選擇至關重要,深度學習中的諸多進展也源于它的即時改進。但深度學習技術是計算密集型,而且應用深度學習需要較高的領域相關相關知識。因此,即便這一過程只有部分是自動化的,也有助于研究人員和從業(yè)人員更容易地使用深度學習。

成都創(chuàng)新互聯(lián)公司是一家專業(yè)的成都網(wǎng)站建設公司,我們專注成都網(wǎng)站設計、網(wǎng)站建設、網(wǎng)絡營銷、企業(yè)網(wǎng)站建設,買鏈接1元廣告為企業(yè)客戶提供一站式建站解決方案,能帶給客戶新的互聯(lián)網(wǎng)理念。從網(wǎng)站結構的規(guī)劃UI設計到用戶體驗提高,創(chuàng)新互聯(lián)力求做到盡善盡美。

這篇文章對現(xiàn)有方法做了統(tǒng)一和分類,并對比了不同的方法,還做了詳細的分析。本文討論了常見搜索空間以及基于強化學習原理和進化算法的常用架構優(yōu)化算法,還有結合了代理模型和一次性(one-shot)模型的方法。

此外,本文還討論了約束、多目標架構搜索、自動數(shù)據(jù)增強、優(yōu)化器以及激活函數(shù)搜索等新的研究方向。

引言

在過去的兩年中,機器學習領域一直在研究自動化搜索過程??梢赃@么說,Zoph 和 Le 的工作(2017)是這項研究工作開始的標志,他們的工作證明強化學習算法可以發(fā)現(xiàn)好的架構。此后不久,Real et al.(2017)表示,研究至今的神經(jīng)進化方法(Floreano et al.,2008)也可以得到類似的結果。

但這兩種搜索方法都要用 GPU 運行幾千小時。因此,后續(xù)工作都試圖降低這種計算負擔。沿著這條思路,許多成功的算法都利用了重用已經(jīng)學習好的模型參數(shù)的原則,其中最令人矚目的是 Cai et al.(2018a)和 Pham et al.(2018)的工作。Cai et al.(2018a)提出可以從一個簡單的架構開始搜索,通過功能保留的操作逐步增加搜索的寬度和深度。

現(xiàn)在更流行也更快的搜索方法是 Pham et al.(2018)提出的,他們構造了包含搜索空間中所有架構的過參數(shù)化架構。在算法的每一個時間步上,都會對這個大型架構中的一小部分進行采樣和訓練。訓練完成后,抽樣得到的架構可以共享訓練權重,這樣就可以將搜索的工作量減少到和訓練單個架構差不多的水平。

搜索空間的設計構成了神經(jīng)架構搜索的另一個重要組成部分。除了加快搜索過程外,這還會影響搜索的持續(xù)時間和搜索得到的解決方案的質(zhì)量。在神經(jīng)架構搜索的早期工作中,設計空間主要是為了搜索順序架構的。但隨著手工構建的分支架構已經(jīng)在性能上超越了傳統(tǒng)網(wǎng)絡,因此剛發(fā)表不久后就提出了合適的搜索空間,并且這些空間已經(jīng)成為了該領域的規(guī)范(Zoph et al.,2018)。

在這些工作取得進展的同時,研究人員拓寬了神經(jīng)架構搜索的視野,希望神經(jīng)架構搜索可以減少搜索時間,降低發(fā)現(xiàn)架構的泛化誤差??梢酝瑫r處理多個目標函數(shù)的方法開始進入人們的視野。這方面值得注意的工作包括為了將模型部署在移動設備上,試著限制模型參數(shù)數(shù)量(Tan et al.,2018;Kim et al.,2017)或其他部分。此外,已經(jīng)開發(fā)的架構搜索技術也已經(jīng)擴展到深度學習其他相關組件的高級自動化上了。例如,激活函數(shù)的搜索(Ramachandran et al.,2018)以及合適的數(shù)據(jù)增強(Cubuk et al.,2018a)。

目前,以神經(jīng)架構搜索的形式實現(xiàn)深度學習自動化是機器學習領域發(fā)展最快的方向之一。每周在 arXiv.org (http://arxiv.org/) 和主流會議刊物上都會出現(xiàn)一些有趣的工作,因此人們很容易迷失方向。

本文總結了現(xiàn)有方法。我們可以通過這樣的總結辯證地審視不同的方法,并理解不同組件的好處,這些組件有助于神經(jīng)架構搜索的設計與成功。在這一過程中,作者還試圖消除一些常見的誤解,并指出當前架構搜索趨勢中的一些陷阱。作者還做了適當?shù)膶嶒炑a充自己的想法。

1. 神經(jīng)架構搜索空間

神經(jīng)架構搜索空間是神經(jīng)架構一般定義的子空間。其運算空間是有限的,而且可以對架構施加一定的約束。本文接下來用搜索空間指代神經(jīng)架構搜索方法的可行方案的集合。

2. 全局搜索空間

全局搜索空間中的實例(instances)在運算方面有很大的自由度。可以假設一個架構模板,它限制了架構定義中所允許的結構選擇的自由。這個模板一般是用來修復網(wǎng)絡圖的某些方面的。

圖 1 展示了模板約束搜索空間的架構樣例。

圖 1:全局搜索空間:(a)順序搜索空間;(b)和跳躍(skips)相同;(c)架構模板,只有深藍色運算之間的連接沒有修復。

Tan et al.(2018)的另一項工作是找到可以部署在移動設備上的神經(jīng)網(wǎng)絡模型,該模型可以在準確性、推理時間以及參數(shù)數(shù)量等多個方面高效地執(zhí)行。他們以此為目的設計了合適的搜索空間,該空間由具有層級表征的架構組成。

圖 2

圖 2:Tan et al.(2018)提出將架構分解成不同部分。每一部分 i 都有自己的模式(藍色運算),這一部分會重復 n_i 次并有 f_i 個過濾器。

3. 基于單元(cell-based)搜索空間

cell-based 搜索空間建立在一個觀察結果之上,即許多有效的手工架構都基于重復的固定結構。這樣的架構一般是較小的圖堆疊起來形成的較大的架構。在文獻中,一般將這些重復結構稱為單元(cell 或 unit)或塊(block)。在本文中用 cell 指代這樣的結構。

在 cell-based 搜索空間中,網(wǎng)絡是通過在模板定義的、預先指定好的排列中重復 cell 結構來構建的。如圖 3 所示,cell 一般是一個小的有向無環(huán)圖。

圖 3

圖 3:NASNet 搜索空間實例的結構。n 個正常單元(normal cell)后面跟著一個縮減單元(reduction cell)。這樣的序列會重復幾次,縮減單元也可能會重復。

圖 4 展示了 cell 結構可視化的例子。

圖 4

圖 4:以 NASNet-A 架構的縮減單元(Zoph et al.,2018)為例,展示一個 cell 在 NASNet 搜索空間中是什么樣子??梢詫?block 用做其他 block(如 block 1 和 block 3)的輸入,未使用的 block 連在一起成為 cell 的輸出。

已經(jīng)可以用 cell-based 設計范式來定義適用于移動設備的搜索空間了。Dong et al.(2018)提出了一個專門滿足這類需求(比如參數(shù)較少的目標和更少的推理時間)的搜索空間。

圖 7:Dong et al.(2018)用的移動搜索空間。包括 cell 在內(nèi)的整個網(wǎng)絡都是密集連接的。

4. 全局搜索空間 vs. cell-based 搜索空間

cell-based 搜索空間,尤其是 NASNet 搜索空間,是開發(fā)新方法時最常用的選擇。大多數(shù)研究這兩個搜索空間的工作都提供了經(jīng)驗證據(jù)支持這一選擇,這些經(jīng)驗證據(jù)表明 cell-based 搜索空間可以得到更好的結果。

無論如何,cell-based 搜索空間得益于發(fā)現(xiàn)的架構可以很容易地跨數(shù)據(jù)集遷移。此外,通過改變過濾器和單元的數(shù)量,幾乎可以任意改變架構的復雜性。

通常,全局搜索空間中的架構不會顯示上面說的所有這些屬性,但是某些情況也可能會從中受益。例如,可以改變過濾器的數(shù)量自然地修改架構,但要想將發(fā)現(xiàn)的架構轉移到輸入結構不同的新數(shù)據(jù)集或深化體系結構并不是一件容易的事。

二、優(yōu)化方法

響應函數(shù) f 的優(yōu)化是一個全局黑箱優(yōu)化問題。接下來將會討論幾種基于強化學習、進化算法等的優(yōu)化策略。

1. 強化學習

強化學習對于順序決策過程的建模是很有用的,在這個過程中,智能體(agent)和環(huán)境交互的唯一目標是***化未來收益。

圖 9:強化學習算法的一般框架。

時序差分學習(Temporal Difference Learning):像 SARSA、TD-λ 和 Q-learning 這樣的方法都試著通過近似***值函數(shù)隱式地找出這種策略。然后根據(jù)***值函數(shù)將***策略定義為貪心策略。***值函數(shù) v ? (s) 和 q ? (a, s) 滿足 Bellman ***標準。

策略梯度方法(Policy Gradient Methods):RL 中的其他替代方法(統(tǒng)稱為策略梯度方法)不適用價值函數(shù),而是直接學習由參數(shù)集合 πθ(a|s) 定義的策略。這些方法在不顯式參考價值函數(shù)的情況下選擇動作(action)。

基于 Q-Learning 的優(yōu)化: Baker et al.(2017)是最早提出用基于 RL 的算法進行神經(jīng)架構搜索的人之一。他們在設計算法時結合了 Q-learning、ε-greedy 和經(jīng)驗回放(Experience replay)。他們方法中的動作是選擇要添加到架構中的不同層,以及終止構建架構并將它認定為已經(jīng)完成的運算。

基于策略梯度方法的優(yōu)化:基于策略梯度方法的替代方法也已經(jīng)用在神經(jīng)架構搜索中了。Zoph 和 Le(2017)是***個研究這種建模方法的。他們直接針對控制器建模,可以將控制器的預測值視為構建神經(jīng)架構的動作。

圖 10:Zoph 和 Le(2017)用控制器預測一層的結構(圖中沒有呈現(xiàn)跳躍連接(skip connection)的預測值)。

2. 進化算法

進化算法(Evolutionary algorithms,EA)是基于種群的黑箱函數(shù)全局優(yōu)化器,它必需的組件有:初始化(initialization)、父代選擇(parent selection)、重組(recombination)與變異(mutation)以及新代選擇(survivor selection)。

圖 11:進化算法的一般框架。

在這一工作的背景下,本文討論了六個基于 EA 的神經(jīng)架構搜索的重要工作。表 1 中對這些方法做了簡單的概述。

表 1:用于神經(jīng)架構搜索的各種進化算法的高級細節(jié)。

3. 基于代理模型的優(yōu)化

顧名思義,基于代理模型的優(yōu)化器用代理模型 f hat 來近似響應函數(shù) f。就神經(jīng)架構搜索而言,這可以近似響應不在訓練步消耗時間且能提升整個搜索過程效率的架構。將該代理模型建模為機器學習模型,在元數(shù)據(jù)集上進行訓練,這個元數(shù)據(jù)集中包含架構描述以及對應的響應函數(shù)值。

Luo et al.(2018)用了一種有趣的方式。他們共同學習了用于架構表征的自動編碼器和代理模型,該代理模型用自動編碼器提供的連續(xù)編碼,即架構代碼作為輸入(圖 15)。

一個關鍵的區(qū)別在于,他們的搜索算法使用代理模型,通過對架構代碼執(zhí)行梯度步驟來采樣新的架構。

圖 15:Luo et al.(2018)提出結合自動編碼器和代理模型。這個模型通過共同學習實現(xiàn)了 α≈α ? 和 f(α)≈f ?(α)

4. one-shot 架構搜索

將在搜索過程中只訓練一個單一神經(jīng)網(wǎng)絡(single neural network)的架構搜索方法定義為 one-shot。然后該神經(jīng)網(wǎng)絡在整個搜索空間中推導出一個架構,將其作為優(yōu)化問題的解決方案。大多數(shù)用 one-shot 方法考慮的架構都是基于過參數(shù)化網(wǎng)絡的。

這類方法的優(yōu)點是搜索工作量相對較低——只比搜索空間中一個架構的訓練成本略高一點。正如我們后面要討論的,這個方法可以和之前討論過的許多優(yōu)化方法結合在一起。

權重共享(Weight Sharing):Pham et al.(2018)在 NASNet 搜索空間(見 2.2)的子空間中進行搜索,并在覆蓋了整個搜索空間的過參數(shù)化網(wǎng)絡上進行運算。

圖 17

圖 17:左圖:特定深度的卷積神經(jīng)結構的一部分。圖中展示了尺寸不同(如 4 和 8)的運算。卷積神經(jīng)結構的深度是任意的。右圖:在順序搜索空間中只有兩步運算的權重共享示例。

可微架構搜索:Liu et al.(2018c)提出了一種替代的優(yōu)化方法,這種方法用基于梯度的優(yōu)化方法使訓練集損失最小化,學習了模型 θ 的參數(shù);又使驗證集損失最小化,學習了結構參數(shù) β。

超網(wǎng)絡(Hypernetworks):Brock et al.(2018)提出可以使用動態(tài)超網(wǎng)絡(dynamic hypernetworks,Ha et al.,2017),這是一種可以根據(jù)一個變量條件(在這種情況下是架構描述)為另一個神經(jīng)網(wǎng)絡生成權重的神經(jīng)網(wǎng)絡。經(jīng)過訓練的超網(wǎng)絡可以生成各種架構的網(wǎng)絡權重。它可以用超網(wǎng)絡對不同架構排序,并衍生出最終架構,然后再從頭開始訓練。這一方法還可以共享權重,但大多數(shù)權重都在超網(wǎng)絡中共享。

總結

表 2 給出了不同算法在 CIFAR-10 基準數(shù)據(jù)集上完成分類任務得到的結果。

表 2

表 2:本文討論的不同搜索算法在 CIFAR-10 上得到的結果以及所需搜索時間。此外,上表還列出了各種隨機搜索和人工設計的架構得到的結果。

論文鏈接:https://arxiv.org/abs/1905.01392

【本文是專欄機構“機器之心”的原創(chuàng)譯文,微信公眾號“機器之心( id: almosthuman2014)”】


網(wǎng)站題目:神經(jīng)架構搜索方法知多少
網(wǎng)站網(wǎng)址:http://www.5511xx.com/article/dpgjpoc.html