深度學(xué)習(xí)在許多領(lǐng)域展示了強大的學(xué)習(xí)能力,包括計算機視覺、語音識別、自然語言處理等領(lǐng)域。人們提出了很多強大的深度學(xué)習(xí)模型,從AlexNet到VGGNet、GoogLeNet、ResNet,再到近幾年基于注意力機制的Transformer模型。雖然它們已經(jīng)足夠強大,但是這些模型的設(shè)計仍然要需要大量專家知識和較長的時間,這使得非專業(yè)人員很難針對不同任務(wù)對現(xiàn)有網(wǎng)絡(luò)架構(gòu)進行必要的改進,自動化的神經(jīng)架構(gòu)設(shè)計成為近年來的重要需求。
在此背景下,神經(jīng)架構(gòu)搜索(Neural Architecture Search,NAS)被提出,它旨在利用有限的計算資源、最少的人工干預(yù),根據(jù)目標(biāo)任務(wù)自動化地設(shè)計高性能神經(jīng)架構(gòu),它是自動機器學(xué)習(xí)(Automatic Machine Learning,AutoML)的子領(lǐng)域。神經(jīng)架構(gòu)搜索的總體框架如圖1所示。

圖1 神經(jīng)架構(gòu)搜索的總體框架
我們在基于注意力的NAS(如圖2)、基于GAN的架構(gòu)生成(如圖3)、基于架構(gòu)熵正則的可微分NAS優(yōu)化、基于免訓(xùn)練性能指標(biāo)的NAS等領(lǐng)域有重要的技術(shù)創(chuàng)新。

圖2 基于注意力的NAS

圖3 基于GAN的架構(gòu)生成