日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
只需2層線性層,就能超越自注意力機(jī)制,清華計(jì)圖團(tuán)隊(duì)又有新突破

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

創(chuàng)新互聯(lián)建站專業(yè)網(wǎng)站建設(shè),網(wǎng)站制作與網(wǎng)站建設(shè)公司,1800元做網(wǎng)站建設(shè)全包,免費(fèi)贈(zèng)送網(wǎng)站基礎(chǔ)優(yōu)化服務(wù),讓你的網(wǎng)站變得更有價(jià)值,公司擁有完善的專業(yè)的建站公司流程,能夠?yàn)槠髽I(yè)提供建站服務(wù)。使用PHP+MYSQL開發(fā)可交付網(wǎng)站源代碼;符合網(wǎng)站優(yōu)化排名的后臺(tái)管理系統(tǒng);網(wǎng)站制作收費(fèi)合理;免費(fèi)進(jìn)行網(wǎng)站備案等企業(yè)網(wǎng)站建設(shè)一條龍服務(wù).

 5月4日,谷歌團(tuán)隊(duì)在arXiv上提交了一篇論文“MLP-Mixer: An all-MLP Architecture for Vision”[1],引起了廣大計(jì)算機(jī)視覺的研究人員的熱烈討論:MLP究竟有多大的潛力?

5月5日,清華大學(xué)圖形學(xué)實(shí)驗(yàn)室Jittor團(tuán)隊(duì)在arXiv上提交論文“Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks”[2], 提出了一種新的注意機(jī)制,稱之為“External Attention”。

基于兩個(gè)外部的、小的、可學(xué)習(xí)的和共享的存儲(chǔ)器,只用兩個(gè)級(jí)聯(lián)的線性層和歸一化層就可以取代了現(xiàn)有流行的學(xué)習(xí)架構(gòu)中的“Self-attention”,揭示了線性層和注意力機(jī)制之間的關(guān)系。

同日,清華大學(xué)軟件學(xué)院丁貴廣團(tuán)隊(duì)在arXiv上提交了論文“RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for Image Recognition”[3],展示了結(jié)合重參數(shù)化技術(shù)的MLP也取得了非常不錯(cuò)的效果。

5月6日牛津大學(xué)的學(xué)者提交了一篇名為”Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on ImageNet”的論文[4],也提出了Transformer中的attention是不必要的,僅僅使用Feed forward就可以在ImageNet上實(shí)現(xiàn)非常高的結(jié)果。

從Self-attention到External-attention

自注意力機(jī)制在自然語言處理和計(jì)算機(jī)視覺領(lǐng)域中起到了越來越重要的作用。對(duì)于輸入的Nxd維空間的特征向量F,自注意力機(jī)制使用基于自身線性變換的Query,Key和Value特征去計(jì)算自身樣本內(nèi)的注意力,并據(jù)此更新特征:

由于QKV是F的線性變換,簡單起見,我們可以將自注意力計(jì)算公式簡記如下:

這是F對(duì)F的注意力,也就是所謂的Self-attention。如果希望注意力機(jī)制可以考慮到來自其他樣本的影響,那么就需要一個(gè)所有樣本共享的特征。為此,我們引入一個(gè)外部的Sxd維空間的記憶單元M,來刻畫所有樣本最本質(zhì)的特征,并用M來表示輸入特征。

我們稱這種新的注意力機(jī)制為External-attention。我們可以發(fā)現(xiàn),公式(5)(6)中的計(jì)算主要是矩陣乘法,就是常見的線性變換,一個(gè)自注意力機(jī)制就這樣被兩層線性層和歸一化層代替了。我們還使用了之前工作[5]中提出的Norm方式來避免某一個(gè)特征向量的過大而引起的注意力失效問題。

為了增強(qiáng)External-attention的表達(dá)能力,與自注意力機(jī)制類似,我們采用兩個(gè)不同的記憶單元。

下圖形象地展示了External-attention與Self-attention的區(qū)別。

△圖1 Self Attention和External Attention的區(qū)別

為什么兩層線性層可以超越Self-attention?

自注意力機(jī)制一個(gè)明顯的缺陷在于計(jì)算量非常大,存在一定的計(jì)算冗余。通過控制記憶單元的大小,External-attention可以輕松實(shí)現(xiàn)線性的復(fù)雜度。

其次,自注意力機(jī)制僅利用了自身樣本內(nèi)的信息,忽略了不同樣本之間的潛在的聯(lián)系,而這種聯(lián)系在計(jì)算機(jī)視覺中是有意義的。打個(gè)比方,對(duì)于語義分割任務(wù),不同樣本中的相同類別的物體應(yīng)該具有相似的特征。

External-attention通過引入兩個(gè)外部記憶單元,隱式地學(xué)習(xí)了整個(gè)數(shù)據(jù)集的特征。這種思想同樣在稀疏編碼和字典學(xué)習(xí)中得到了應(yīng)用。

計(jì)圖團(tuán)隊(duì)在Pascal VOC 的Test set上,可視化了注意力圖以及分割的結(jié)果,如圖2所示,可以發(fā)現(xiàn),使用兩層線性層的External attention 的注意力圖是合理的。

△圖2 注意力圖以及分割的結(jié)果的可視化

從實(shí)驗(yàn)看External Attention的效果

為了證明方法的通用性,我們?cè)趫D像分類、分割、生成以及點(diǎn)云的分類和分割上均做了實(shí)驗(yàn),證明了方法的有效性,External-attention在大大減少計(jì)算量的同時(shí),可以取得與目前最先進(jìn)方法相當(dāng),甚至更好的結(jié)果。

1、圖像分類

2、圖像語義分割(三個(gè)數(shù)據(jù)集上)

3、圖像生成

4、點(diǎn)云分類

5、點(diǎn)云分割

External Attention VS MLP-Mixer

谷歌的工作提出了一種小巧且好用的Mixer-Layer,然后用極其豐富的實(shí)驗(yàn),證明了僅僅通過簡單的圖像分塊和線性層的堆疊就可以實(shí)現(xiàn)非常好的性能,開拓了人們的想象。

清華的External Attention則揭示了線性層和注意力機(jī)制之間的內(nèi)在關(guān)聯(lián),證明了線性變換其實(shí)是一種特殊形式的注意力實(shí)現(xiàn),如下公式所示:

Attention(x)=Linear(Norm(Linear(x)))

計(jì)圖團(tuán)隊(duì)的工作和谷歌團(tuán)隊(duì)的工作都證明了線性層的有效性。值得注意的是,如果將External-attention不斷級(jí)聯(lián)堆疊起來,也是MLP的形式,就可以實(shí)現(xiàn)一個(gè)純MLP的網(wǎng)絡(luò)結(jié)構(gòu),但External-attention使用不同的歸一化層,其更符合注意力機(jī)制。

這與谷歌團(tuán)隊(duì)的工作有異曲同工之妙。

清華的External Attention的部分計(jì)圖代碼已經(jīng)在Github開源。

后續(xù)將盡快開源全部計(jì)圖代碼。

External Attention的部分計(jì)圖代碼:
https://github.com/MenghaoGuo/-EANet


網(wǎng)站名稱:只需2層線性層,就能超越自注意力機(jī)制,清華計(jì)圖團(tuán)隊(duì)又有新突破
文章轉(zhuǎn)載:http://www.5511xx.com/article/djgesoh.html