福利导航日韩69,亚洲无码中文字幕久久,国产二线不卡国家A极片

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案

只需2層線性層，就能超越自注意力機(jī)制，清華計(jì)圖團(tuán)隊(duì)又有新突破

本文經(jīng)AI新媒體量子位（公眾號(hào)ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

創(chuàng)新互聯(lián)建站專業(yè)網(wǎng)站建設(shè)，網(wǎng)站制作與網(wǎng)站建設(shè)公司，1800元做網(wǎng)站建設(shè)全包，免費(fèi)贈(zèng)送網(wǎng)站基礎(chǔ)優(yōu)化服務(wù)，讓你的網(wǎng)站變得更有價(jià)值，公司擁有完善的專業(yè)的建站公司流程，能夠?yàn)槠髽I(yè)提供建站服務(wù)。使用PHP+MYSQL開發(fā)可交付網(wǎng)站源代碼;符合網(wǎng)站優(yōu)化排名的后臺(tái)管理系統(tǒng)；網(wǎng)站制作收費(fèi)合理；免費(fèi)進(jìn)行網(wǎng)站備案等企業(yè)網(wǎng)站建設(shè)一條龍服務(wù).

5月4日，谷歌團(tuán)隊(duì)在arXiv上提交了一篇論文“MLP-Mixer: An all-MLP Architecture for Vision”[1]，引起了廣大計(jì)算機(jī)視覺的研究人員的熱烈討論：MLP究竟有多大的潛力？

5月5日，清華大學(xué)圖形學(xué)實(shí)驗(yàn)室Jittor團(tuán)隊(duì)在arXiv上提交論文“Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks”[2]，提出了一種新的注意機(jī)制，稱之為“External Attention”。

基于兩個(gè)外部的、小的、可學(xué)習(xí)的和共享的存儲(chǔ)器，只用兩個(gè)級(jí)聯(lián)的線性層和歸一化層就可以取代了現(xiàn)有流行的學(xué)習(xí)架構(gòu)中的“Self-attention”，揭示了線性層和注意力機(jī)制之間的關(guān)系。

同日，清華大學(xué)軟件學(xué)院丁貴廣團(tuán)隊(duì)在arXiv上提交了論文“RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for Image Recognition”[3]，展示了結(jié)合重參數(shù)化技術(shù)的MLP也取得了非常不錯(cuò)的效果。

5月6日牛津大學(xué)的學(xué)者提交了一篇名為”Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on ImageNet”的論文[4]，也提出了Transformer中的attention是不必要的，僅僅使用Feed forward就可以在ImageNet上實(shí)現(xiàn)非常高的結(jié)果。

從Self-attention到External-attention

自注意力機(jī)制在自然語言處理和計(jì)算機(jī)視覺領(lǐng)域中起到了越來越重要的作用。對(duì)于輸入的Nxd維空間的特征向量F，自注意力機(jī)制使用基于自身線性變換的Query，Key和Value特征去計(jì)算自身樣本內(nèi)的注意力，并據(jù)此更新特征：

由于QKV是F的線性變換，簡單起見，我們可以將自注意力計(jì)算公式簡記如下：

這是F對(duì)F的注意力，也就是所謂的Self-attention。如果希望注意力機(jī)制可以考慮到來自其他樣本的影響，那么就需要一個(gè)所有樣本共享的特征。為此，我們引入一個(gè)外部的Sxd維空間的記憶單元M，來刻畫所有樣本最本質(zhì)的特征，并用M來表示輸入特征。

我們稱這種新的注意力機(jī)制為External-attention。我們可以發(fā)現(xiàn)，公式(5)(6)中的計(jì)算主要是矩陣乘法，就是常見的線性變換，一個(gè)自注意力機(jī)制就這樣被兩層線性層和歸一化層代替了。我們還使用了之前工作[5]中提出的Norm方式來避免某一個(gè)特征向量的過大而引起的注意力失效問題。

為了增強(qiáng)External-attention的表達(dá)能力，與自注意力機(jī)制類似，我們采用兩個(gè)不同的記憶單元。

下圖形象地展示了External-attention與Self-attention的區(qū)別。

△圖1 Self Attention和External Attention的區(qū)別

為什么兩層線性層可以超越Self-attention？

自注意力機(jī)制一個(gè)明顯的缺陷在于計(jì)算量非常大，存在一定的計(jì)算冗余。通過控制記憶單元的大小，External-attention可以輕松實(shí)現(xiàn)線性的復(fù)雜度。

其次，自注意力機(jī)制僅利用了自身樣本內(nèi)的信息，忽略了不同樣本之間的潛在的聯(lián)系，而這種聯(lián)系在計(jì)算機(jī)視覺中是有意義的。打個(gè)比方，對(duì)于語義分割任務(wù)，不同樣本中的相同類別的物體應(yīng)該具有相似的特征。

External-attention通過引入兩個(gè)外部記憶單元，隱式地學(xué)習(xí)了整個(gè)數(shù)據(jù)集的特征。這種思想同樣在稀疏編碼和字典學(xué)習(xí)中得到了應(yīng)用。

計(jì)圖團(tuán)隊(duì)在Pascal VOC 的Test set上，可視化了注意力圖以及分割的結(jié)果，如圖2所示，可以發(fā)現(xiàn)，使用兩層線性層的External attention 的注意力圖是合理的。

△圖2 注意力圖以及分割的結(jié)果的可視化

從實(shí)驗(yàn)看External Attention的效果

為了證明方法的通用性，我們?cè)趫D像分類、分割、生成以及點(diǎn)云的分類和分割上均做了實(shí)驗(yàn)，證明了方法的有效性，External-attention在大大減少計(jì)算量的同時(shí)，可以取得與目前最先進(jìn)方法相當(dāng)，甚至更好的結(jié)果。

1、圖像分類

2、圖像語義分割（三個(gè)數(shù)據(jù)集上）

3、圖像生成

4、點(diǎn)云分類

5、點(diǎn)云分割

External Attention VS MLP-Mixer

谷歌的工作提出了一種小巧且好用的Mixer-Layer，然后用極其豐富的實(shí)驗(yàn)，證明了僅僅通過簡單的圖像分塊和線性層的堆疊就可以實(shí)現(xiàn)非常好的性能，開拓了人們的想象。

清華的External Attention則揭示了線性層和注意力機(jī)制之間的內(nèi)在關(guān)聯(lián)，證明了線性變換其實(shí)是一種特殊形式的注意力實(shí)現(xiàn)，如下公式所示：

Attention(x)=Linear(Norm(Linear(x)))

計(jì)圖團(tuán)隊(duì)的工作和谷歌團(tuán)隊(duì)的工作都證明了線性層的有效性。值得注意的是，如果將External-attention不斷級(jí)聯(lián)堆疊起來，也是MLP的形式，就可以實(shí)現(xiàn)一個(gè)純MLP的網(wǎng)絡(luò)結(jié)構(gòu)，但External-attention使用不同的歸一化層，其更符合注意力機(jī)制。

這與谷歌團(tuán)隊(duì)的工作有異曲同工之妙。

清華的External Attention的部分計(jì)圖代碼已經(jīng)在Github開源。

后續(xù)將盡快開源全部計(jì)圖代碼。

External Attention的部分計(jì)圖代碼：
https://github.com/MenghaoGuo/-EANet

網(wǎng)站名稱：只需2層線性層，就能超越自注意力機(jī)制，清華計(jì)圖團(tuán)隊(duì)又有新突破
文章轉(zhuǎn)載：http://www.5511xx.com/article/djgesoh.html

日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

新聞中心

從Self-attention到External-attention

為什么兩層線性層可以超越Self-attention？

從實(shí)驗(yàn)看External Attention的效果

External Attention VS MLP-Mixer

其他資訊

新聞中心

從Self-attention到External-attention

為什么兩層線性層可以超越Self-attention？

從實(shí)驗(yàn)看External Attention的效果

External Attention VS MLP-Mixer

其他資訊

為什么兩層線性層可以超越Self-attention？