日韩高清在线亚洲专区,国产精品va无码一区二区三区

針對BN的歸一化方法總結

2021-06-21 10:03

前言:

歸一化相關技術已經(jīng)經(jīng)過了幾年的發(fā)展,目前針對不同的應用場合有相應的方法,在本文將這些方法做了一個總結,介紹了它們的思路,方法,應用場景。主要涉及到:LRN,BN,LN, IN, GN, FRN, WN, BRN, CBN, CmBN等。

本文又名“BN和它的后浪們”,是因為幾乎在BN后出現(xiàn)的所有歸一化方法都是針對BN的三個缺陷改進而來,在本文也介紹了BN的三個缺陷。相信讀者會讀完此文會對歸一化方法有個較為全面的認識和理解。

LRN(2012)

局部響應歸一化(Local Response Normalization, 即LRN)首次提出于AlexNet。自BN提出后,其基本被拋棄了,因此這里只介紹它的來源和主要思想。

LRN的創(chuàng)意來源于神經(jīng)生物學的側抑制,被激活的神經(jīng)元會抑制相鄰的神經(jīng)元。用一句話來形容LRN:讓響應值大的feature map變得更大,讓響應值小的變得更小。

其主要思想在于讓不同卷積核產(chǎn)生feature map之間的相關性更小,以實現(xiàn)不同通道上的feature map專注于不同的特征的作用,例如A特征在一通道上更顯著,B特征在另一通道上更顯著。

Batch Normalization(2015)

論文:Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

論文中關于BN提出的解釋:訓練深度神經(jīng)網(wǎng)絡非常復雜,因為在訓練過程中,隨著先前各層的參數(shù)發(fā)生變化,各層輸入的分布也會發(fā)生變化,圖層輸入分布的變化帶來了一個問題,因為圖層需要不斷適應新的分布,因此訓練變得復雜,隨著網(wǎng)絡變得更深,網(wǎng)絡參數(shù)的細微變化也會放大。

由于要求較低的學習率和仔細的參數(shù)初始化,這減慢了訓練速度,并且眾所周知,訓練具有飽和非線性的模型非常困難。我們將此現(xiàn)象稱為內(nèi)部協(xié)變量偏移,并通過歸一化層輸入來解決該問題。

其它的解釋:假設輸入數(shù)據(jù)包含多個特征x1,x2,…xn。每個功能可能具有不同的值范圍。例如,特征x1的值可能在1到5之間,而特征x2的值可能在1000到99999之間。

如下左圖所示,由于兩個數(shù)據(jù)不在同一范圍,但它們是使用相同的學習率,導致梯度下降軌跡沿一維來回振蕩,從而需要更多的步驟才能達到最小值。且此時學習率不容易設置,學習率過大則對于范圍小的數(shù)據(jù)來說來回震蕩,學習率過小則對范圍大的數(shù)據(jù)來說基本沒什么變化。

如下右圖所示,當進行歸一化后,特征都在同一個大小范圍,則loss landscape像一個碗,學習率更容易設置,且梯度下降比較平穩(wěn)。

歸一化方法總結 | 又名“BN和它的后浪們“

實現(xiàn)算法:

歸一化方法總結 | 又名“BN和它的后浪們“

在一個batch中,在每一BN層中,對每個樣本的同一通道,計算它們的均值和方差,再對數(shù)據(jù)進行歸一化,歸一化的值具有零均值和單位方差的特點,最后使用兩個可學習參數(shù)gamma和beta對歸一化的數(shù)據(jù)進行縮放和移位。

此外,在訓練過程中還保存了每個mini-batch每一BN層的均值和方差,最后求所有mini-batch均值和方差的期望值,以此來作為推理過程中該BN層的均值和方差。

注:BN放在激活函數(shù)后比放在激活函數(shù)前效果更好。

實際效果:

1)與沒有BN相比,可使用更大的學習率

2)防止過擬合,可去除Dropout和Local Response Normalization

3)由于dataloader打亂順序,因此每個epoch中mini-batch都不一樣,對不同mini-batch做歸一化可以起到數(shù)據(jù)增強的效果。

4)明顯加快收斂速度

5)避免梯度爆炸和梯度消失

注:BN存在一些問題,后續(xù)的大部分歸一化論文,都是在圍繞BN的這些缺陷來改進的。為了行文的方便,這些缺陷會在后面各篇論文中逐一提到。

BN、LN、IN和GN的區(qū)別與聯(lián)系

下圖比較明顯地表示出了它們之間的區(qū)別。(N表示N個樣本,C表示通道,這里為了表達方便,把HxW的二維用H*W的一維表示。)

歸一化方法總結 | 又名“BN和它的后浪們“

后面這三個解決的主要問題是BN的效果依賴于batch size,當batch size比較小時,性能退化嚴重�？梢钥吹�,IN,LN和GN都與batch size無關。

它們之間的區(qū)別在于計算均值和方差的數(shù)據(jù)范圍不同,LN計算單個樣本在所有通道上的均值和方差,IN值計算單個樣本在每個通道上的均值和方差,GN將每個樣本的通道分成g組,計算每組的均值和方差。

它們之間的效果對比。(注:這個效果是只在同一場合下的對比,實際上它們各有自己的應用場景,且后三者在各自的應用場合上都明顯超過了BN)

歸一化方法總結 | 又名“BN和它的后浪們“

Instance Normalization(2016)

論文:Instance Normalization: The Missing Ingredient for Fast Stylization

在圖像視頻等識別任務上,BN的效果是要優(yōu)于IN的。但在GAN,style transfer和domain adaptation這類生成任務上,IN的效果明顯比BN更好。

從BN與IN的區(qū)別來分析產(chǎn)生這種現(xiàn)象的原因:BN對多個樣本統(tǒng)計均值和方差,而這多個樣本的domain很可能是不一樣的,相當于模型把不同domain的數(shù)據(jù)分布進行了歸一化。

Layer Normalization (2016)

論文:Layer Normalization

BN的第一個缺陷是依賴Batch size,第二個缺陷是對于RNN這樣的動態(tài)網(wǎng)絡效果不明顯,且當推理序列長度超過訓練的所有序列長度時,容易出問題。為此,提出了Layer Normalization。

當我們以明顯的方式將批歸一化應用于RNN時,我們需要為序列中的每個時間步計算并存儲單獨的統(tǒng)計信息。如果測試序列比任何訓練序列都長,這是有問題的。LN沒有這樣的問題,因為它的歸一化項僅取決于當前時間步長對層的總輸入。它還只有一組在所有時間步中共享的增益和偏置參數(shù)。(注:LN中的增益和偏置就相當于BN中的gamma 和beta)

LN的應用場合:RNN,transformer等。

Group Normalization(2018)

論文:Group Normalization

如下圖所示,當batch size減少時,BN退化明顯,而Group Normalization始終一致,在batch size比較大的時候,略低于BN,但當batch size比較小的時候,明顯優(yōu)于BN。

歸一化方法總結 | 又名“BN和它的后浪們“

但GN有兩個缺陷,其中一個是在batchsize大時略低于BN,另一個是由于它是在通道上分組,因此它要求通道數(shù)是分組數(shù)g的倍數(shù)。

GN應用場景:在目標檢測,語義分割等要求盡可能大的分辨率的任務上,由于內(nèi)存限制,為了更大的分辨率只能取比較小的batch size,可以選擇GN這種不依賴于batchsize的歸一化方法。

GN實現(xiàn)算法

歸一化方法總結 | 又名“BN和它的后浪們“

Weights Normalization(2016)

論文:Weight Normalization: A Simple Reparameterization to Accelerate Training of Deep Neural Networks

前面的方法都是基于feature map做歸一化,這篇論文提出對Weights做歸一化。

解釋這個方法要費挺多筆墨,這里用一句話來解釋其主要做法:將權重向量w分解為一個標量g和一個向量v,標量g表示權重向量w的長度,向量v表示權重向量的方向。

這種方式改善了優(yōu)化問題的條件,并加速了隨機梯度下降的收斂,不依賴于batch size的特點,適用于循環(huán)模型(如 LSTM)和噪聲敏感應用(如深度強化學習或生成模型),而批量歸一化不太適合這些應用。

Weight Normalization也有個明顯的缺陷:WN不像BN有歸一化特征尺度的作用,因此WN的初始化需要慎重,為此作者提出了對向量v和標量g的初始化方法。

Batch Renormalization(2017)

論文:Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-Normalized Models

前面我們提到BN使用訓練過程中每個mini-batch的均值和方差的期望作為推理過程中的均值和方差,這樣做的前提是mini-batch與樣本總體是獨立同分布的。因此BN的第三個缺陷是當mini-batch中的樣本非獨立同分布時,性能比較差。

基于第一個缺陷batchsize太小時性能退化和第三個缺陷,作者提出了Batch Renormalization(簡稱BRN)。

BRN與BN的主要區(qū)別在于BN使用訓練過程中每個mini-batch的均值和方差的期望來當作整個數(shù)據(jù)集的均值和方差,而訓練過程中每個mini-batch都有自己的均值和方差,因此在推理階段的均值和方差與訓練時不同,而BRN提出在訓練過程中就不斷學習修正整個數(shù)據(jù)集的均值和方差,使其盡可能逼近整個數(shù)據(jù)集的均值和方差,并最終用于推理階段。

BRN實現(xiàn)算法如下:

歸一化方法總結 | 又名“BN和它的后浪們“