自然語言處理(NLP)技術(shù)不斷突破,谷歌Transformer再升級
當(dāng)我們在翻譯軟件上輸入 “Transformer is a novel neural network architecture based on a self-attention mechanism” 后,計算機就可以迅速將它翻譯為 “Transformer 是一種基于自注意力機制的新型神經(jīng)網(wǎng)絡(luò)架構(gòu)”,神奇的機器翻譯使得多語種互譯成為可能。
近年來,得益于機器學(xué)習(xí)的快速發(fā)展,自然語言處理(NLP)技術(shù)不斷突破,在人機交互、在線翻譯工具等領(lǐng)域的應(yīng)用層出不窮,不同語種的人與人、人與機器之間的無障礙自由交流得以實現(xiàn)。
當(dāng)前的主流機器翻譯主要是基于神經(jīng)網(wǎng)絡(luò)機器翻譯,這類方法是一個 “編碼器-解碼器”(encoder-decoder)架構(gòu)的系統(tǒng),編碼器對源語言序列進行編碼,并提取信息,然后通過解碼器把信息轉(zhuǎn)換為目標(biāo)語言,完成語言翻譯過程。
自 2017 年問世以來,基于“編碼器-解碼器”架構(gòu)設(shè)計的 Transformer 模型憑借其優(yōu)越的性能,已然成為機器翻譯領(lǐng)域的主流模型,在深度學(xué)習(xí)領(lǐng)域產(chǎn)生了巨大影響。
然而,Transformer 模型并非完美,模型引入self-attention機制雖實現(xiàn)了快速并行的訓(xùn)練,但在長序列文本的處理問題上,卻需要占據(jù)大量計算資源,導(dǎo)致模型訓(xùn)練成本提高。
近日,由 Google、劍橋大學(xué)、DeepMind 和艾倫·圖靈研究院(Alan Turing Institute)的研究人員組成的團隊基于正交隨機特征的快速注意力(Fast Attention Via Positive Orthogonal Random Features,F(xiàn)AVOR+)機制,提出了一種新的 Transformer 模型——Performer。相比于 Transformer 模型,新模型無需做出過度調(diào)整就可以變得更加高效和節(jié)能。
Performer 模型的技術(shù)突破
2017 年,谷歌大腦(Google Brain)的 Ashish Vaswani 等人發(fā)表了一篇題為 “Attention Is All You Need” 的論文,首次提出一種基于自注意力機制的 Transformer 模型。
Transformer 模型顛覆了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的架構(gòu),彌補了卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)存在的不足,在語義特征提取、長距離特征捕獲、任務(wù)綜合特征抽取等自然語言處理方面表現(xiàn)出了更優(yōu)的性能,在自然語言處理、人機對話、圖像處理等許多領(lǐng)域都達到了當(dāng)時最好的水平(SOTA)。
Transformer 架構(gòu)的核心模塊是自注意力模塊,模型在處理每個單詞(輸入序列中的每個位置)時,自注意力模塊通過計算輸入序列中所有位置對的相似度分?jǐn)?shù),來尋找能夠幫助更好地編碼該單詞的線索。
然而,隨著輸入序列長度的增加,模型需要二次方的計算時間來產(chǎn)生所有相似度分?jǐn)?shù),所需計算內(nèi)存也隨之增加,注意力機制面臨的效率問題也越來越突出。
針對那些需要長距離關(guān)注的應(yīng)用,在 Transformer 基礎(chǔ)上已經(jīng)有一些研究者提出了幾種快速的、空間利用率高的改進方法,但是大部分常見方法都依賴于稀疏注意力機制。
然而,稀疏注意力機制仍存在一定的局限性。
(1)它們需要高效的稀疏矩陣乘法運算,而這些運算并不是在所有加速器上都能實現(xiàn)的;(2)它們通常不能為其表示能力提供嚴(yán)格的理論保證;(3)它們主要針對 Transformer 模型和生成式預(yù)訓(xùn)練進行優(yōu)化;(4)它們通常會疊加更多的注意力層來補償稀疏表示,這使得它們很難與其他預(yù)訓(xùn)練模型一起使用,因此需要重新訓(xùn)練并消耗大量能量。
此外,稀疏注意機制通常仍然不足以解決常規(guī)注意方法應(yīng)用的全部問題,如指針網(wǎng)絡(luò)。還有一些運算不能被稀疏化,如在工業(yè)級推薦系統(tǒng)中被大量應(yīng)用的 softmax 運算。
Performer 使用了一個高效的(線性)廣義注意力框架,能夠?qū)ΤR?guī)(softmax)全階注意力進行可證明的、準(zhǔn)確的、實用的估計,不依賴于任何稀疏性或低階等先驗條件,從而實現(xiàn)更快的訓(xùn)練速度,同時允許模型處理更長的序列,這一特性恰恰滿足了 ImageNet64 圖像數(shù)據(jù)集和PG-19文本數(shù)據(jù)集的要求。
Performer 模型通過正交隨機特征(FAVOR+)算法實現(xiàn)快速注意力機制,并改用 Positive Orthogonal Random Features 估計 softmax 和高斯核函數(shù),以實現(xiàn)在 FAVOR+ 機制中對常規(guī) softmax 注意力進行魯棒且無偏的估計。
研究人員表示:“Performer 是第一個通過微調(diào)可以與常規(guī) Transformers 進行完全兼容的線性架構(gòu)”。
左圖 | 原點對稱的通用函數(shù) r(定義為建立在:三角隨機特征和正隨機特征上的估計器的均方誤差(MSEs)的比值)是輸入特征向量與其長度l之間的角度 φ(以弧度為單位)的函數(shù), 函數(shù)的數(shù)值越大表示正隨機特征性能越好的(φ,l)空間區(qū)域;
右圖 | 當(dāng)l為定值 1 時,與變化的角度 φ 構(gòu)成的函數(shù) r 為正切函數(shù);右上角 | 比較低 softmax 內(nèi)核值區(qū)域中兩個估算器的 MSE。
作者通過比較發(fā)現(xiàn),對于 φ 足夠大的臨界區(qū)域,該方法所使用的正交隨機特征比任意的三角隨機特征更精確。
圖| 我們將原始的經(jīng)過預(yù)訓(xùn)練的 Transformer 的權(quán)重轉(zhuǎn)移到 Performer 中,Performer 產(chǎn)的精度達到 0.07 (橙色虛線),但在原來的梯度步數(shù)的一小部分中,很快就恢復(fù)了精度。然而在 PG-19 上,三角法(TRIG) softmax 逼近變得非常不穩(wěn)定,而正特征(POS)(不重繪)和 Linformer (也是逼近 softmax)即使在重繪投影的情況下,也會在同樣的復(fù)雜度中趨于平穩(wěn)。具有特征重繪的正 softmax 是匹配 Transformer 的必要條件,SMREG 可實現(xiàn)更快的收斂。
這篇論文利用詳細的數(shù)學(xué)定理,證明了與其單純依靠計算資源來提升性能,還不如開發(fā)出改進的、高效的 Transformer 架構(gòu),來顯著降低能耗。同時,由于 Performers 使用了與 Transformer 相同的訓(xùn)練超參數(shù),也可以有效訓(xùn)練基于 softmax 的線性 Transformer。因此 FAVOR+ 機制可以作為一個簡單的插件,而無需進行過多的調(diào)整。
Performer 模型應(yīng)用前景廣泛
研究人員表示,Performer 模型的提出,顯著降低了常規(guī) Transformer 的空間和時間復(fù)雜度,并在 Transformer 的研究以及非稀疏注意機制的作用方面開辟了新的途徑。
該論文利用詳細的數(shù)學(xué)定理,證明了與其單純依靠計算資源來提升性能,還不如開發(fā)出改進的、高效的 Transformer 架構(gòu),來顯著降低能耗。同時,由于 Performers 使用了與 Transformer 相同的訓(xùn)練超參數(shù),因此 FAVOR+ 機制可以作為一個簡單的插件,而無需進行過多的調(diào)整。
該團隊在一系列豐富的場景下測試了 Performers 的性能,執(zhí)行的任務(wù)包括像素預(yù)測、蛋白質(zhì)序列建模。在實驗設(shè)置中,一個 Performer 只用 FAVOR+ 機制取代了常規(guī) Transformer 的注意力組件。
在使用蛋白質(zhì)序列訓(xùn)練一個 36 層模型的挑戰(zhàn)性任務(wù)上,基于 Performer 的模型(Performer-RELU)的性能優(yōu)于基線 Transformer 模型:Reformer 和 Linformer,后者的準(zhǔn)確率顯著下降。
在標(biāo)準(zhǔn)的 ImageNet64 基準(zhǔn)上,具有 6 層的 Performer 與具有 12 層的 Reformer 的準(zhǔn)確性相當(dāng)。優(yōu)化后,Performer 的速度達到了 Reformer 的兩倍。
研究人員表示,由于基于 Performer 的可擴展 Transformer 架構(gòu)可以處理更長的序列,而不受注意力機制結(jié)構(gòu)的限制,同時保持準(zhǔn)確和魯棒性,相信它們可以在生物信息學(xué)領(lǐng)域帶來新的突破,如蛋白質(zhì)的語言建模等技術(shù)已經(jīng)顯示出強大的潛力。
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-10.29立即報名>> 2024德州儀器嵌入式技術(shù)創(chuàng)新發(fā)展研討會
-
10月31日立即下載>> 【限時免費下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報名>>> 【在線會議】多物理場仿真助跑新能源汽車
-
11月28日立即報名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會議
-
12月19日立即報名>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
-
即日-12.26火熱報名中>> OFweek2024中國智造CIO在線峰會
推薦專題
- 1 AI+賦能新質(zhì)生產(chǎn)力——中國移動政企亮相中國國際信息通信展覽會
- 2 格創(chuàng)東智“工博會時間”:人機協(xié)同系統(tǒng)精彩亮相,解鎖裝備智造提效的秘訣
- 3 擁抱 AI 時代,共贏存儲產(chǎn)業(yè)未來!第三屆GMIF2024創(chuàng)新峰會在深圳成功召開
- 4 大模型“新星”開啟變現(xiàn)競速
- 5 PT Expo現(xiàn)場直擊!看星融元如何探索開放網(wǎng)絡(luò)新境界
- 6 三次錯誤選擇,導(dǎo)致英特爾“跌落神壇”
- 7 【一周車話】沒有方向盤和踏板的車,你敢坐嗎?
- 8 云上工博會收官丨看見思谷向上的工業(yè)力量!
- 9 海信給AI電視打樣,12大AI智能體全面升級大屏體驗
- 10 AI 投流卷哭創(chuàng)業(yè)者
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市