訂閱
糾錯
加入自媒體

2020 年 10 篇必讀的 NLP 突破論文 LIST

盡管 2020 年是充滿挑戰(zhàn)的一年,但人工智能學(xué)術(shù)研究并未因此停滯,仍然誕生了許多有意義的技術(shù)突破。在 NLP 領(lǐng)域,OpenAI 的 GPT-3 可能是其中最 “出圈” 的,但除它之外,肯定還有很多其他研究論文值得關(guān)注。

整體來看,2020 年的主要 NLP 研究進(jìn)展仍以大型預(yù)訓(xùn)練語言模型為主,特別是 transformers。今年出現(xiàn)了許多有趣的更新,使得 transformers 架構(gòu)更加高效,更適用于長文檔。

另一個熱點(diǎn)話題與 NLP 模型在不同應(yīng)用中的評估有關(guān)。業(yè)界仍然缺乏普適的評估方法以清晰定義一個模型究竟哪里失敗了,以及如何修復(fù)這些問題。

另外,隨著 GPT-3 等語言模型能力的不斷增強(qiáng),對話式人工智能正受到新一輪的關(guān)注。聊天機(jī)器人正在不斷改進(jìn),今年頂級技術(shù)公司推出的多款聊天機(jī)器人(例如 Meena 和 Blender 等)令人印象深刻。

在 2020 年年尾,國外 AI 技術(shù)博客 topbots.com 總結(jié)了 2020 年的 10 篇重要機(jī)器學(xué)習(xí)研究論文,入選論文也多為今年的頂會論文獎斬獲者,具有較高的權(quán)威度,“數(shù)據(jù)實(shí)戰(zhàn)派” 在此基礎(chǔ)上有所延伸,以便讓讀者對今年的 NLP 研究進(jìn)展有一個大致的了解,當(dāng)然,名單之外,也仍有很多突破性的論文值得閱讀。也歡迎讀者后臺留言與我們交流反饋。

2020 年 10 篇必讀的 NLP 突破論文 LIST:

1.WinoGrande: An Adversarial Winograd Schema Challenge at Scale

2.Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

3.Reformer: The Efficient Transformer

4.Longformer: The Long-Document Transformer

5.ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators

6.Language Models are Few-Shot Learners

7.Beyond Accuracy: Behavioral Testing of NLP models with CheckList

8.Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics

9.Towards a Human-like Open-Domain Chatbot

10.Recipes for Building an Open-Domain Chatbot

1、WinoGrande 挑戰(zhàn)

WSC 挑戰(zhàn)是一個人類常識推理的測評集。它包含了 273 個由專家設(shè)計(jì)的問題,這些問題無法單純依靠統(tǒng)計(jì)模型來解決。但是,最近的語言模型在這個測試集上取得了 90% 的準(zhǔn)確率。這就提出了一個問題,即語言模型是真正學(xué)會了推理,還是僅僅依靠一些對數(shù)據(jù)集的偏好?

為回答這個問題,華盛頓大學(xué)艾倫人工智能研究所的一支團(tuán)隊(duì)提出了一個新的挑戰(zhàn) ——WINOGRANDE,一個用于常識推理的新的大規(guī)模數(shù)據(jù)集。WINOGRANDE 是對 WSC 挑戰(zhàn)的升級,同時增加了問題的難度和規(guī)模。

WINOGRANDE 的開發(fā)有兩大關(guān)鍵:在眾包設(shè)計(jì)過程中,眾包人員需要寫出符合 WSC 要求并包含某些 anchor words 的雙句子,最終收集的問題會通過一組眾包工作者進(jìn)行驗(yàn)證。在收集的 77,000 個問題中,有 53K 被視為有效。

另一個關(guān)鍵在于研究人員開發(fā)用于系統(tǒng)減少偏差的新穎算法 AfLite,將出現(xiàn)的人類可檢測偏差巧妙轉(zhuǎn)換為了基于嵌入的機(jī)器可檢測的偏差。應(yīng)用 AfLite 算法后,去除偏見的 WinoGrande 數(shù)據(jù)集包含 44K 樣本。

在 WINOGRANDE 測試集上,現(xiàn)在最好的方法只能達(dá)到 59.4 – 79.1% 的準(zhǔn)確率,比人類表現(xiàn)(94.0%)低 15%-35%。

一句話總結(jié)現(xiàn)實(shí)影響:有助于探索減少系統(tǒng)偏差的新算法,并避開其他 NLP 基準(zhǔn)的偏差。

這篇文章獲得了 AAAI2020 的最佳論文獎 (Outstanding Paper Award)。

2、打造更強(qiáng)大的 Transformer

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer 一文中,谷歌研究團(tuán)隊(duì)建議在 NLP 中采用統(tǒng)一的轉(zhuǎn)移學(xué)習(xí)方法,目標(biāo)是在該領(lǐng)域樹立一個新的標(biāo)準(zhǔn)。為此,他們提出將每個 NLP 問題都視為一個 "文本到文本" 的問題,這樣的框架將允許在不同的任務(wù)中使用相同的模型、目標(biāo)、訓(xùn)練過程和解碼過程,包括總結(jié)、情感分析、問題回答和機(jī)器翻譯。

研究人員將他們?yōu)榇舜蛟斓哪P停Q為文本到文本傳輸轉(zhuǎn)化器 (Transfer Text-to-Text Transformer,T5),并在大量網(wǎng)絡(luò)抓取數(shù)據(jù)的語料庫上對其進(jìn)行訓(xùn)練。

通過探索和比較現(xiàn)有的技術(shù),T5 的誕生為 NLP 領(lǐng)域的發(fā)展提供一個全面的視角。特別是提出把每個 NLP 問題都當(dāng)作文本到文本的任務(wù)來處理,為 NLP 的遷移引入了新的方法。由于在原始輸入句子中添加了特定任務(wù)的前綴(例如,"將英語翻譯成德語:","總結(jié):"),T5 可以理解應(yīng)該執(zhí)行哪些任務(wù)。

伴隨著 T5 的誕生,還有一個名為 C4 的數(shù)據(jù)集。研究團(tuán)隊(duì)從 Common Crawl(一個公開的網(wǎng)頁存檔數(shù)據(jù)集,每個月大概抓取 20TB 文本數(shù)據(jù)) 里整理出了 750 GB 的訓(xùn)練數(shù)據(jù),取名為 “Colossal Clean Crawled Corpus (超大型干凈爬取數(shù)據(jù))”,用來訓(xùn)練 T5.

最終,文中提到的 24 個任務(wù)中,擁有 110 億個參數(shù)的 T5 模型在 17 個任務(wù)上取得了最先進(jìn)的性能,包括:GLUE 得分 89.7 分,在 CoLA、RTE 和 WNLI 任務(wù)上的性能大幅提升;在 SQuAD 數(shù)據(jù)集上的精確匹配得分 90.06 分;SuperGLUE 得分 88.9,比之前最先進(jìn)的結(jié)果 (84.6) 有非常顯著的提高,非常接近人類的表現(xiàn) (89.8);在 CNN/Daily Mail 抽象總結(jié)任務(wù)中,ROUGE-2-F 得分 21.55。

一句話總結(jié)現(xiàn)實(shí)影響:即使該研究引入的模型仍具有數(shù)十億個參數(shù),并且可能過于笨重而無法在業(yè)務(wù)環(huán)境中應(yīng)用,但是所提出的思想,仍有助于改善不同 NLP 任務(wù)的性能,包括摘要、問題回答和情感分析。

3、更高效的 Reformer

因?yàn)閰?shù)數(shù)量非常大、需要存儲每一層的激活以進(jìn)行反向傳播、中間前饋層占內(nèi)存使用的很大一部分等諸多原因,Transformer 模型需要大量的計(jì)算資源。

面對這樣一個 “龐然大物”,往往只有大型研究實(shí)驗(yàn)室才有條件對其進(jìn)行實(shí)際訓(xùn)練。

為了解決這個問題,谷歌的研究團(tuán)隊(duì)在 Reformer: The Efficient Transformer 一文中,介紹了幾種可提高 Transformer 效率的技術(shù)。

特別是,他們建議,使用可逆層以僅對每個層而不是每個層存儲一次激活,以及通過局部敏感散列來避免昂貴的 softmax 計(jì)算。在多個文本任務(wù)上進(jìn)行的實(shí)驗(yàn)表明,該論文引入的 Reformer 模型可以與完整的 Transformer 的性能相匹配,但是運(yùn)行速度更快,內(nèi)存效率更高。Reformer 在表現(xiàn)出更高的速度和內(nèi)存效率的同時,可以與完整的 Transformer 模型媲美,例如,在將機(jī)器從英語翻譯成德語的 newstest2014 任務(wù)上,Reformer 基本模型的 BLEU 得分為 27.6 ,而 Transformer 的 BLEU 得分為 27.3 。

一句話總結(jié)現(xiàn)實(shí)影響:Reformer 實(shí)現(xiàn)的效率改進(jìn)可以助推更廣泛的 Transformer 應(yīng)用程序,特別是對于依賴于大上下文數(shù)據(jù)的任務(wù),例如文字生成、視覺內(nèi)容生成、音樂的產(chǎn)生、時間序列預(yù)測。

該論文被選為 ICLR 2020 的 oral presentation 。

1  2  3  4  下一頁>  
聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標(biāo)題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號