国亚洲欧美日韩精品,亚洲自偷自偷图片

2020 年 10 篇必讀的 NLP 突破論文 LIST

2020-12-30 15:27

7、全新的 NLP 模型測試方法 “CheckList”

開發(fā)諸如 GLUE（General Language Understanding Evaluation）和 SuperGLUE 之類的基準(zhǔn)，可以用來評(píng)估經(jīng)過微調(diào)的 NLP 模型執(zhí)行自然語言理解任務(wù)的能力。通常，將 NLP 模型的性能與驗(yàn)證準(zhǔn)確性的結(jié)果進(jìn)行比較。需要注意，使用驗(yàn)證準(zhǔn)確性存在固有的局限性，例如過擬合，驗(yàn)證集的數(shù)據(jù)分布不同等均可能干擾正確的判斷。

而在 ACL 2020 年的 Best Paper 論文 “Beyond Accuracy： Behavioral Testing of NLP Models with CheckList” 中，作者提出了一個(gè)框架，一種新的 NLP 模型評(píng)測方法：CHECKLIST。CHECKLIST 借鑒了傳統(tǒng)軟件工程的測試準(zhǔn)則，通過模板快速生成大量樣例，全面測試模型的各種能力，可以用于幾乎所有 NLP 任務(wù)。

CHECKLIST 建議使用三種不同的測試方法：

?最小功能測試（MFT， Minimum Functionality Tests），其中使用預(yù)期的金標(biāo)生成示例；

?不變性測試（INV， INVariance Tests），其中從給定的示例中，創(chuàng)建新示例，其中金標(biāo)被翻轉(zhuǎn)；

?方向預(yù)期測試（DIR， Directional Expectation Tests）對(duì)原始句子進(jìn)行修改，金標(biāo)往期望的方向（正向／負(fù)向）變化。

作者建議對(duì)于 NLP 模型的每一種能力，都盡量采用這三種測試方法測試一遍。

一句話總結(jié)現(xiàn)實(shí)影響：CheckList 可用于為各種 NLP 任務(wù)創(chuàng)建更詳盡的測試，有助于識(shí)別更多的錯(cuò)誤的，帶來更強(qiáng)大的 NLP 系統(tǒng)。

該論文在 ACL 2020 上獲得了最佳論文獎(jiǎng)（Best Paper）。

8、重新評(píng)估自動(dòng)機(jī)器翻譯評(píng)估指標(biāo)

自動(dòng)化指標(biāo)是開發(fā)和評(píng)估機(jī)器翻譯系統(tǒng)的基礎(chǔ)。判斷自動(dòng)化度量標(biāo)準(zhǔn)是否與人類評(píng)估的黃金標(biāo)準(zhǔn)相一致，并非易事。

墨爾本大學(xué)計(jì)算與信息系統(tǒng)學(xué)院的這項(xiàng)研究表明，當(dāng)前的指標(biāo)評(píng)估方法對(duì)用于評(píng)估的翻譯系統(tǒng)非常敏感，尤其是存在異常值時(shí)，這通常會(huì)導(dǎo)致對(duì)評(píng)價(jià)效果產(chǎn)生錯(cuò)誤的自信判斷。例如，如果使用大量翻譯系統(tǒng)來計(jì)算領(lǐng)先指標(biāo)和人工評(píng)估之間的相關(guān)性，則該相關(guān)性通常很高（即 0．9）。但是，如果僅考慮幾個(gè)最佳系統(tǒng)，則相關(guān)性會(huì)顯著降低，在某些情況下甚至可能為負(fù)相關(guān)。

因此，他們提出了一種在自動(dòng)度量標(biāo)準(zhǔn)下以人為判斷為閾值提高性能的方法，可以量化所引起的 I 型錯(cuò)誤與 II 型錯(cuò)誤，即可以接受的人類評(píng)判質(zhì)量差異，以及不能接受的人類評(píng)判差異。與 BLEU 和 TER 相比，優(yōu)先考慮 chrF，YiSi－1 和 ESIM 等評(píng)估指標(biāo)。

一句話總結(jié)現(xiàn)實(shí)影響：這些發(fā)現(xiàn)對(duì)機(jī)器翻譯中的度量評(píng)估和系統(tǒng)性能評(píng)估的協(xié)議進(jìn)行了改進(jìn)。

這項(xiàng)研究在 ACL 2020 上入圍榮譽(yù)提名論文獎(jiǎng)（Honorable Mention Papers）。

<上一頁 1 2 3 4 下一頁> 余下全文