深蘭DeepBlueAI團隊少量數(shù)據關系抽取論文被錄用
近日,EMNLP 2021在官網提前公布了今年的論文審稿結果,深蘭DeepBlueAI團隊論文《MapRE: An Effective Semantic Mapping Approach for Low-resource Relation Extraction》被錄用。該論文提出了在低資源關系提取任務中融合同類別樣本間句子相關性信息和關系標簽語義兩個方面的信息的方法,并在多個關系提取類任務的公開數(shù)據集的實驗中得到了SOTA結果。
2021
Nov
EMNLP(全稱Conference on Empirical Methods in Natural Language Processing)是國際自然語言處理頂級會議,由ACL SIGDAT主辦,每年舉辦一次,在Google Scholar計算語言學刊物指標中排名第二,主要關注統(tǒng)計機器學習方法在自然語言處理領域的應用。近幾年隨著大規(guī)模數(shù)據的機器學習方法的發(fā)展,該會議人數(shù)逐年增加,受到越來越廣泛地關注。
EMNLP論文入選標準極為嚴格,EMNLP 2021共收到有效投稿3114篇,錄用754篇,錄用率僅為24.82%。按照慣例,EMNLP 2021評選了最佳長論文、最佳短論文、杰出論文和最佳Demo論文四大獎項,共7篇論文入選。
今年EMNLP 2021 將于11月7日 - 11日在多米尼加共和國蓬塔卡納和線上聯(lián)合舉辦,會議為期五天,復旦大學計算機科學學院教授黃萱菁將擔任本次會議的程序主席。在即將召開的EMNLP學術會議上將展示自然語言處理領域的前沿研究成果,這些成果也將代表著相關領域和技術細分中的研究水平以及未來發(fā)展方向。
深蘭DeepBlueAI團隊的論文提出了在低資源關系提取任務中融合同類別樣本間句子相關性信息和關系標簽語義兩個方面信息的方法,并在多個關系提取類任務的公開數(shù)據集的實驗中得到了SOTA結果。
關系提取旨在發(fā)現(xiàn)給定句子中兩個實體之間的正確關系,是NLP中的一項基本任務。該問題通常被視為有監(jiān)督的分類問題,由大規(guī)模標記數(shù)據進行訓練。近年來,關系提取模型得到了明顯的發(fā)展。然而,訓練樣本過少時,模型性能會急劇下降。
在最近工作中,深蘭DeepBlueAI團隊利用小樣本學習的進步來解決低資源問題。少樣本學習的關鍵思想是學習一個用來比較query和support set samples中樣本相似度的模型,這樣,關系抽取的目標從學習一個通用的、準確的關系分類器變?yōu)閷W習一個將具有相同關系的實例映射到相近區(qū)域的映射模型。在少樣本學習的設定下,標簽信息,即包含關系本身語義知識的關系標簽,在訓練和預測時并沒有被模型用到。深蘭DeepBlueAI團隊的實驗結果表明,在預訓練和微調中結合上述標簽信息和各關系類別的樣本兩類映射可以顯著提高模型在少樣本關系提取任務上的表現(xiàn)。
01
語義映射預訓練
預訓練部分的目標函數(shù)由三個部分組成:
CCR: 樣本表示間損失
CRR:樣本與標簽間損失
MLM:語言模型損失,同BERT
深蘭DeepBlueAI團隊采取類似CP (Peng et al., 2020)的方法中對模型進行預訓練。不同之處在于團隊還考慮了標簽信息,使用Wikidata作為預訓練語料庫,去除了Wikidata和DeepBlueAI團隊用于后續(xù)實驗的數(shù)據集之間的重復部分。
本部分中,深蘭DeepBlueAI團隊使用BERT base作為基礎模型,采用AdamW優(yōu)化器,最大輸入長度設置為60。深蘭DeepBlueAI團隊共訓練了11,000步,其中前500步為warmup,batch size設為2040,學習比率為3e-5。
02
監(jiān)督性關系抽取
本部分深蘭DeepBlueAI團隊一共試驗了MapRE預訓練模型的兩種使用方式,即MapRE-L(直接使用全連接層對文本編碼輸出預測關系)和MapRE-R(采用關系編碼器編碼關系標簽,再做相似度匹配),模型結構如圖:
在監(jiān)督性關系抽取任務中深蘭科技評估兩個基準數(shù)據集:ChemProt和Wiki80。前者包括56,000個實例和80種關系,后者包括10,065個實例和13種關系。
實驗結果如下:
這里深蘭DeepBlueAI團隊重點關注低資源關系抽取,選取以下三個有代表性的模型進行比較。
1)BERT:該模型在文本的頭實體和尾實體部分分別增加特殊的標記token,在BERT輸出后接幾個全連接層用于關系分類。
2)MTB (Soares et al., 2019):MTB模型假設無監(jiān)督數(shù)據中頭實體和尾實體相同的句子均為正樣本對,即具有相同的關系。在測試階段,對query和support set的相似度得分進行排名,將得分最高的關系作為預測結果。
3)CP (Peng et al., 2020):同MTB類似,我們的方法同CP模型的不同點在于,我們在預訓練和微調時均考慮了標簽信息。
我們可以觀察到:
1)在BERT上進行預訓練(即MTB, CP和MapRE)可以提高模型性能
2)比較MapRE-L與CP和MTB,在預訓練期間添加標簽信息可以顯著提高模型性能,尤其是在資源極少的情況下,例如僅1%的訓練集用于微調
3) 比較 MapRE-R 和 MapRE-L,其中前者在微調中也考慮了標簽信息,表現(xiàn)出更好更穩(wěn)定的實驗結果
結果表明在預訓練和微調中使用標簽信息均可顯著提高低資源監(jiān)督性關系抽取任務上的模型性能。
03
少樣本與零樣本關系抽取
在少樣本學習的情況下,模型需要在只有給定一定關系類別,每個類別少數(shù)樣本的情況下進行預測。對于N way K shot問題,Support set S包含N個關系,每個關系有K個樣本,查詢集包含Q個樣本,每個樣本屬于 N 個關系之一。
該模型結構如下:
模型預測結果由下式得出:
深蘭DeepBlueAI團隊在兩個數(shù)據集上評估提出的方法:FewRel和NYT-25。FewRel 數(shù)據集包含70,000個句子和100個關系(每個關系有700個句子),數(shù)據來源為維基百科。其中64個關系用于訓練,16個用于驗證,以及20個用于測試。測試數(shù)據集包含 10,000 個句子,必須在線評估。NYT-25數(shù)據集是由Gao et al., 2019。DeepBlueAI團隊隨機抽取 10 個關系用于訓練,5 個用于驗證,10 個用于測試。
實驗結果如下:
如上表所示,在所有的實驗設置下,深蘭DeepBlueAI團隊提出的MapRE,由于在預訓練和微調中均考慮了support set樣本句子和關系標簽信息,提供了穩(wěn)定的性能表現(xiàn),并大幅優(yōu)于一系列baseline方法。結果證明了團隊提出的框架的有效性,并表明了關系抽取中關系標簽語義映射信息的重要性。
深蘭DeepBlueAI團隊進一步考慮了低資源關系抽取的極端條件,即零樣本的情況。在該設定下,模型輸入不包含任何support set樣本。在零樣本條件下,以上大部分少樣本關系抽取框架不適用,因為其它該類模型的每個關系類別中至少需要有一個樣本。
結果表明,與其它最近零樣本學習工作相比,深蘭DeepBlueAI團隊提出的MapRE在所有設定下都獲得了出色的表現(xiàn),證明了MapRE的有效性。
總結
在這項工作中,深蘭DeepBlueAI團隊提出了一種同時考慮標簽信息和樣本信息的關系抽取模型,MapRE。大量實驗結果表明,MapRE模型對監(jiān)督性關系抽取、少樣本關系抽取和零樣本關系抽取任務中展示了出色的表現(xiàn)。結果表明樣本和標簽信息兩者在預訓練和微調中都起到了重要作用。在這項工作中,深蘭DeepBlueAI團隊沒有研究領域遷移造成的潛在影響,我們將相關分析作為下一步的工作。
綜上,深蘭DeepBlueAI團隊提出的MapRE模型結合了零樣本和少樣本學習的特點,結合了同關系樣本和關系語義兩個方面的信息,目前已在深蘭科技智能數(shù)據標注平臺文本關系抽取功能中得以應用,大幅提升了模型在少量訓練樣本下的表現(xiàn),在數(shù)據的智能標注等領域可大幅節(jié)省人力,提升標注效率及標注質量。
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-11.13立即報名>>> 【在線會議】多物理場仿真助跑新能源汽車
-
11月28日立即報名>>> 2024工程師系列—工業(yè)電子技術在線會議
-
12月19日立即報名>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網產業(yè)大會
-
即日-12.26火熱報名中>> OFweek2024中國智造CIO在線峰會
-
即日-2025.8.1立即下載>> 《2024智能制造產業(yè)高端化、智能化、綠色化發(fā)展藍皮書》
-
精彩回顧立即查看>> 【限時免費下載】TE暖通空調系統(tǒng)高效可靠的組件解決方案
推薦專題
-
5 夾縫中的文遠知行
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結構工程師 廣東省/深圳市