AI研究員收集NLP數(shù)據(jù)的四種創(chuàng)意方法
數(shù)據(jù)是推動(dòng)AI發(fā)展的催化劑,但如果要收集有效的數(shù)據(jù),這就需要AI專家富有創(chuàng)造性了。自然語言處理(NLP)是AI的一個(gè)子域,側(cè)重于教計(jì)算機(jī)如何解析人類語言。在MIT的年度自然語言處理實(shí)證方法會(huì)議(EMNLP 2018)中,來自微軟、臉譜網(wǎng)和谷歌等科技公司或組織的AI專家們介紹了一大系列收集信息的新穎方法,本文主要總結(jié)了其中令人印象深刻的四種方法。
1. 混合語言(Spanish+English=Spanglish)
微軟在多語種NLP的論文提出了一種專注于處理“混合語言”的方法,即在夾雜不同語言的文本或語音中自由切換,考慮到世界上超過一半的人口使用多語言,這個(gè)對(duì)此前未涉及領(lǐng)域的研究非常重要。
研究人員從西班牙語和英語著手,不過他們?nèi)鄙僮懔康奈靼嘌勒Z文本來訓(xùn)練機(jī)器。正如混合代碼,很少能找到包含多語言會(huì)話的文本,研究人員編寫了一個(gè)程序克服這個(gè)挑戰(zhàn):把流行英語文本錄入到微軟的必應(yīng)翻譯器,然后將以詞組為單位翻譯的西班牙語譯文轉(zhuǎn)入源文本,確保交換的單詞和短語具備同樣的意思。通過這種方式,他們能夠創(chuàng)建出足夠多的西班牙式英語。
通過這種方式產(chǎn)生的NLP模型明顯優(yōu)于之前只用西班牙語或只用英語訓(xùn)練的模型。研究人員希望他們的工作最終能幫助開發(fā)多語言聊天機(jī)器人。
2. 食譜
食譜以圖文并茂和循序漸進(jìn)的方式教人如何做菜,類似這種的方法也可以被用來訓(xùn)練機(jī)器:用結(jié)構(gòu)數(shù)據(jù)教會(huì)機(jī)器同時(shí)理解文本和圖像。土耳其哈斯特帕大學(xué)的研究人員匯編了一套涵蓋兩萬多本插圖烹飪食譜的大型數(shù)據(jù)集,他們希望將此作為用于訓(xùn)練機(jī)器文本-圖像理解性能的基準(zhǔn)測(cè)試的新資源。
這個(gè)所謂的“食譜QA”的數(shù)據(jù)集是建立在先前的研究基礎(chǔ)之上,此前的研究分別側(cè)重機(jī)器閱讀理解和視覺理解能力,對(duì)于前者,機(jī)器必須理解問題和相關(guān)段落才能找到答案,而對(duì)于后者,機(jī)器只能在相關(guān)圖像中搜索答案。文本和圖像的并排增加了任務(wù)的復(fù)雜性,因?yàn)檫@會(huì)呈現(xiàn)出互補(bǔ)或多余的信息。
3. 短句
谷歌希望用AI潤(rùn)色散文,研究人員為此創(chuàng)造了有史以來最大的數(shù)據(jù)集:將長(zhǎng)句縮減成短句,但兩者具備相同意義。在哪里才能找到大量的編輯數(shù)據(jù)呢?當(dāng)然是維基百科了。
研究團(tuán)隊(duì)從維基百科豐富的編輯歷史中提取了拆分長(zhǎng)句的實(shí)例,結(jié)果顯示,相比以前的基準(zhǔn)數(shù)據(jù)集,這次任務(wù)中發(fā)現(xiàn)了60倍不同的句子拆分例子和90倍的詞匯單詞,而且數(shù)據(jù)集跨越多種語言。
當(dāng)研究人員用新的數(shù)據(jù)訓(xùn)練機(jī)器學(xué)習(xí)模型時(shí),其準(zhǔn)確度(這里的準(zhǔn)確度是指句子被重寫后其意義和語法保持正確的比例)高達(dá)91%,相比之下,用先前數(shù)據(jù)進(jìn)行訓(xùn)練的模型僅達(dá)到32%的準(zhǔn)確度,最后,研究人員結(jié)合了兩個(gè)數(shù)據(jù)集并用此對(duì)第三個(gè)模型進(jìn)行了訓(xùn)練,準(zhǔn)確度達(dá)到了95%。因此,研究人員得出結(jié)論,可以通過尋找更多的數(shù)據(jù)來源實(shí)現(xiàn)更好的效果。
4. 社交媒體的偏差
相關(guān)研究已表明,人類創(chuàng)造的語言是人類種族、性別和年齡很好的一個(gè)預(yù)測(cè)指標(biāo),即使這些信息從未被明確地陳述過。因此,以色列巴伊蘭大學(xué)和艾倫AI研究所的研究人員試圖利用AI通過移除這些內(nèi)嵌指標(biāo)來消除文本中的偏差。
為了獲取足夠數(shù)據(jù)代表基于不同人口統(tǒng)計(jì)的語言模式,他們轉(zhuǎn)向了Twitter平臺(tái),收集了幾組不同用戶的推文,其中的對(duì)比組用戶包括非西班牙裔的白人和非西班牙裔的黑人、男性和女性、18-34歲和35歲以上。
研究人員采用一種對(duì)抗方式將兩個(gè)神經(jīng)網(wǎng)絡(luò)相互對(duì)立,查看其是否能自動(dòng)除去推文中內(nèi)在的人口統(tǒng)計(jì)指標(biāo)。其中一個(gè)神經(jīng)網(wǎng)絡(luò)試圖預(yù)測(cè)人口統(tǒng)計(jì)學(xué),而另一個(gè)試圖將文本調(diào)整到完全中立的狀態(tài),其目的是將第一個(gè)模型的預(yù)測(cè)準(zhǔn)確度(或可能性)降低到50%。通過這種方式能顯著減低種族,性別和年齡的指標(biāo),但無法完全消除。
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
10月31日立即下載>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報(bào)名>>> 【在線會(huì)議】多物理場(chǎng)仿真助跑新能源汽車
-
11月28日立即報(bào)名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國(guó)智造CIO在線峰會(huì)
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
推薦專題
- 1 【一周車話】沒有方向盤和踏板的車,你敢坐嗎?
- 2 特斯拉發(fā)布無人駕駛車,還未迎來“Chatgpt時(shí)刻”
- 3 特斯拉股價(jià)大跌15%:Robotaxi離落地還差一個(gè)蘿卜快跑
- 4 馬斯克給的“驚喜”夠嗎?
- 5 打完“價(jià)格戰(zhàn)”,大模型還要比什么?
- 6 馬斯克致敬“國(guó)產(chǎn)蘿卜”?
- 7 神經(jīng)網(wǎng)絡(luò),誰是盈利最強(qiáng)企業(yè)?
- 8 比蘋果偉大100倍!真正改寫人類歷史的智能產(chǎn)品降臨
- 9 諾獎(jiǎng)進(jìn)入“AI時(shí)代”,人類何去何從?
- 10 Open AI融資后成萬億獨(dú)角獸,AI人才之爭(zhēng)開啟
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市