訂閱
糾錯
加入自媒體

NLP ——從0開始快速上手百度 ERNIE

在解壓出的文件夾“task_data/chnsenticorp”中, 包含了三個文件“train.tsv”、“dev.tsv”、“test.tsv”,分別對應(yīng)ChnSentiCorp 數(shù)據(jù)的訓(xùn)練集、驗證集和測試集,該任務(wù)是一個單句分類任務(wù),數(shù)據(jù)包含兩個字段為“l(fā)abel”和“seg_a”,以“TAB”進(jìn)行分隔,示例如下:

seg_a label選擇珠江花園的原因就是方便,有電動扶梯直接到達(dá)海邊,周圍餐館、食廊、商場、超市、攤位一應(yīng)俱全。酒店裝修一般,但還算整潔。泳池在大堂的屋頂,因此很小,不過女兒倒是喜歡。包的早餐是西式的,還算豐富。服務(wù)嗎,一般       115.4寸筆記本的鍵盤確實爽,基本跟臺式機(jī)差不多了,蠻喜歡數(shù)字小鍵盤,輸數(shù)字特方便,樣子也很美觀,做工也相當(dāng)不錯    1房間太小。其他的都一般。。。。。。。。。01.接電源沒有幾分鐘,電源適配器熱的不行. 2.?dāng)z像頭用不起來. 3.機(jī)蓋的鋼琴漆,手不能摸,一摸一個。 4.硬盤分區(qū)不好辦.        0今天才知道這書還有第6卷,真有點(diǎn)郁悶:為什么同一套書有兩種版本呢?當(dāng)當(dāng)網(wǎng)是不是該跟出版社商量商量,單獨(dú)出個第6卷,讓我們的孩子不會有所遺憾。1機(jī)器背面似乎被撕了張什么標(biāo)簽,殘膠還在。但是又看不出是什么標(biāo)簽不見了,該有的都在,怪    0呵呵,雖然表皮看上去不錯很精致,但是我還是能看得出來是盜的。但是里面的內(nèi)容真的不錯,我媽愛看,我自己也學(xué)著找一些穴位。0這本書實在是太爛了,以前聽浙大的老師說這本書怎么怎么不對,哪些地方都是誤導(dǎo)的還不相信,終于買了一本看一下,發(fā)現(xiàn)真是~~~無語,這種書都寫得出來  0地理位置佳,在市中心。酒店服務(wù)好、早餐品種豐富。我住的商務(wù)數(shù)碼房電腦寬帶速度滿意,房間還算干凈,離湖南路小吃街近。12. 運(yùn)行Fine-tuning

運(yùn)行該腳本即可執(zhí)行Fine-tuning, 腳本會根據(jù)你指定的from_pretrained參數(shù)下載預(yù)訓(xùn)練模型,運(yùn)行最大步長max_steps由樣本數(shù) * epoch數(shù) / 批大小算出。

!export CUDA_VISIBLE_DEVICES=0 !PYTHONPATH=./ERNIE python ./ERNIE/ernie/finetune_sementic_analysis_dygraph.py         --from_pretrained ernie-1.0         --data_dir ./chnsenticorp/         --epoch 10         --lr 5e-5         --bsz 32         --max_steps $((9600*10/32))         --save_dir ./tuned_model

執(zhí)行結(jié)束后輸出如下的在驗證集和測試集上面的測試結(jié)果:

training: 250it [01:39,  2.96it/s]2020-05-15 17:52:21,377-DEBUG: train loss 0.00880 lr 3.585e-05training: 260it [01:43,  3.00it/s]2020-05-15 17:52:24,743-DEBUG: train loss 0.05025 lr 3.568e-05training: 270it [01:46,  3.00it/s]2020-05-15 17:52:28,108-DEBUG: train loss 0.06813 lr 3.552e-05training: 280it [01:49,  3.00it/s]2020-05-15 17:52:31,474-DEBUG: train loss 0.12881 lr 3.535e-05training: 290it [01:53,  3.00it/s]2020-05-15 17:52:34,840-DEBUG: train loss 0.06156 lr 3.518e-052020-05-15 17:52:42,877-DEBUG: acc 0.93250training: 10it [00:08,  1.88it/s]2020-05-15 17:52:46,317-DEBUG: train loss 0.00679 lr 3.485e-05training: 20it [00:11,  2.84it/s]2020-05-15 17:52:49,817-DEBUG: train loss 0.13993 lr 3.468e-05training: 30it [00:15,  2.89it/s]2020-05-15 17:52:53,297-DEBUG: train loss 0.02414 lr 3.452e-05

可以看到準(zhǔn)確率(acc)達(dá)到了0.95左右,與表1中的測評準(zhǔn)確率非常接近,說明訓(xùn)練效果達(dá)到了良好水平。

3. 執(zhí)行推理

Fine-tuning 結(jié)束后,如果用戶希望使用模型運(yùn)行推理,可以修改上述命令行,并加入?yún)?shù)--eval進(jìn)入推理模式,從而利用保存在某個checkpoint (由--save_dir指定)的模型執(zhí)行推理。

!head ./chnsenticorp/dev/part.0|awk -F" " '{print $1}'| PYTHONPATH=./ERNIE  python ./ERNIE/ernie/finetune_sementic_analysis_dygraph.py         --from_pretrained ernie-1.0         --data_dir ./chnsenticorp/         --epoch 10         --lr 5e-5         --bsz 32         --eval         --max_steps $((9600*10/32))         --save_dir ./tuned_model

輸入的預(yù)測數(shù)據(jù)由標(biāo)準(zhǔn)輸入管道灌入程序。修改完成后請再次運(yùn)行腳本執(zhí)行推理。該命令指向的“chnsenticorp/dev/part.0”文件里的前10句話,程序?qū)@10句話進(jìn)行推理:

這間酒店環(huán)境和服務(wù)態(tài)度亦算不錯,但房間空間太小,不宣容納太大件行李,且房間格調(diào)還可以,中餐廳的廣東點(diǎn)心不太好吃,要改善之。但算價錢平宜,可接受。西餐廳格調(diào)都很好,但吃的味道一般且令人等得太耐了,要改善之。

<薦書> 推薦所有喜歡<紅樓>的紅迷們一定要收藏這本書,要知道當(dāng)年我聽說這本書的時候花很長時間去圖書館找和借都沒能如愿,所以這次一看到當(dāng)當(dāng)有,馬上買了,紅迷們也要記得備貨哦!

商品的不足暫時還沒發(fā)現(xiàn),京東的訂單處理速度實在……周二就打包完成,周五才發(fā)貨...

2001年來福州就住在這里,這次感覺房間就了點(diǎn),溫泉水還是有的.總的來說很滿意.早餐簡單了些。

不錯的上網(wǎng)本,外形很漂亮,操作系統(tǒng)應(yīng)該是個很大的 賣點(diǎn),電池還可以。整體上講,作為一個上網(wǎng)本的定位,還是不錯的。

房間地毯太臟,臨近火車站十分吵鬧,還好是雙層玻璃。服務(wù)一般,酒店門口的TAXI講是酒店的長期合作關(guān)系,每月要交費(fèi)給酒店。從酒店到機(jī)場講得是打表147元,到了后非要200元,可能被小宰30-40元。

本來想沒事的時候翻翻,可惜看不下去,還是和張沒法比,他的書能暢銷大部分還是受張的影響,對這個男人實在是沒好感,不知道怎么買的,后悔。

這臺機(jī)外觀十分好,本人喜歡,性能不錯,是LED顯示屏,無線網(wǎng)卡是: 5100AGN 無線網(wǎng)卡,如果裝的是一條2G 800MHZ的內(nèi)存就無敵了,本本發(fā)熱很小,總體來說是十分值得買的,前提是這臺機(jī)是4299買的。

全鍵盤帶數(shù)字鍵的 顯卡足夠強(qiáng)大.N卡相對A卡,個人偏向N卡 GHOST XP很容易.除了指紋識別外.所有驅(qū)動都能裝齊全了,指紋識別,非要在XP下使用的朋友,可以用替代驅(qū)動.貢獻(xiàn)下驅(qū)動地址: http://dlsvr01.a(chǎn)sus.com/pub/ASUS/nb/F9Dc/Fingerprints_XP_080530.zip (華碩官方地址,放心下吧)。

做工很漂亮,老婆很喜歡。T4200足夠了,性價比不錯的機(jī)器。測試了一下很安逸。今天晚上準(zhǔn)備TWOW溜達(dá)圈,再看看整機(jī)表現(xiàn)如何!

其它分類任務(wù)的運(yùn)行方式類似。同時 ERNIE 還支持閱讀理解、語義匹配、序列標(biāo)注等任務(wù),運(yùn)行方式可以參考 README 中 Fine-tuning 章節(jié)。

<上一頁  1  2  3  下一頁>  
聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標(biāo)題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號