訂閱
糾錯(cuò)
加入自媒體

中科凡語周玉:用我們這一代人的努力扛起國(guó)產(chǎn)NLP發(fā)展大旗

2022-05-06 10:29
來源: 粵訊

過去10余年間,人工智能(AI)經(jīng)歷了一次復(fù)興,其中最重要的技術(shù)進(jìn)步之一發(fā)生在自然語言處理(NLP)領(lǐng)域。

2006年谷歌發(fā)布了萬億詞語料庫——Trillion Word Corpus,并從大量的公共網(wǎng)頁中獲得了n-gram頻率;2010年ImageNet制作了一個(gè)包含2萬張內(nèi)容標(biāo)簽的圖片的公開語料庫;2014年微軟推出人機(jī)對(duì)話交互平臺(tái)“小冰”,對(duì)話數(shù)據(jù)累計(jì)超過300億輪……

NLP技術(shù)的進(jìn)步使得機(jī)器翻譯質(zhì)量大幅提高,也催生了更多數(shù)字化場(chǎng)景應(yīng)用,隨之國(guó)內(nèi)NLP產(chǎn)業(yè)也迎來快速發(fā)展。據(jù)艾瑞咨詢等統(tǒng)計(jì)研究,2021年中國(guó)NLP核心產(chǎn)品及相關(guān)產(chǎn)業(yè)規(guī)模超1000億元;2022年預(yù)計(jì)NLP核心產(chǎn)品及相關(guān)產(chǎn)業(yè)規(guī)模將達(dá)到1500億元;到2025年,這一規(guī)模將達(dá)2400億元。

浪潮之下,NLP產(chǎn)品路徑通用性與專用性的要素之爭(zhēng),人工智能下半程的技術(shù)趨勢(shì)如何,中國(guó)NLP發(fā)展又將走向何方?

恰逢國(guó)內(nèi)領(lǐng)先的跨領(lǐng)域多模態(tài)自然語言處理方案商、服務(wù)商、運(yùn)營(yíng)商——中科凡語成立4周年之際,筆者邀請(qǐng)到了中國(guó)科學(xué)院自動(dòng)化研究所研究員、博士生導(dǎo)師、中科凡語董事長(zhǎng)周玉博士,就以上問題作探討解讀,共同探討關(guān)于NLP的技術(shù)前沿與產(chǎn)業(yè)趨勢(shì)。

中科凡語周玉:用我們這一代人的努力扛起國(guó)產(chǎn)NLP發(fā)展大旗

中國(guó)科學(xué)院自動(dòng)化研究所研究員、博士生導(dǎo)師、中科凡語董事長(zhǎng)周玉博士

從通用到定制形成動(dòng)態(tài)閉環(huán),搭建NLP底層技術(shù)平臺(tái)

此次采訪時(shí)已經(jīng)是晚上9點(diǎn),剛剛忙完工作的周玉通過電話接受了筆者的采訪,期間周玉條分縷析的講了一個(gè)多小時(shí),言談間難掩創(chuàng)業(yè)的興奮與激情,語氣鏗鏘有力,思維邏輯清晰,論據(jù)詳實(shí)充分。見微知著,或許正是這樣嚴(yán)謹(jǐn)端正的態(tài)度,才使其脫穎而出成為NLP學(xué)界為數(shù)不多的頂尖女性學(xué)者、創(chuàng)業(yè)者。

深耕NLP領(lǐng)域多年,周玉對(duì)NLP領(lǐng)域發(fā)展前景自是十分看好,但在談到目前主流NLP產(chǎn)品的應(yīng)用落地時(shí)深感任重道遠(yuǎn)。

周玉坦言,雖然未來十年在產(chǎn)業(yè)界被公認(rèn)為NLP技術(shù)發(fā)展黃金期,但產(chǎn)品落地方面,尚有許多問題亟待解決!拜^為典型的問題有兩個(gè),一是高定制化場(chǎng)景帶來的高溝通門檻,使得技術(shù)人員和需求方往往需要多次磨合,溝通效率較低;二是要開發(fā)通用性較強(qiáng)的產(chǎn)品,對(duì)不同領(lǐng)域、不同場(chǎng)景的應(yīng)用會(huì)需要不同的業(yè)務(wù)數(shù)據(jù)支撐,適配過程較為漫長(zhǎng)。”

面對(duì)NLP產(chǎn)品的定制化和通用性難題,中科凡語的產(chǎn)品開發(fā)路徑或許對(duì)行業(yè)有一定啟示。周玉表示,NLP的產(chǎn)品落地的特殊性在于其必須要有一個(gè)定制化的過程,但是先通用還是先定制,這其實(shí)有點(diǎn)類似“先有雞還是先有蛋”的哲學(xué)思考,具體實(shí)踐時(shí)其實(shí)是更偏向于一種動(dòng)態(tài)化的閉環(huán)。

“早期,可以面對(duì)不同行業(yè)領(lǐng)域客戶先提煉出共性需求,搭建一個(gè)通用的技術(shù)框架,滿足基礎(chǔ)的模塊功能;然后再構(gòu)建通用場(chǎng)景的通用產(chǎn)品;之后再遷移到特定場(chǎng)景進(jìn)行定制化開發(fā);最后在定制化過程中再衍生出面向特定場(chǎng)景的產(chǎn)品?偟膩砜,其實(shí)是在動(dòng)態(tài)演化過程中不斷完善迭代!

以O(shè)CR翻譯(圖像識(shí)別翻譯)為例,目前市面上常見的方法是先做OCR的識(shí)別,然后再機(jī)器翻譯,但此類方式普遍面臨效率低、場(chǎng)景識(shí)別弱、復(fù)雜場(chǎng)景效果差等問題。中科凡語基于這些痛點(diǎn),會(huì)先提供通用性較強(qiáng)的OCR模塊產(chǎn)品部署到客戶端,滿足當(dāng)下迫切需求,然后再通過實(shí)際應(yīng)用中的反饋、長(zhǎng)尾效應(yīng)等搜集問題和需求,再通過技術(shù)人員進(jìn)行二次深度開發(fā),最大化的平衡客戶需求與產(chǎn)品性能之間的錨點(diǎn)。

周玉直言,“NLP產(chǎn)品開發(fā)的底層邏輯是技術(shù)儲(chǔ)備,技術(shù)儲(chǔ)備越豐富,通用技術(shù)模塊越成熟,遷移成本就會(huì)越低,在特定行業(yè)的產(chǎn)品化效率也就越高,行業(yè)壁壘也就隨之建立起來!

這一開發(fā)邏輯,從中科凡語過往的產(chǎn)品中清晰可循。比如“信譯”是基于為用戶提供優(yōu)質(zhì)、專業(yè)、準(zhǔn)確、高效的機(jī)器翻譯服務(wù);“信推”是針對(duì)長(zhǎng)文本完成多模態(tài)自動(dòng)摘要生成和關(guān)鍵詞提取及內(nèi)容推送;“信取”則提供跨場(chǎng)景、多語言、多粒度的數(shù)據(jù)爬取、融合、分類及管理,等等。

“目前中科凡語所推出的‘五信’,‘飛譯’或是‘洞知’產(chǎn)品,都是基于客戶普遍的共性需求所建立的。未來的產(chǎn)品開發(fā),我們還是將繼續(xù)朝著系統(tǒng)化、模塊化、工具化的方向出發(fā),為客戶提供更易組裝、更加靈活、適用性更強(qiáng)的智能服務(wù)產(chǎn)品,構(gòu)建多模塊、廣適用、高精度的底層NLP技術(shù)平臺(tái)。”周玉說到。

專業(yè)領(lǐng)域億級(jí)語料數(shù)據(jù) 為行業(yè)發(fā)展提供動(dòng)力

如果說產(chǎn)品路徑與架構(gòu)搭建了NLP技術(shù)的經(jīng)脈,那么數(shù)據(jù),或者更確切說是來自專業(yè)領(lǐng)域內(nèi)的高質(zhì)量標(biāo)注數(shù)據(jù),則是當(dāng)前AI深度學(xué)習(xí)時(shí)代下NLP技術(shù)的血液,為NLP技術(shù)推動(dòng)產(chǎn)業(yè)發(fā)展提供關(guān)鍵動(dòng)力。

在劉慈欣的科幻小說《詩云》中,曾暢想過這樣一幅“技術(shù)與藝術(shù)對(duì)抗”的終極浪漫場(chǎng)景:一個(gè)高等外星文明為了寫出超越李白的詩歌,窮盡了太陽系的大部分能量,列舉出了所有可能的字詞組合,最終,他們“借助偉大的技術(shù),寫出了詩詞的巔峰之作”,卻還是選擇了認(rèn)輸,因?yàn)樗麄儭安豢赡馨阉鼈儚脑娫浦袡z索出來”。

標(biāo)注數(shù)據(jù)之于NLP,頗有異曲同工之妙。NLP技術(shù)本質(zhì)上是基于深度學(xué)習(xí)的,相比于視覺或音頻信息,自然語言更加抽象,蘊(yùn)含了更加豐富的人類定義的知識(shí),導(dǎo)致相比其他AI技術(shù)領(lǐng)域,NLP對(duì)標(biāo)注數(shù)據(jù)的要求也更嚴(yán)苛、難度更大?梢哉f,NLP的技術(shù)效果很大程度上取決于標(biāo)注數(shù)據(jù)的質(zhì)量和規(guī)模。

如何獲得高質(zhì)量、大規(guī)模的標(biāo)注數(shù)據(jù)?

周玉表示,“數(shù)據(jù)標(biāo)注并非只是簡(jiǎn)單的數(shù)據(jù)層面的問題,相較圖像、視頻等類型,NLP采標(biāo)方式更為復(fù)雜,難度大很多,因此更需要標(biāo)注人員、標(biāo)注數(shù)據(jù)和和算法三方面的協(xié)同作戰(zhàn)!

為此,中科凡語作了大量的基礎(chǔ)準(zhǔn)備工作!霸跇(biāo)注人員方面,比如以翻譯樣本標(biāo)注為例,考慮到翻譯人員對(duì)語言語種的專業(yè)性涉獵,中科凡語同全國(guó)100多所高校外國(guó)語學(xué)院達(dá)成了合作,并建立了與之相對(duì)應(yīng)的人物畫像,豐富語種人才庫的同時(shí),進(jìn)一步降低了適配時(shí)間,提升適配效率;在標(biāo)注數(shù)據(jù)方面,分層分級(jí),重點(diǎn)篩選種子樣本,因?yàn)橄噍^普通樣本,種子樣本往往能起到1比20的效果;再通過不斷優(yōu)化迭代算法方面的優(yōu)勢(shì),來最大化的降低標(biāo)注成本,篩選出有價(jià)值的數(shù)據(jù)!敝苡窠忉尩。

同時(shí),通過前臺(tái)數(shù)據(jù)與后臺(tái)算法的深度綁定,中科凡語進(jìn)一步提升了數(shù)據(jù)儲(chǔ)備的質(zhì)量和規(guī)模。“前臺(tái)數(shù)據(jù)一旦有更新的標(biāo)注,后臺(tái)算法也會(huì)相應(yīng)進(jìn)行優(yōu)化,確保標(biāo)注數(shù)據(jù)的高質(zhì)量高精度;再通過工程化開發(fā)來減輕數(shù)據(jù)標(biāo)注中的重復(fù)勞動(dòng),提升業(yè)務(wù)效率,進(jìn)而形成一個(gè)良性的閉環(huán)。”

基于中國(guó)科學(xué)院自動(dòng)化研究所相關(guān)團(tuán)隊(duì)20余年的積累以及同廣大國(guó)內(nèi)語言類高校的深入合作,中科凡語目前已經(jīng)建立了涵蓋特定行業(yè)、教育、醫(yī)療、航空等多個(gè)領(lǐng)域的億級(jí)雙語平行語料及大規(guī)模涵蓋多語言、多領(lǐng)域、多場(chǎng)景、多任務(wù)、多層次的高精準(zhǔn)標(biāo)注語料,NLP語料數(shù)據(jù)方面行業(yè)領(lǐng)先。同時(shí),通過創(chuàng)新迭代的智能化標(biāo)注算法,中科凡語也在不斷充實(shí)NLP語料池,著力挖掘大規(guī)模、高質(zhì)量的標(biāo)注數(shù)據(jù),致力為NLP行業(yè)的場(chǎng)景定制、技術(shù)突破、產(chǎn)業(yè)發(fā)展等提供源源不斷的動(dòng)力。

高質(zhì)量的標(biāo)注數(shù)據(jù)不僅帶來效率提升、技術(shù)升級(jí),更是NLP發(fā)展的必然趨勢(shì),F(xiàn)今,數(shù)據(jù)標(biāo)注正處于早期階段,但可以預(yù)見的是,隨著人工智能的浪潮進(jìn)入下半場(chǎng),數(shù)據(jù)標(biāo)注將迎來井噴期,促進(jìn)感知智能向認(rèn)知智能的轉(zhuǎn)變。

深耕行業(yè)夯實(shí)優(yōu)勢(shì),NLP下一個(gè)十年中文論劍

毋論產(chǎn)品路徑與技術(shù)趨勢(shì)如何領(lǐng)先,NLP發(fā)展最終還是要?dú)w到產(chǎn)業(yè)應(yīng)用的“肌肉”上來看。

縱觀國(guó)內(nèi)外NLP產(chǎn)業(yè)發(fā)展現(xiàn)狀,國(guó)外NLP技術(shù)由于起步早、技術(shù)領(lǐng)先,而國(guó)內(nèi)目前則處于奮起直追階段。據(jù)倫敦帝國(guó)理工學(xué)院對(duì)NLP相關(guān)會(huì)議論文統(tǒng)計(jì)顯示,自2012年至2020年期間,美國(guó)以近4000篇論文的數(shù)量遙遙領(lǐng)先,中國(guó)位居第二。隨著中國(guó)企業(yè)逐漸從“輔助角色”進(jìn)化為中堅(jiān)力量,“學(xué)術(shù)界+工業(yè)界”的雙輪驅(qū)動(dòng)推動(dòng)中國(guó)AI力量悄然變化。

以中科凡語為例,作為孵化于中國(guó)科學(xué)院自動(dòng)化研究所的國(guó)產(chǎn)NLP領(lǐng)域先行者,承接了研究所相關(guān)團(tuán)隊(duì)過去20多年在NLP領(lǐng)域技術(shù)積累,在技術(shù)、數(shù)據(jù)乃至人才方面都有著天然優(yōu)勢(shì)。成立四年來,中科凡語已成功落地了100多家G端客戶、50余家B端客戶,同時(shí)還承擔(dān)了多項(xiàng)國(guó)家和政府重大需求項(xiàng)目,例如為“一帶一路”沿線國(guó)家提供翻譯、信息整合及分析服務(wù)等,未來還將持續(xù)深耕認(rèn)知智能、通用智能、因果推斷等技術(shù)領(lǐng)域,進(jìn)一步推動(dòng)NLP成果產(chǎn)業(yè)化。

值得一提的是,中科凡語還于2020年11月成立了凡語AI研究院,共吸引高級(jí)發(fā)展顧問、教授級(jí)專家委員、博士青年委員等60多人加入,涵蓋NLP領(lǐng)域技術(shù)大牛、業(yè)務(wù)精英以及語言專家等,旨在吸引行業(yè)頂尖人才共同進(jìn)行前沿研究,夯實(shí)中科凡語在NLP領(lǐng)域的領(lǐng)先競(jìng)爭(zhēng)優(yōu)勢(shì),并不斷探索新的基礎(chǔ)模型與技術(shù)路線,建立競(jìng)合協(xié)同的行業(yè)生態(tài)。

此外,其他業(yè)界知名公司如百度、阿里、騰訊、華為、今日頭條等,也在結(jié)合自身固有業(yè)務(wù)優(yōu)勢(shì),在NLP領(lǐng)域持續(xù)投入研發(fā),加速業(yè)務(wù)變革與升級(jí)。

除了學(xué)術(shù)界與工業(yè)界,國(guó)家相關(guān)政策也持續(xù)出臺(tái),重點(diǎn)扶持人工智能相關(guān)產(chǎn)業(yè)發(fā)展。

2019年,由科學(xué)技術(shù)部發(fā)布的《國(guó)家新一代人工智能開放創(chuàng)新平臺(tái)建設(shè)工作指引》中指出,要鼓勵(lì)人工智能細(xì)分領(lǐng)域領(lǐng)軍企業(yè)搭建開源、開放平臺(tái),面向公眾開放人工智能技術(shù)研發(fā)資源,向社會(huì)輸出人工智能技術(shù)服務(wù)能力。

2020年7月,由中央網(wǎng)信辦等五部門發(fā)布的《國(guó)家新一代人工智能標(biāo)準(zhǔn)體系建設(shè)指南》中也強(qiáng)調(diào),到2023年要初步建立人工智能標(biāo)準(zhǔn)體系,重點(diǎn)研制數(shù)據(jù)、算法、系統(tǒng)、服務(wù)等重點(diǎn)急需標(biāo)準(zhǔn)。

《中國(guó)制造2025》《“十四五”規(guī)劃綱要》等重要政府文件中,都明確了人工智能在我國(guó)未來科學(xué)研究和產(chǎn)業(yè)發(fā)展中的重要作用。

……

盡管目前出現(xiàn)了一些挑戰(zhàn)與瓶頸,但總的來看,在政策紅利和藍(lán)海市場(chǎng)的雙重利好下,NLP 已步入發(fā)展快車道,并涌現(xiàn)了許多商業(yè)化應(yīng)用,如機(jī)器翻譯、輿情監(jiān)測(cè)、自動(dòng)摘要、問答機(jī)器人、客服機(jī)器人、電銷機(jī)器人、智能推薦等。

隨著AI技術(shù)不斷走向“深水區(qū)”,作為AI最高層次的NLP也將伴隨著數(shù)智化的產(chǎn)業(yè)趨勢(shì)快速迭代更新。就像《技術(shù)的本質(zhì)》中所說的,“技術(shù)是高度可重構(gòu)的,它們是流動(dòng)的東西,永遠(yuǎn)不會(huì)靜止,永遠(yuǎn)不會(huì)完結(jié),永遠(yuǎn)不會(huì)完美。”

周玉對(duì)此深以為然:“NLP技術(shù)的發(fā)展永遠(yuǎn)沒有終點(diǎn)。中科凡語希望能通過本身在NLP領(lǐng)域積累的人才、算法、數(shù)據(jù)等優(yōu)勢(shì),聯(lián)合業(yè)界的專家學(xué)者、行業(yè)精英,一同做NLP最前沿技術(shù)和應(yīng)用的探討,無限逼近甚至超越人類的理解能力,用我們這一代人的努力扛起國(guó)產(chǎn)NLP發(fā)展的大旗!

正是無數(shù)這樣的科學(xué)家、創(chuàng)業(yè)者、奮斗者的星聚,才推動(dòng)著中國(guó)NLP技術(shù)在這十余年來的快速進(jìn)步,并不斷建設(shè)世界范圍的中文信息處理影響力。

相信下一個(gè)十年,NLP將迎來中文論劍的時(shí)代。

聲明: 本文系OFweek根據(jù)授權(quán)轉(zhuǎn)載自其它媒體或授權(quán)刊載,目的在于信息傳遞,并不代表本站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),如有新聞稿件和圖片作品的內(nèi)容、版權(quán)以及其它問題的,請(qǐng)聯(lián)系我們。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)