訂閱
糾錯
加入自媒體

在AI創(chuàng)新賽道啃下最硬的骨頭:中科凡語搶灘NLP藍(lán)海

文丨智能相對論

作者丨葉遠(yuǎn)風(fēng)

自然語言處理(NLP),人工智能皇冠上的“明珠”,由于各個底層算法和技術(shù)模塊都與業(yè)務(wù)場景的業(yè)務(wù)邏輯、數(shù)據(jù)特點(diǎn)高度捆綁,每一個領(lǐng)域、每一個業(yè)務(wù)場景都需要高度定制,已經(jīng)成為AI領(lǐng)域最難啃的硬骨頭。

目前,國內(nèi)NLP在生活場景的應(yīng)用占比不到1%,與之對比的是,視覺(CV)、聽覺賽道上商業(yè)化的大幕早已開啟。

盡管微軟亞洲研究院認(rèn)為未來十年是NLP發(fā)展的黃金檔,盡管Tractiac的“自然語言處理(NLP)市場研究報告-全球預(yù)測2022”分析NLP市場將在未來五年內(nèi)快速增長,盡管市場樂觀預(yù)期國內(nèi)NLP在生活場景的應(yīng)用占比在10年內(nèi)將突破50%……然而,這一切終歸需要NLP領(lǐng)域的創(chuàng)新企業(yè)一個個技術(shù)難題攻克、一個個場景突破來最終實(shí)現(xiàn)。

誰來啃下這最硬的骨頭?

不同的人會有不同的答案。而現(xiàn)在,一些不常出現(xiàn)在業(yè)界輿論焦點(diǎn)的創(chuàng)新企業(yè),卻正在成為NLP創(chuàng)新突破的重要力量。

中科凡語就是其中之一。這家由中國科學(xué)院自動化研究所孵化、專注于NLP服務(wù)的創(chuàng)新型企業(yè),歷經(jīng)短短的幾年發(fā)展后已經(jīng)成長為 “中關(guān)村金種子企業(yè)”;谔囟ㄐ袠I(yè)、教育、醫(yī)療、航空等多個細(xì)分領(lǐng)域的特定需求,中科凡語的技術(shù)和產(chǎn)品正在改變?nèi)藗児ぷ鳌⑸畹姆椒矫婷,并憑借眾多語種的覆蓋成為“一帶一路”建設(shè)的重要伴行者。

如同投資方高科新浚所言,中科凡語“匯聚具有國際視野和產(chǎn)業(yè)實(shí)踐的人才梯隊”,該企業(yè)優(yōu)質(zhì)的人才體系已經(jīng)成為各項發(fā)展優(yōu)勢的重要支撐——首席科學(xué)家宗成慶、董事長周玉均是來自中國科學(xué)院自動化研究所的研究員,核心團(tuán)隊成員均為博士學(xué)歷,有阿里、IBM等高級算法專家的從業(yè)經(jīng)歷。

如果說NLP的創(chuàng)新突圍是一場曠日持久的搶灘登陸,那么中科凡語已經(jīng)為此做了完善的頂層規(guī)劃,而在其耕耘NLP賽道的過程中,一個客觀上的、圍繞搶灘NLP藍(lán)海的體系化步驟也顯現(xiàn)出來。

深挖洞:用最頂尖的團(tuán)隊夯實(shí)最堅實(shí)的技術(shù)基礎(chǔ)

“九層之臺,起于累土”。對NLP而言,最首要的莫過于堅實(shí)的技術(shù)創(chuàng)新,為一切應(yīng)用創(chuàng)新、場景攻克提供最底層的支撐,挖洞越深,在面對NLP那些復(fù)雜場景需要時越能夠從容。

而中科凡語早已完成了這樣的挖洞過程,且還在持續(xù)鞏固。

作為一個并非趕著AI、NLP風(fēng)潮而憑空創(chuàng)立的企業(yè),中科凡語承接的是中國科學(xué)院自動化研究所在人工智能、自然語言處理和機(jī)器翻譯等方向20多年的技術(shù)儲備,或者說,中科凡語就是這些技術(shù)儲備的一種實(shí)體化、市場化表現(xiàn)。

再加上,行業(yè)頂尖團(tuán)隊和技術(shù)儲備對整個行業(yè)技術(shù)人才的天然“吸引力”,不斷壯大的團(tuán)隊讓中科凡語在算法或技術(shù)層面持續(xù)突破、領(lǐng)導(dǎo)行業(yè),以創(chuàng)新企業(yè)的身份獲得了不可忽視的NLP技術(shù)話語權(quán),甚至在技術(shù)層面一定程度上代表著行業(yè)發(fā)展走向,睥睨整個賽道。

在2019年9月,中科凡語就已獲得中關(guān)村高新技術(shù)企業(yè)認(rèn)證,12月獲得國家級高新技術(shù)企業(yè)認(rèn)證;2020年10月,在中關(guān)村國際前沿科技創(chuàng)新大賽上,中科凡語從數(shù)百家高新企業(yè)中脫穎而出,入圍人工智能領(lǐng)域TOP10榜單。

此外,已經(jīng)擁有一百余項國家發(fā)明專利、軟著的中科凡語,還橫掃了各種行業(yè)權(quán)威技術(shù)大賽:

核心技術(shù)團(tuán)隊榮獲2014年 “錢偉長中文信息處理科學(xué)技術(shù)獎”一等獎、中國電子學(xué)會科技進(jìn)步一等獎、2015年度國家科技進(jìn)步獎二等獎;

與中國科學(xué)院自動化研究所共同申報的“多語言機(jī)器翻譯關(guān)鍵技術(shù)及平臺建設(shè)”項目被中國發(fā)明協(xié)會授予發(fā)明創(chuàng)業(yè)獎創(chuàng)新獎一等獎;

2020年11月榮獲“2020全國移動互聯(lián)創(chuàng)新大賽(社會組)決賽一等獎”及單項獎“最具市場潛力獎”;

在第五屆中國健康信息處理大會評測大賽第一賽道臨床術(shù)語標(biāo)準(zhǔn)化任務(wù)中,進(jìn)入前三甲;

中科凡語首席科學(xué)家宗成慶、董事長周玉深度參與的《神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯核心技術(shù)及產(chǎn)業(yè)化》獲得北京市科學(xué)技術(shù)進(jìn)步獎一等獎。

……

如果說這些技術(shù)優(yōu)勢是中科凡語布局NLP領(lǐng)域的生產(chǎn)機(jī)器,那么在NLP的基礎(chǔ)生產(chǎn)資料——語料數(shù)據(jù)方面,中科凡語也有著行業(yè)最充足的準(zhǔn)備,極具創(chuàng)新精神的人才團(tuán)隊不斷推動著中科凡語領(lǐng)先的數(shù)據(jù)優(yōu)勢進(jìn)一步夯實(shí)。

由于NLP領(lǐng)域的特殊性,相對于視覺、聽覺,其對數(shù)據(jù)的渴望更為強(qiáng)烈,大部分NLP技術(shù)都是建立在大規(guī)模語料訓(xùn)練的基礎(chǔ)之上。

而中科凡語一方面依托中國科學(xué)院自動化研究所相關(guān)團(tuán)隊過去20多年的積累,另一方面依托于與語言類高校的深入合作,如前文所言已經(jīng)建立了涵蓋特定行業(yè)、教育、醫(yī)療、航空等多個領(lǐng)域的億級雙語平行語料,NLP語料數(shù)據(jù)方面領(lǐng)先行業(yè),先天擁有NLP基礎(chǔ)資源方面的優(yōu)勢。

現(xiàn)在,看似與數(shù)據(jù)資源關(guān)聯(lián)不大的人才體系,還在不斷強(qiáng)化中科凡語這種優(yōu)勢。

在NLP領(lǐng)域,數(shù)據(jù)一般來源于兩個方向,一是全網(wǎng)無標(biāo)注數(shù)據(jù);二是采集特定語料進(jìn)行標(biāo)注后的數(shù)據(jù),后者價值更大但往往需要大量的體力勞動來完成工作。中科凡語依托強(qiáng)大人才體系創(chuàng)新了業(yè)界領(lǐng)先的智能化標(biāo)注技術(shù),讓原本需要大量人工來完成的NLP數(shù)據(jù)標(biāo)注進(jìn)程變得更有效率,從而大大推動有標(biāo)注數(shù)據(jù)的生產(chǎn),不斷充實(shí)自身的NLP語料池,保持甚至擴(kuò)大在行業(yè)的數(shù)據(jù)儲備優(yōu)勢。

由此可見,NLP領(lǐng)域的人才并不只有業(yè)界通常認(rèn)為的算法創(chuàng)新價值,在數(shù)據(jù)方面同樣有顯著的推動作用。

集齊了算法、數(shù)據(jù)兩大優(yōu)勢,中科凡語已經(jīng)為NLP搶灘做好了最全面的準(zhǔn)備。

廣積糧:以場景突圍為導(dǎo)向構(gòu)建穩(wěn)固且靈活的人才體系

基于NLP的內(nèi)在需要,只是在某個技術(shù)領(lǐng)域、某個場景耕耘,無法完成NLP的創(chuàng)新突圍!氨R未動,糧草先行”。NLP搶灘需要積累更為廣泛且靈活的多專長人才體系。

而中科凡語客觀上所組建的人才體系“中臺”結(jié)構(gòu),就成為其在NLP領(lǐng)域積蓄糧草的重要表現(xiàn)方式,不同特性的人才相互協(xié)同推動中科凡語實(shí)現(xiàn)高效的垂直場景拓展。

事實(shí)上,不論算法還是數(shù)據(jù)優(yōu)勢多么強(qiáng)大,最終的NLP成果都要與場景有效結(jié)合才能實(shí)現(xiàn)商業(yè)價值,而NLP在跨語種、跨領(lǐng)域時又表現(xiàn)出很強(qiáng)的領(lǐng)域特征,這意味著產(chǎn)品的實(shí)現(xiàn)和落地必須有多方面能力的人才體系來支撐。

在中科凡語,一個包括技術(shù)人才、業(yè)務(wù)人才、語言人才在內(nèi)的內(nèi)外部人才體系已經(jīng)搭建起來:

1)技術(shù)人才面向不同的行業(yè)或場景提供通用型技術(shù),確保底層技術(shù)基礎(chǔ)的穩(wěn)固,類似于互聯(lián)網(wǎng)企業(yè)的統(tǒng)一“中臺”;

2)業(yè)務(wù)人才向不同的行業(yè)或領(lǐng)域延伸,提供獨(dú)屬于本行業(yè)、與行業(yè)實(shí)際相結(jié)合的進(jìn)階服務(wù)能力,推動產(chǎn)品落地;

3)語言人才提供外部協(xié)助,例如與中科凡語緊密合作的高校的語言學(xué)者,可提供更專業(yè)的語言層面的詞法、句法、語義的專業(yè)指導(dǎo)等。

這樣的人才儲備,使得中科凡語既具備穩(wěn)健的底層技術(shù)支持,也擁有了向不同行業(yè)領(lǐng)域開拓的能力——現(xiàn)在,中科凡語已經(jīng)在特定行業(yè)、教育、醫(yī)療、航空等垂直領(lǐng)域設(shè)計了定制化翻譯及信息分析服務(wù)產(chǎn)品,且面向“一路一帶”國家提供了70多種語言翻譯。

數(shù)不清的場景、全球超過100種常用語言的市場,NLP的場景空間廣闊而深入,而上述相互協(xié)同的人才體系正在成為中科凡語不斷突破這些場景空間、落地商業(yè)價值的核心競爭力。

高筑墻:全面落地應(yīng)用場景的同時不斷為下一步領(lǐng)先優(yōu)勢做準(zhǔn)備

對NLP這片藍(lán)海而言,誰能建立起高行業(yè)壁壘,誰就能在搶灘登陸中占據(jù)先發(fā)優(yōu)勢。而建立行業(yè)壁壘的先決條件,就是要能推動技術(shù)創(chuàng)新在各個場景走向落地,以市場化的標(biāo)準(zhǔn)來驗(yàn)證產(chǎn)品的實(shí)際價值,為下一代NLP技術(shù)發(fā)展提供正向反饋。

基于深厚的技術(shù)積淀和體系化的人才支撐,目前中科凡語推出了“信譯”、“信推”、“信析”、“信服”和“信取”五大NLP技術(shù)產(chǎn)品,并在此基礎(chǔ)上整合建立了全網(wǎng)態(tài)勢洞知平臺。此外還包括一款“基于神經(jīng)網(wǎng)絡(luò)及領(lǐng)域知識的機(jī)器混譯系統(tǒng)成套裝備”(該裝備已被列為2019年中關(guān)村首套重大技術(shù)裝備試驗(yàn)、示范項目),向不同行業(yè)提供解決方案。

在AI創(chuàng)新賽道啃下最硬的骨頭:中科凡語搶灘NLP藍(lán)海

(全網(wǎng)態(tài)勢洞知平臺上線儀式)

例如,“信譯”智能翻譯系統(tǒng)可以為用戶提供最優(yōu)質(zhì)、專業(yè)、準(zhǔn)確、高效的機(jī)器翻譯服務(wù),它支持包括英語、日語、韓語、俄語、西班牙語等語種以及泰語、越南語、緬甸語、阿拉伯語等“一帶一路”國家語種在內(nèi)的70多個語種;“信推”智能摘要系統(tǒng)采用深度學(xué)習(xí)+強(qiáng)化學(xué)習(xí)技術(shù),融合抽取式和生成式模型,針對長文本完成多模態(tài)自動摘要生成和關(guān)鍵詞提。弧靶盼觥碧峁┒嗾Z言詞法分析、句法分析、命名實(shí)體識別等基礎(chǔ)模塊,服務(wù)于機(jī)器翻譯、自動摘要、情感分析等自然語言處理中的應(yīng)用,提升產(chǎn)品性能;“信服”智能分析系統(tǒng)為各個細(xì)分領(lǐng)域提供智能對話系統(tǒng),實(shí)現(xiàn)多輪交互對話,節(jié)省大量人力成本和時間成本,提升服務(wù)質(zhì)量;“信取”信息獲取系統(tǒng),則提供跨場景、多語言、多粒度的數(shù)據(jù)爬取、融合、分類及管理。

全網(wǎng)態(tài)勢洞知平臺則基于多年“五信”產(chǎn)品功能積累和NLP實(shí)踐經(jīng)驗(yàn),運(yùn)用系統(tǒng)化、模塊化、工具化的設(shè)計,以組件定制的形式來整合模塊功能以對外輸出解決方案,如要素提取、文本分類、知識圖譜、觀點(diǎn)提取、文字識別、機(jī)器翻譯等,針對不同用戶的零散的、多樣的、特殊的場景需求,進(jìn)行多維度、多功能的產(chǎn)品方案定制,推進(jìn)人機(jī)協(xié)同優(yōu)化效率,最終形成面向多行業(yè)領(lǐng)域的產(chǎn)品矩陣。

目前,中科凡語已經(jīng)服務(wù)于國際國內(nèi)20余家知名企業(yè),80余家B端G端重要客戶,同時還承擔(dān)了多項國家和政府重大需求項目,例如為“一帶一路”沿線國家提供翻譯、信息整合及分析服務(wù)等。

在具體案例上,中科凡語服務(wù)一家國際知名航空公司,完成每天約10萬條飛行維修日志的實(shí)時翻譯、譯后信息處理;服務(wù)某全球生物制藥集團(tuán)和某國內(nèi)三甲醫(yī)院,幫助推進(jìn)醫(yī)療Al,在電子病歷結(jié)構(gòu)化處理、醫(yī)療文本分析、智能輔助診療、智能分診問診等方面提供機(jī)器翻譯系統(tǒng)、提升協(xié)同效率,等等。

就在去年11月12日,中國外文局翻譯院與中科凡語簽署協(xié)議,共建智能翻譯實(shí)驗(yàn)室、開展翻譯領(lǐng)域技術(shù)賦能模式研發(fā)合作,共建共享語料庫、術(shù)語庫、人才庫、翻譯院官網(wǎng)及中國外文界多語種終身學(xué)習(xí)平臺“三庫一網(wǎng)一平臺”。

在AI創(chuàng)新賽道啃下最硬的骨頭:中科凡語搶灘NLP藍(lán)海

無論是To B還是To G,中科凡語勢頭都非常強(qiáng)勢,不斷向高端和權(quán)威推進(jìn)。從NLP的行業(yè)發(fā)展來看,這是落地場景的不斷拓展、商業(yè)機(jī)遇的不斷迸發(fā),技術(shù)在源源不斷推向市場、獲得應(yīng)用反饋并迭代提升。

出機(jī)杼:不斷擴(kuò)展融入新的發(fā)展元素拉升行業(yè)發(fā)展天花板

在完成技術(shù)、人才、市場的充分準(zhǔn)備之外,還有更重要的是深層次布局。不僅要在企業(yè)核心產(chǎn)品上自出機(jī)杼,更要在對下一代行業(yè)技術(shù)風(fēng)向能夠未雨綢繆。對NLP而言,就是在不斷挖掘NLP技術(shù)價值潛力的同時,不滿足于市面既有的創(chuàng)新、業(yè)務(wù)框架,不斷融入新的發(fā)展元素拉升發(fā)展天花板。

中科凡語在NLP領(lǐng)域的自出機(jī)杼,表現(xiàn)在兩個方面。

一是擺脫To B、To G的行業(yè)固有業(yè)務(wù)框架,而通過更廣泛的資源配置惠及更廣泛群體。

這尤其表現(xiàn)在To B、To G的眾多商業(yè)合作項目之外,中科凡語所投入建立的To C項目上——“飛譯”。該平臺與“信譯”產(chǎn)品技術(shù)能力相結(jié)合,將原本面向B端客戶的翻譯學(xué)習(xí)方案和輔助翻譯技術(shù)通過平臺化的方式惠及更廣泛的人群,解決翻譯等領(lǐng)域的大眾痛點(diǎn)問題。目前,該平臺已可實(shí)現(xiàn)70多種語言翻譯,30多個語種的圖像翻譯,顯著提升了翻譯效率,且該平臺已完成國產(chǎn)化適配,技術(shù)上自主可控。通過平臺形式,讓NLP產(chǎn)業(yè)層面的資源配置效率提升,也讓更多的群體享受到技術(shù)所帶來的應(yīng)用紅利。

在AI創(chuàng)新賽道啃下最硬的骨頭:中科凡語搶灘NLP藍(lán)海

(飛譯CAT平臺上線儀式)

據(jù)了解,飛譯平臺已推出了具有實(shí)用性和針對性的四個版本,即高校版、醫(yī)療版、通用版和個人版,實(shí)現(xiàn)了對不同人群、不同領(lǐng)域、不同需求的全方位覆蓋,這背后既需要To B領(lǐng)域的積淀,也需要團(tuán)隊以平臺化的方式將原本束之高閣的技術(shù)、方法不斷向C端用戶開放,提供更好的體驗(yàn),凸顯了中科凡語一定程度上的互聯(lián)網(wǎng)能力印記。

顯然,飛譯平臺將幫助中科凡語在C端市場拓展業(yè)務(wù)規(guī)模,不斷拉升企業(yè)發(fā)展的天花板。

二是不斷擁抱NLP的技術(shù)未來,為一切變化和趨勢做最充分的準(zhǔn)備。

NLP的技術(shù)不會有終點(diǎn),在效率之外,超越人類的理解能力也早晚會實(shí)現(xiàn),但在這之前,作為技術(shù)方面的行業(yè)領(lǐng)導(dǎo)者,中科凡語還必須進(jìn)行更前沿的技術(shù)和應(yīng)用探索。

2020年11月,凡語AI研究院成立,共有高級發(fā)展顧問、教授級專家委員、博士青年委員等60多人加入,它成為中科凡語不斷探索更前沿的算法、突破現(xiàn)有算法模型的抓手。典型如當(dāng)下大熱的多模態(tài)大模型,中科凡語的研發(fā)團(tuán)隊很早之前便已經(jīng)參與研發(fā),在推進(jìn)跨模態(tài)語義關(guān)聯(lián)以及實(shí)現(xiàn)更完善的算法模型方面積累了豐富的經(jīng)驗(yàn)。

在AI創(chuàng)新賽道啃下最硬的骨頭:中科凡語搶灘NLP藍(lán)海

(凡語AI研究院成立揭牌)

技術(shù)上突破新的基礎(chǔ)模型,業(yè)態(tài)上向新語言、新場景落地,開拓NLP應(yīng)用的版圖,AI研究……這些都在成為中科凡語在NLP前沿發(fā)展領(lǐng)域的重要支撐,乃至在此基礎(chǔ)上可能向行業(yè)反向輸出、引領(lǐng)NLP的趨勢,做行業(yè)的領(lǐng)導(dǎo)者而不是跟隨者。

深挖洞,廣積糧,高筑墻,出機(jī)杼,中科凡語在這場NLP藍(lán)海搶灘中已經(jīng)做好了關(guān)于技術(shù)、人才、產(chǎn)品和市場的完善布局。這個過程與NLP行業(yè)日新月異的快速發(fā)展息息相關(guān),而中科凡語對行業(yè)的吸引力也變得越來越強(qiáng),體系化的職能架構(gòu)越來越清晰,無論是作為職業(yè)選擇還是作為投資對象,都表現(xiàn)出一個趨近成熟的科技企業(yè)特質(zhì)。

未來,NLP的每一次創(chuàng)新突破、場景落地,來自中科凡語的表現(xiàn)都值得期待。

*本文圖片均來源于網(wǎng)絡(luò)

       原文標(biāo)題 : 在AI創(chuàng)新賽道啃下最硬的骨頭:中科凡語搶灘NLP藍(lán)海

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標(biāo)題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號