訂閱
糾錯
加入自媒體

摘取AI的皇冠明珠NLP后,百度將它鑲嵌進了產(chǎn)業(yè)之中

2020-08-25 17:57
曾響鈴
關(guān)注

文 | 曾響鈴

來源 | 科技向令說

當AI發(fā)展借新基建東風進一步加速后,每個垂直門類都開始表現(xiàn)出一邊深化技術(shù)、一邊廣拓生態(tài)的兩大特征。

最近的百度大腦語言與知識技術(shù)峰會直接表現(xiàn)了這一點。

一次性推出11項發(fā)布,AI技術(shù)的大規(guī)模應(yīng)用進程被行業(yè)巨頭加快,而正如百度CTO王海峰所言,“在百度語言與知識技術(shù)的布局和發(fā)展中,我們始終在注意把握兩個趨勢,即技術(shù)發(fā)展趨勢和產(chǎn)業(yè)發(fā)展趨勢,并力爭引領(lǐng)趨勢! 作為AI皇冠上的明珠,NLP在一邊繼續(xù)進行技術(shù)深化的同時,產(chǎn)業(yè)落地也開始齊頭并進。

摘取AI的皇冠明珠NLP后,百度將它鑲嵌進了產(chǎn)業(yè)之中

如果從2010年百度成立自然語言處理部算起,NLP從技術(shù)和產(chǎn)業(yè)上全面布局已經(jīng)走過整整十個年頭。

作為AI領(lǐng)域發(fā)展時間最久、積累最豐厚的垂直領(lǐng)域,NLP正在嘗試塑造出一個產(chǎn)業(yè)智能化從技術(shù)到應(yīng)用的完整范式,對百度而言,這張AI王牌中的王牌也是時候打出手了。

一、密集發(fā)布技術(shù)成果后,NLP巨頭的產(chǎn)業(yè)落地呈現(xiàn)三大特征

巨頭的密集動作,直接表現(xiàn)出NLP這個AI排頭兵在產(chǎn)業(yè)落地上的三大特征。

1、技術(shù)“稱王”后,領(lǐng)頭羊正在擔起行業(yè)責任

過去十年,百度大腦在NLP領(lǐng)域積累了大量的技術(shù)成果,例如包括國家科技進步獎在內(nèi)的20多個獎項,30多項國際競賽冠軍,發(fā)表學術(shù)論文超過300篇,申請專利2000多項。

長期的數(shù)據(jù)和技術(shù)沉淀讓百度NLP在國內(nèi)處在了領(lǐng)先的位置,成為中國NLP發(fā)展的一面旗幟。而這種沉淀即便放到國際視野下,仍然可以支撐百度進入NLP頭部梯隊,代表中國AI在關(guān)鍵的語言和知識垂直領(lǐng)域占據(jù)重要的席位,獲得行業(yè)話語權(quán)。

根據(jù)公開資料整理

在以絕對的技術(shù)“稱王”后,百度同時承擔起推動技術(shù)產(chǎn)業(yè)化落地的責任。這次推出的中文自然語言處理數(shù)據(jù)共建計劃『千言』和語言與知識技術(shù)算力共享計劃,是領(lǐng)頭羊承擔行業(yè)責任、推動包括友商在內(nèi)的行業(yè)共同進步的體現(xiàn),已經(jīng)脫離競爭范疇。

以算力共享計劃為例,百度準備在該計劃中,面向廣大開發(fā)者和研究人員開放共享百度的算力,初步投入約1億元的資源,邀請不僅限于百度語言與知識開源開放技術(shù)用戶還包括更多的中文語言與知識技術(shù)開發(fā)者、研究人員免費使用這些算力。

千言數(shù)據(jù)共建計劃也有類似的資源共享屬性,在這兩大計劃加持下,百度NLP將以整個行業(yè)的姿態(tài)共同解決發(fā)展中的技術(shù)挑戰(zhàn)。

2、矩陣式產(chǎn)品推進,已成為NLP產(chǎn)業(yè)落地的“新常態(tài)”

細數(shù)此次百度大腦新發(fā)布或升級的幾個主要產(chǎn)品,包括:

文心ERNIE語義理解技術(shù)與平臺,面向開發(fā)者提供各種NLP開發(fā)資源和能力;

TextMind智能文檔分析平臺,面向企業(yè)文檔的規(guī)范化;

智能創(chuàng)作平臺,面向創(chuàng)作者提供的一個高集成度的內(nèi)容創(chuàng)作平臺,功能方面進行了升級;

UNIT智能對話與定制服務(wù)平臺,各大廠AI都在搞的服務(wù),百度做得最早,現(xiàn)在重新整合進行了一次升級;

AI同傳會議解決方案,利用前沿NLP技術(shù)構(gòu)建的企業(yè)翻譯解決方案。

一股腦推出這些產(chǎn)品,表明NLP巨頭在產(chǎn)業(yè)落地時典型的矩陣化特征。這其中既有百度原本就占據(jù)優(yōu)勢的業(yè)務(wù)(例如UNIT、智能創(chuàng)作平臺)的再升級,也有根據(jù)市場需要新開發(fā)的能力,例如文心ERNIE、TextMind;

換一個角度看,這個矩陣也顯示出百度NLP既能實現(xiàn)最底層的賦能,也能走向臺前完成一線解決方案的塑造。

以AI同傳會議解決方案為例,隨著技術(shù)不斷突破,結(jié)合產(chǎn)品設(shè)計,同傳這個被認為是難度頗高的NLP領(lǐng)域已經(jīng)可以實用。百度新發(fā)布AI同傳會議解決方案,讓企業(yè)可以在只用一臺電腦,一部手機的情況下就能快速搭建一套同傳服務(wù),參會人員可以選擇屬于自己的語種,同傳服務(wù)成為語言轉(zhuǎn)換的高效率“樞紐”。

回過頭來看,也只有NLP方面有深度積累的巨頭才能完成這樣的產(chǎn)業(yè)落地矩陣構(gòu)建。

3、“降落傘”規(guī)則,支撐AI技術(shù)落地走得更穩(wěn)

合格率99.9%的降落傘會導(dǎo)致每千名士兵有一人因為產(chǎn)品不合格而失去生命,當軍方要求生產(chǎn)廠家負責人自己親身檢測產(chǎn)品后,“難以突破的”合格率馬上被提到了100%。

這個二戰(zhàn)典故帶來的“降落傘”規(guī)則在很多當代產(chǎn)業(yè)合作中被實踐,百度NLP也是如此,很多產(chǎn)品或解決方案都有應(yīng)用在百度龐大的互聯(lián)網(wǎng)、科技生態(tài)中的“經(jīng)歷”。

例如,在百度移動生態(tài)的內(nèi)容推薦及內(nèi)容審核中,已經(jīng)廣泛存在NLP的身影,即便到了視聽內(nèi)容時代,百度在視頻推薦方面超越行業(yè)的內(nèi)容理解能力,同樣有NLP的功勞。

而不止于移動生態(tài),百度多樣化業(yè)務(wù)布局中也存在NLP的印記,例如領(lǐng)先行業(yè)的金融信貸風控能力,或者百度最近大力推進的智慧醫(yī)療,其中涉及語義和知識也需要NLP加持。

二、破解“既要-又要”難題,語言與知識領(lǐng)域的AI已經(jīng)完成三大挑戰(zhàn)

NLP產(chǎn)業(yè)應(yīng)用往往面臨“既要-又要”的表面矛盾,而所謂的產(chǎn)業(yè)落地,某種程度上就是破解這些“無法兼得”矛盾的過程。

這從百度NLP的產(chǎn)品或解決方案中可見一斑。

1、既要通用性的便利,又要定制化的深度

一方面,由于通用性,產(chǎn)業(yè)開發(fā)者可以基于共有的方案快速實現(xiàn)產(chǎn)品或解決方案的部署及上線;另一方面,隨著產(chǎn)業(yè)智能化走向深度,不同產(chǎn)業(yè)客戶往往都開始追求屬于自己獨特的定制化能力。

這種通用性和定制化的矛盾,隨著產(chǎn)業(yè)對AI追求深化將越來越明顯。

可以看到,百度NLP此次的動作,越來越貼合“魚和熊掌兼得”的現(xiàn)實需要。以語義理解技術(shù)與平臺文心ERNIE為例,一站式能力即能夠?qū)崿F(xiàn)解決方案的快速部署適配,也能夠滿足開發(fā)者的個性化需求。

這是因為,深度學習平臺飛槳上打造的文心,除了享受到飛槳賦予的能力,還依托于百度領(lǐng)先的NLP技術(shù),集成了預(yù)訓練模型、算法集、開發(fā)套件、平臺化服務(wù),這些使得開發(fā)者既能夠更簡單地制作自己的NLP模型,也能夠便捷地融入企業(yè)的特殊需要。

通俗地說,這是一片已經(jīng)耕好的黑土地,只要撒入不同作物的種子,就能快速長出自己想要的莊稼。

2、既要成本低,又要效率高,還要“體驗”好

NLP產(chǎn)業(yè)落地還有牽扯要素更多的“我全都要”現(xiàn)象——在應(yīng)用開發(fā)過程中,因為降本增效的主旋律,希望成本能夠更低、效率可以更高,而開發(fā)者在龐雜的開發(fā)工作面前又往往還希望體驗?zāi)軌蚋谩?/p>

如果在過去,這種需求大概會被技術(shù)服務(wù)方懟回來,但隨著平臺化能力的提升,NLP已經(jīng)完全具備了滿足這種矛盾需求的能力。

仍然以文心為例,它全面降低了NLP的定制開發(fā)成本,在強大語義理解能力下對數(shù)據(jù)標注廣度和深度要求降低——90%準確度的模型,過去需要5100條數(shù)據(jù),現(xiàn)在可能只要220條數(shù)據(jù);在算力上也類似,由于集成了ERNIE預(yù)訓練模型,企業(yè)只需要單機微調(diào)即可取得世界領(lǐng)先效果的NLP模型,極大降低算力成本。

可以看出,這種成本的降低伴隨著效率的提升,二者是一體兩面的關(guān)系。而更進一步看,對實際參與開發(fā)工作的開發(fā)者而言,僅需要配置或編寫少量代碼便可完成從模型訓練到模型評估,1周的工作1天完成,這本身也是一種體驗上的優(yōu)化。

類似的還有UNIT智能對話與定制服務(wù)平臺,在本次升級后數(shù)據(jù)標注成本的進一步降低30%以上。重點場景預(yù)置的場景化解決方案,能夠幫助開發(fā)者以更低的成本、更高的效率完成智能對話系統(tǒng)的構(gòu)建,而這種構(gòu)建也不需要長篇大論、邏輯復(fù)雜的編程,只需要調(diào)用對應(yīng)的模塊即可。

3、既要單環(huán)節(jié)強化,也要全鏈條深入

“既全且深”在過去是NLP開發(fā)者對平臺服務(wù)的美好理想,既能夠提供全面的服務(wù),每個細分服務(wù)還能夠做到足夠得深。

現(xiàn)在,這種理想已經(jīng)變成現(xiàn)實,它同樣得益于技術(shù)和服務(wù)的長期積累。

以百度NLP智能創(chuàng)作平臺為例,該平臺一年多以來的自動創(chuàng)作文章累計200萬+,相當一個10人團隊至少工作45年;“圖文轉(zhuǎn)視頻能力”上線4個月,被7000多家客戶使用,自動創(chuàng)作短視頻15萬,相當于一個人至少要工作100年。

在此基礎(chǔ)上,智能創(chuàng)作平臺進行了再升級,一次性推出囊括智能策劃、智能采編和智能審校全鏈條的3大場景方案,而每個環(huán)節(jié),都十分深度而不只是簡單的布局。

例如,在智能采編環(huán)節(jié),借助融合文本、視覺、語音的跨模態(tài)AI技術(shù),一方面提供文章創(chuàng)作多樣、易用的工具,另一方面,還整合了視頻編輯、圖文與視頻互相轉(zhuǎn)換等視頻生產(chǎn)實用能力,實際應(yīng)用可以幫助視頻生產(chǎn)速度達到原有的6倍。

可以認為,在百度等巨頭的積極探索下,過去NLP領(lǐng)域那些不可能、充滿矛盾的產(chǎn)業(yè)應(yīng)用需求,最終將變得稀松平常。

三、讓AI強者恒強的“自增強循環(huán)”,這次AI巨頭又有了新的玩法

在AI發(fā)展領(lǐng)域有典型的來自實踐的“自增強循環(huán)”現(xiàn)象,即在深度積累下不斷在自身業(yè)務(wù)、產(chǎn)業(yè)領(lǐng)域進行實踐,將成果反饋,推動算法、數(shù)據(jù)等不斷進步,自我強化,對行業(yè)的領(lǐng)先像滾雪球一樣越滾越大。

例如,百度NLP領(lǐng)先行業(yè)的UNIT,自發(fā)布以來,2.7萬多開發(fā)者在平臺累積知識條目總量2.4億,支撐了超過10萬個智能對話應(yīng)用,與最終用戶總計進行了超過4200億次交互。

這些實踐的強化,反過來讓UNIT能力更上一層樓,推出更多更低成本、更高效率、更好開發(fā)體驗的服務(wù),這種正向循環(huán)讓UNIT超越競品越來越多。

所謂的“強者恒強”,其實根本上就是來自于這種“自增強循環(huán)”。

現(xiàn)在,百度在NLP領(lǐng)域推進這種“自增強循環(huán)”又多了一種玩法。如果說過去的“自增強”過程是在自己的地盤中實踐推進,那么百度此次推出的行業(yè)計劃,則帶有聯(lián)合整個行業(yè)共同完成“自增強循環(huán)”的意味。

此次百度NLP推出的千言開源數(shù)據(jù)計劃十分典型。

在百度的構(gòu)想中,它試圖“團結(jié)”來自國內(nèi)多家高校和企業(yè)的數(shù)據(jù)資源研發(fā)者,共同建設(shè)這樣一個數(shù)據(jù)項目,在更多的“同行”加入下,獲得更豐富的任務(wù)類型、更多的開源數(shù)據(jù)集合。

這樣做的好處,是讓計劃中的每一個參與者都能享受到整個行業(yè)的數(shù)據(jù)和模型積累,從復(fù)雜知識構(gòu)建、語義理解、知識融合、多模態(tài)融合等角度推動技術(shù)的進步,畢竟,百度NLP積累再多,也少于整個行業(yè),而NLP又是一個極度依賴積累的AI垂直領(lǐng)域。

千言第一期總共涵蓋了7大任務(wù),20多個中文開源數(shù)據(jù)集合,這會是百度另一種“自增強循環(huán)”的開啟,只不過,它依靠的是整個行業(yè)橫向而不是自身實踐縱向的推進力量,也將惠及整個行業(yè)。

通過行業(yè)共建的方式汲取精華獲得群策群力的成長,這是百度AI、NLP更大的手筆。

以這樣的視角再來看百度在此次峰會上推出以王海峰為代表的百度NLP“十年十人”,可以認為,百度NLP在十年發(fā)展后,已經(jīng)不單被定義為一種屬于企業(yè)個體的優(yōu)勢技術(shù),更成為百度推動機器更好地理解世界、服務(wù)于人這種技術(shù)信仰的典型代表,實現(xiàn)著更高維度的技術(shù)情懷。

總而言之,已經(jīng)完成“技術(shù)扛鼎”的百度NLP,重心已經(jīng)轉(zhuǎn)移到了產(chǎn)業(yè)落地上。作為走在NLP應(yīng)用于產(chǎn)業(yè)智能化最前線的巨頭,百度走出了有自身調(diào)性的路子,也通過滿足產(chǎn)業(yè)更復(fù)雜深度的方式來獲得更廣泛的認可,以及相對競爭對手的優(yōu)勢。與此同時,從競爭到競合的行業(yè)態(tài)勢,也通過百度的引導(dǎo)開始發(fā)生在NLP領(lǐng)域。

*此內(nèi)容為【科技向令說】原創(chuàng),未經(jīng)授權(quán),任何人不得以任何方式使用,包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。

【完】

曾響鈴

1鈦媒體、品途、人人都是產(chǎn)品經(jīng)理等多家創(chuàng)投、科技網(wǎng)站年度十大作者;

2虎嘯獎評委;

3作家:【移動互聯(lián)網(wǎng)+ 新常態(tài)下的商業(yè)機會】等暢銷書作者;

4《中國經(jīng)營報》《商界》《商界評論》《銷售與市場》等近十家報刊、雜志特約評論員;

5鈦媒體、36kr、虎嗅、界面、澎湃新聞等近80家專欄作者;

6“腦藝人”(腦力手藝人)概念提出者,現(xiàn)演變?yōu)椤白悦襟w”,成為一個行業(yè);

7騰訊全媒派榮譽導(dǎo)師、多家科技智能公司傳播顧問。

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號