訂閱
糾錯
加入自媒體

陳偉:AI語音市場要靠3.0技術(shù)撬動

前言:

想要實現(xiàn)全人類之間的順暢交流,一直都是一個遙不可及的美好期望,而人工智能的飛速發(fā)展,讓我們看到了這一希望。

國內(nèi)剛需明顯提升

在中國,從事同傳工作的,大多數(shù)是英語專業(yè)背景,精通全領(lǐng)域是充分而非必要條件。而面對涉及醫(yī)療、數(shù)學(xué)和物理等領(lǐng)域的會議時,同傳人員并不能很好地將這些相關(guān)術(shù)語準(zhǔn)地翻譯。

當(dāng)學(xué)術(shù)盲點變成了行業(yè)痛點,以語音智能見長的科技公司便主動出擊,抓住了同聲傳譯這一細分市場的機遇,迭代到3.0版本的搜狗同傳便是向這一細分市場布局的開端。

機器同傳的產(chǎn)品價值,主要體現(xiàn)在其致力于解決跨語言交流、跨語言信息獲取和語言表達的電子化記錄等障礙。若要真正實現(xiàn)這三點,不能單純地把語音識別和機器翻譯做嫁接,而需要一套完整的有機系統(tǒng)。

Ai芯天下丨觀點丨陳偉:AI語音市場要靠3.0技術(shù)撬動

語境引擎=多模態(tài)+知識圖譜

去年12月,基于語境引擎的搜狗同傳3.0以多模態(tài)和自主學(xué)習(xí)為核心,加入視覺和思維能力,這是AI同傳在加入諸如視覺AI、知識圖譜等能力后的再度進化。

最新發(fā)布的搜狗同傳3.0,內(nèi)核進化成為了語境引擎。除了“語音信息+OCR”的結(jié)合方式,升級后的產(chǎn)品,最大亮點是在“能聽會看”的多模態(tài)基礎(chǔ)上,注入了思考和推理能力,背后靠的是知識圖譜的加持。

多模態(tài)同傳,即AI獲取信息的渠道不再是語音,還包含圖像等其他內(nèi)容。這種多模態(tài)的交互方式是搜狗一直堅信的趨勢,也是與人最自然的一種交流方式。

“會看”,意味著同傳首次具備了視覺能力!澳芾斫鈺评怼,則意味著同傳具備了與人“共情”的能力。

Ai芯天下丨觀點丨陳偉:AI語音市場要靠3.0技術(shù)撬動

基于語境引擎開發(fā)的搜狗同傳3.0為演講者構(gòu)建了個性化的認知語境,能夠跟隨演講者一起“思考”,無疑是AI同傳領(lǐng)域的又一大技術(shù)創(chuàng)新。

可以像人類一樣,從語音和圖像中獲取信息,不僅會聽,還能同時看圖、查資料,從而提高了同聲傳譯的準(zhǔn)確性,在AI同傳落地應(yīng)用中屬首創(chuàng)。

尤其是面對專有名詞、專業(yè)術(shù)語較多的場景,相比傳統(tǒng)只依賴語音的技術(shù),針對PPT內(nèi)容將翻譯的正確率提升了40.3%。

Ai芯天下丨觀點丨陳偉:AI語音市場要靠3.0技術(shù)撬動

陳偉認為,多模態(tài)技術(shù)是未來人機交互的發(fā)展方向。從搜狗同傳的技術(shù)升級之路中,我們也可以看出搜狗下一步的計劃。

據(jù)陳偉介紹,搜狗同傳3.0相對于上一代產(chǎn)品主要有三方面能力的提升:

更加接近自然,從單純的語音識別到語音+圖像,新的方法模擬了人工同傳的工作方式,增加視覺和大腦擴散知識點的功能,擁有更為復(fù)雜的感知系統(tǒng)。

更加專業(yè),此前的AI同傳模型使用通用數(shù)據(jù),新的模型通過實時定制知識增強能力,能夠捕捉現(xiàn)場PPT內(nèi)容補充演講相關(guān)的專業(yè)領(lǐng)域的知識,并針對每一個演講進行模型定制,提升同傳效果。

Ai芯天下丨觀點丨陳偉:AI語音市場要靠3.0技術(shù)撬動

搜狗同傳的技術(shù)迭代之路

2016年11月推出的搜狗同傳1.0通用語音同傳是首個商用機器同傳產(chǎn)品,實現(xiàn)了語音同傳的功能。

2018年,搜狗同傳2.0集成TTS,首次實現(xiàn)語音到語音同傳,并可根據(jù)用戶語料實時定制,同時它還用上了首個英譯中同傳引擎。

到3.0,搜狗同傳已經(jīng)是一款業(yè)內(nèi)首創(chuàng)的多模態(tài)+自主學(xué)習(xí)的同傳產(chǎn)品,能聽、會看,能理解、會推理是它的特點,同時增加了實時捕捉PPT內(nèi)容的功能。

搜狗1.0時,輸入僅是語音,2.0開始做語音+個性化,以及說話人的語境背景輸入;3.0加入了知識圖譜,把語音、視覺等信息作為語音識別的輸入,F(xiàn)在,業(yè)內(nèi)技術(shù)普遍介于1.0和2.0之間,而搜狗依靠圖譜方式,已經(jīng)率先進入3.0時代。

2.0時代,搜狗同傳會首先對文本進行規(guī)則化,讓文本變得流利,丟棄一些語義詞和停頓詞等,但會遇到延時很大的問題。

在3.0時代,搜狗同傳加入了語義單元,識別判斷一句話為獨立的一個單元,系統(tǒng)可以在講話者說話的同時可以立即上屏,降低同傳系統(tǒng)的延遲。

Ai芯天下丨觀點丨陳偉:AI語音市場要靠3.0技術(shù)撬動

機器翻譯與人工之間的差距在拉近

機器翻譯的歷史可能比大多數(shù)人想象中都要久遠,1954年初,喬治城大學(xué)的實驗的一臺電腦成功將四十多條俄文句子自動翻譯成英文,這一事件成為機器翻譯史中的一個里程碑,標(biāo)志著現(xiàn)代機器翻譯的開端。

60多年過去了,機器翻譯產(chǎn)品已經(jīng)走進每個人的日常生活,在大型會議等場景下被廣泛采用。

雖然翻譯效果仍有待提高,但機器翻譯已經(jīng)成為提高翻譯效率不可或缺的工具,并催生了一大批從事AI翻譯研究的企業(yè),國內(nèi)有搜狗、騰訊、科大訊飛等,國外有谷歌、微軟等。

翻譯領(lǐng)域有些工作是有重復(fù)性的,包括同傳領(lǐng)域,機器在某些方面會優(yōu)于人工,比如知識面、領(lǐng)域知識的拓展性上,機器比真人的知識面更廣闊,并能夠快速查詢背后海量的知識體系,這比真人在某些領(lǐng)域的翻譯上的準(zhǔn)確率更高。

在支持了上千場會議之后,他們發(fā)現(xiàn)從成本上來看,機器翻譯的成本一定是低于人工的,且邊際成本會隨著使用量增加越來越低。

與人相比,機器翻譯成本更低,需要支持的設(shè)備也更少,一臺筆記本,一條視頻線、一條音頻線,連上就可以工作。

機器同傳在未來的地位

從機器同傳的流程來看,當(dāng)機器視覺捕捉到核心關(guān)鍵詞之后,會根據(jù)搜狗的知識圖譜技術(shù),把相關(guān)的詞匯以及專業(yè)領(lǐng)域相關(guān)的詞語拓展出來,作為語音識別和翻譯的加強。

未來,機器同傳可向記者采訪、跨國辦公會議、中英文視頻直播、字幕翻譯等場景延展。這些應(yīng)用場景最主要的挑戰(zhàn),是怎么保證機器同傳的穩(wěn)定效果,考驗的是采集設(shè)備、網(wǎng)絡(luò)環(huán)境、識別能力等。

未來面向人和機器交互過程中,一定是多模態(tài)的,搜狗提倡的技術(shù)主張,使機器同傳和同類產(chǎn)品拉開了一代之差。他們還是以同傳為主,搜狗已經(jīng)從語音跨到了多模態(tài),并把對于知識和語音的理解放進去,使同傳開始具備一定的認知能力。

而搜狗在AI語音商業(yè)化的進程,最終的指向還是消費者端。未來各種各樣的場合都可能用到搜狗同傳的技術(shù),通過同傳打磨的能力也可以反向用于C端產(chǎn)品。

一直以來,人工智能技術(shù)只能在展示在實驗室中,隨著深度學(xué)習(xí)等技術(shù)的研究成熟,人工智能技術(shù)加持的產(chǎn)品也逐漸開始落地。

多模態(tài)技術(shù)未來發(fā)展

很多公司都意識到多模態(tài)技術(shù)重要性,并將研究成果落地到各種應(yīng)用中,比如騰訊、優(yōu)酷等視頻網(wǎng)站平臺,快手等短視頻平臺都將多模態(tài)技術(shù)應(yīng)用于內(nèi)容理解上,在獲取用戶和加強與用戶的互動交流上起到了重要作用。

目前關(guān)于多模態(tài)的研究課題還是要從產(chǎn)品和實際需求倒推功能,這涉及到異構(gòu)數(shù)據(jù)融合的問題。

多模態(tài)表達,在語義上如何進行對齊,提取同一需求的多模態(tài)特征,如何更好地跨越語義的鴻溝,異構(gòu)數(shù)據(jù)如何融合,都是多模態(tài)技術(shù)會遇到的問題。

隨著精度的逐步提高,搜狗同傳所采用的AI技術(shù),未來還將有更廣闊的的應(yīng)用空間,賦予我們更多的可能性。比如,實時私人翻譯乃至文學(xué)作品的譯制,可以讓我們足不出戶,享受第一手國際作品的字幕體驗。

而在跨國界、跨領(lǐng)域等項目合作方面,逐漸實現(xiàn)無縫對接,能夠顯著提高整體的工程協(xié)作效率。

結(jié)尾:

當(dāng)然必須要承認,無論是搜狗同傳還是其他玩家,大家目前距離頂級同傳的水準(zhǔn)還有很長的路要走,目前的機器同傳能力和頂級人工同傳相比,仍存在不小的差距。

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標(biāo)題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號