深度解讀思必馳語音合成技術(shù),干貨滿滿
語音合成(Text to Speech,TTS)又稱文本語音轉(zhuǎn)換技術(shù),顧名思義,是把文本信息轉(zhuǎn)化成語音信息。它是對話式人工智能的最后一環(huán),也是關(guān)鍵一環(huán),它的效果直接影響著人機(jī)語音交互的體驗(yàn)。
思必馳作為國內(nèi)領(lǐng)先的對話式人工智能平臺公司,它的語音合成技術(shù)表現(xiàn)究竟如何?
語音合成的“前世今生”
人的語音,本質(zhì)上是發(fā)音器官震動(dòng),產(chǎn)生聲波傳出。模仿人聲,最古老的方法是使用樂器。到19世紀(jì),就可以用機(jī)械方法產(chǎn)生語音了。那時(shí),科學(xué)家們會制作出一些精巧的氣囊和風(fēng)箱去搭建發(fā)聲系統(tǒng),合成出一些元音和單音。
人類發(fā)音示意圖
進(jìn)入電子時(shí)代的1939年,貝爾實(shí)驗(yàn)室H·杜德利制作出第一臺電子合成器,這是用共振峰原理制作的語音合成器,該技術(shù)使用固定頻率,以電子復(fù)制我們改變口型時(shí)所發(fā)出的元音聲,也這正是英國劍橋大學(xué)著名物理學(xué)家斯蒂芬·霍金教授所使用的聲音合成器。
上世紀(jì)90年代,隨著計(jì)算和存儲能力大幅度提升,基于大語料庫的單元挑選與波形拼接合成方法出現(xiàn),可以合成出高質(zhì)量的自然人語音。
語音合成技術(shù)演變
進(jìn)入21世紀(jì),隨著深度學(xué)習(xí)技術(shù)的興起和快速發(fā)展,以語音合成為代表的語音處理技術(shù)得到了極大的飛躍。神經(jīng)網(wǎng)絡(luò)語音合成在近幾年來取得了顯著突破,合成的音質(zhì)和自然度越來越好,運(yùn)行速度也越來越快。思必馳目前所使用的,也正是這種方法。
思必馳TTS,魅力何在?
早在2007年于英國劍橋大學(xué)創(chuàng)立時(shí),思必馳關(guān)于語音合成技術(shù)研究就已開啟,該項(xiàng)工作由思必馳聯(lián)合創(chuàng)始人兼首席科學(xué)家、上海交通大學(xué)教授俞凱領(lǐng)頭。
語音合成系統(tǒng)主要分為文本處理、聲學(xué)模型、聲碼器三個(gè)部分。文本處理負(fù)責(zé)對文本進(jìn)行轉(zhuǎn)寫和phoneme序列轉(zhuǎn)換;聲學(xué)模型使用深度神經(jīng)網(wǎng)絡(luò),可以在文本特征與聲學(xué)特征之間學(xué)習(xí)到更復(fù)雜的非線性關(guān)系;聲碼器負(fù)責(zé)將聲學(xué)模型輸出的聲學(xué)特征,通過卷積運(yùn)算,轉(zhuǎn)換成音頻。
經(jīng)過10多年的研究積累,思必馳在建模方法上,涵蓋了從傳統(tǒng)的統(tǒng)計(jì)參數(shù)模型到最新的基于神經(jīng)網(wǎng)絡(luò)的方法;對聲碼器的研究,涵蓋了從傳統(tǒng)的基于信號處理的方法到最新的基于神經(jīng)網(wǎng)絡(luò)的方法。
語音合成的質(zhì)量與效果,既有賴于語音廠商的算法模型,還取決于音頻語料的質(zhì)量,即數(shù)據(jù)質(zhì)量。思必馳有著豐富的聲優(yōu)資源以及聲優(yōu)挑選的經(jīng)驗(yàn),在蘇州建設(shè)有專業(yè)錄音棚并與國內(nèi)多個(gè)城市的錄音棚有著長久合作關(guān)系。與此同時(shí),思必馳數(shù)據(jù)團(tuán)隊(duì)也對數(shù)據(jù)標(biāo)注有著嚴(yán)格的質(zhì)量把控。
位于思必馳蘇州總部的專業(yè)錄音棚
經(jīng)過多年的技術(shù)積累,思必馳已逐步形成了一套成熟的技術(shù)方案,業(yè)務(wù)涵蓋了數(shù)據(jù)語音定制、數(shù)據(jù)快速定制、聲音克隆、歌聲合成、多語種合成、情感合成等,可選公有云、私有云以及離線三種部署模式,經(jīng)典模式可在思必馳官網(wǎng)實(shí)時(shí)體驗(yàn)。
2017年、2020年,思必馳還先后參與國家標(biāo)準(zhǔn)《中文語音合成互聯(lián)網(wǎng)服務(wù)接口規(guī)范》與行業(yè)標(biāo)準(zhǔn)《中文語音合成服務(wù)系統(tǒng)評估規(guī)范》的制定,并成為全國首批通過評估測評的公司之一,獲得“TTS-4S(Standard Similarity Scene System)服務(wù)證書”。該測評從合成質(zhì)量、定制能力、場景表現(xiàn)力和系統(tǒng)安全可靠等維度,全面評估合成水平和服務(wù)能力。
2019年11月,思必馳首批通過“中文語音合成水平測試”
未來世界,百“聲”爭鳴
為能快速提供語音合成定制服務(wù),思必馳全程提供音色選擇、錄音指導(dǎo)、音頻處理、模型訓(xùn)練、服務(wù)部署等專業(yè)服務(wù),賦予產(chǎn)品開口講話的能力。
截至目前,思必馳語音合成已建設(shè)的聲音庫內(nèi)包含音色接近200個(gè),涵蓋多種風(fēng)格,以及各個(gè)年齡層次。
思必馳語音合成服務(wù),也已在車載、家電、機(jī)器人、智能客服等諸多領(lǐng)域成功落地,為眾多終端產(chǎn)品賦予聲的魅力,使得萬物皆可溝通,并逐漸走入人們的工作與生活。
當(dāng)你在家里“躺平”,來自如影智能的語音管家“Edison”,用他溫暖、紳士的聲音(文章開頭的音頻A),為你帶來踏實(shí)與慰藉;當(dāng)你在愛車中馳騁,車蘿卜的語音助理“蘿卜”清脆、簡明的聲音,如同車水馬龍路途中的一股清流;當(dāng)你接起順豐95338服務(wù)熱線的外呼電話,智能客服“豐小蜜”親切又不失嚴(yán)謹(jǐn)?shù)穆曇,配合高效的工作能力,帶給你最省心省力的服務(wù)體驗(yàn)……
鏡頭切換到泛娛樂領(lǐng)域,思必馳團(tuán)隊(duì)打造的“小馳機(jī)器人”在央視《機(jī)智過人》中,現(xiàn)場用撒貝寧的聲音生成了一曲《好久不見》。在《經(jīng)典詠流傳》中,思必馳攜手欄目組共同推出 “讀詩成曲”線上互動(dòng)小工具,提供實(shí)時(shí)讀詩成曲的能力。用戶僅需讀幾句簡單的詩詞,便可快速生成有腔有韻的歌聲,互動(dòng)總量超過821萬人次。
思必馳聯(lián)合創(chuàng)始人兼首席科學(xué)家俞凱參與節(jié)目錄制
在個(gè)性化定制上,思必馳不僅可以提供普通話定制、歌聲定制,還可以通過遷移學(xué)習(xí)方法,提供更高難度的方言、小語種TTS定制,如粵語、上海語、四川話、山東話、東北話、德語、法語等。
而思必馳的情感合成技術(shù),則賦予美妙音色豐沛的情緒,讓聲音更具表現(xiàn)力與感染力。
此外,思必馳聲音復(fù)刻技術(shù)也已在斑馬智能、愛馳汽車、嵐圖汽車、仙豆智能等車聯(lián)網(wǎng)客戶以及IoT領(lǐng)域落地,僅需錄音20句話約400漢字,10分鐘之內(nèi)便可以完成模型生產(chǎn),MOS 合成音/錄音達(dá)到90%,相似度合成音/錄音達(dá)到80%。
人類的聲音,是人類語言的物質(zhì)外殼,卻承載著重要的信息和真摯的情感,擁有著無窮的魅力。人工智能突飛猛進(jìn)地發(fā)展正不斷催化人機(jī)交互方式的巨變,“萬物可溝通、萬事可打理”的語音互聯(lián)未來世界,正加速到來……
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個(gè)字
最新活動(dòng)更多
-
即日-11.13立即報(bào)名>>> 【在線會議】多物理場仿真助跑新能源汽車
-
11月28日立即報(bào)名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會議
-
12月19日立即報(bào)名>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
-
即日-12.26火熱報(bào)名中>> OFweek2024中國智造CIO在線峰會
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
-
精彩回顧立即查看>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
推薦專題
- 1 【一周車話】沒有方向盤和踏板的車,你敢坐嗎?
- 2 特斯拉發(fā)布無人駕駛車,還未迎來“Chatgpt時(shí)刻”
- 3 特斯拉股價(jià)大跌15%:Robotaxi離落地還差一個(gè)蘿卜快跑
- 4 馬斯克給的“驚喜”夠嗎?
- 5 打完“價(jià)格戰(zhàn)”,大模型還要比什么?
- 6 馬斯克致敬“國產(chǎn)蘿卜”?
- 7 神經(jīng)網(wǎng)絡(luò),誰是盈利最強(qiáng)企業(yè)?
- 8 比蘋果偉大100倍!真正改寫人類歷史的智能產(chǎn)品降臨
- 9 諾獎(jiǎng)進(jìn)入“AI時(shí)代”,人類何去何從?
- 10 Open AI融資后成萬億獨(dú)角獸,AI人才之爭開啟
- 高級軟件工程師 廣東省/深圳市
- 自動(dòng)化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市