欧美国产日韩A在线视频,国产激情视频三区

專利看騰訊聲紋識別技術(shù)有進步嗎，聲音解鎖功能不再雞肋！

2022-10-13 10:21

德高行知情郎

關(guān)注

知情郎·眼｜

侃透公司專利事兒

今天聊聲紋識別。

即如何鑒偽聲音。

顧名思義，即通過聲音來識別出來“誰在說話”，是根據(jù)語音信號中的說話人個性信息來識別說話人身份的一項生物特征識別技術(shù)。

微信也有類似聲紋解鎖功能，對著微信錄一段用戶語音，如果微信被鎖住凍結(jié)不能用了，可以通過用戶語音被系統(tǒng)識別確認為機主，解鎖微信。

這個功能早年還被用戶吐槽多此一舉如雞肋！如今倒是用習慣了。

如今，聲紋識別應(yīng)用于各種場合，尤其在公共安全領(lǐng)域，成為公安打擊電信詐騙的主要偵查手段，聲紋辨認技術(shù)可以在一段錄音中查找出嫌疑人或縮小偵察范圍。

電信詐騙，天天有人偽裝熟人語音向你借錢，各種約你老鄉(xiāng)聚會、工作，實則都是釣魚詐騙，令人防不勝防。

實驗證明，無論講話者是故意模仿他人聲音和語氣，還是耳語輕聲講話，即使模仿得惟妙惟肖，其聲紋卻始終不變。

基于聲紋的這兩個特征，偵查人員就可將獲取的犯罪分子的聲紋和嫌疑人的聲紋，通過聲紋鑒定技術(shù)進行檢驗對比，迅速認定罪犯，為偵查破案提供可靠的證據(jù)。

國內(nèi)很多主流互聯(lián)網(wǎng)公司都在研究聲紋識別相關(guān)技術(shù)，如科大訊飛、騰訊等。

看看他們的專利研究啥。

01聲紋識別的基礎(chǔ)

每一個人的聲音都有獨特的紋路。

聲紋識別的理論基礎(chǔ)是每一個聲音都具有獨特的特征，通過該特征能將不同人的聲音進行有效的區(qū)分。

這種獨特的特征主要由兩個因素決定，第一個是聲腔的尺寸，具體包括咽喉、鼻腔和口腔等，這些器官的形狀、尺寸和位置決定了聲帶張力的大小和聲音頻率的范圍。

因此不同的人雖然說同樣的話，但是聲音的頻率分布是不同的，聽起來有的低沉有的洪亮。

每個人的發(fā)聲腔都是不同的。

第二個決定聲音特征的因素是發(fā)聲器官被操縱的方式，發(fā)聲器官包括唇、齒、舌、軟腭及腭肌肉等，他們之間相互作用就會產(chǎn)生清晰的語音。而他們之間的協(xié)作方式是人通過后天與周圍人的交流中隨機學(xué)習到的。人在學(xué)習說話的過程中，通過模擬周圍不同人的說話方式，就會逐漸形成自己的聲紋特征。

音高、音強、音長、音色在語言學(xué)中被稱為語音“四要素”，這些因素又可分解成九十余種特征。這些特征表現(xiàn)了不同聲音的不同波長、頻率、強度、節(jié)奏。

工程師制造的語圖儀等電子設(shè)備可以把聲波的變化轉(zhuǎn)換成電訊號的強度、波長、頻率、節(jié)奏變化，儀器又把這些電訊號的變化繪制成波譜圖形，就成了聲紋圖。

因此，理論上來說，聲紋就像指紋一樣，很少會有兩個人具有相同的聲紋圖。

02常用的聲紋識別辦法

實際上，聲紋識別最初就是美國人為了提高破案率而開發(fā)的，電話電報公司的貝爾實驗室研究和發(fā)明了“音響光譜圖象顯示器”，把聲波用光譜圖象加以顯示，之后開始培訓(xùn)警官，推廣相關(guān)技術(shù)，以應(yīng)付猖獗的綁架、恐嚇案。

那個年代，綁架分子動不動用電話恐嚇人交贖金。

目前來看，聲紋識別常用的方法包括模板匹配法、最近鄰方法、神經(jīng)元網(wǎng)絡(luò)方法，VQ聚類法等。

在行業(yè)內(nèi)大名鼎鼎的語譜圖是聲音信號的一種圖像化的表示方式，它的橫軸代表時間，縱軸代表頻率，語音在各個頻率點的幅值大小用顏色來區(qū)分。說話人的聲音的基頻及諧頻在語譜圖上表現(xiàn)為一條一條的亮線，再通過不同的處理手段就可以得到不同語譜圖之間的相似度，最終達到聲紋識別的目的。

那個年代沒有如今的數(shù)字技術(shù)，人們可視化研究語音數(shù)據(jù)的方法是把數(shù)據(jù)通過頻率濾波器，然后各個頻率的數(shù)據(jù)驅(qū)動相應(yīng)的類似針式打印的設(shè)備按頻率高低順序記錄在一卷紙上，信號的強弱由記錄在紙上的灰度來表示，這就是語譜圖的由來。

目前公安部聲紋鑒別就采用類似方法，而且語譜圖還是用的灰度來表示。主要抽取說話人聲音的基音頻譜及包絡(luò)、基音幀的能量、基音共振峰的出現(xiàn)頻率及其軌跡等參數(shù)表征，然后再與模式識別等傳統(tǒng)匹配方法結(jié)合進行聲紋識別。

美國和國內(nèi)都有不少企業(yè)生產(chǎn)聲紋識別的設(shè)備，公安部為采購這些設(shè)備還正式頒布了《安防聲紋識別應(yīng)用系統(tǒng)技術(shù)要求》的行業(yè)標準。

但是這種方法是一種靜態(tài)檢測的方法，存在很大的弊端，實時性不好，動態(tài)檢測聲紋的需求實際上更大。

受各種不確定性因素的制約，當前說話人識別系統(tǒng)仍難言可靠！這些不確定性因素包括非限定的自由文本、各種各樣的傳輸信道、復(fù)雜多變的背景噪音、說話人自身的生理波動等等。這些不確定性因素對說話人識別系統(tǒng)提出了巨大的挑戰(zhàn)。

03當下聲紋識別主流算法

技術(shù)社區(qū)的大牛曾對聲紋識別算法的演進做了概述，早年聲紋識別技術(shù)很簡陋，靠語譜圖人工進行一一比對檢測，如今AI技術(shù)發(fā)展迅速，人工手動的操作方式早被淘汰，靠AI來識別。

主流聲紋識別算法轉(zhuǎn)述如下：

從1995年開始，混合高斯模型的統(tǒng)計模式識別技術(shù)被引入說話人識別，2000年Reynolds提出的GMM－UBM模型成為聲紋識別領(lǐng)域最重要的基石。

2008年kenny提出聯(lián)合因子分析（JFA）將GMM均值超矢量空間劃分為本征空間，信道空間，殘差空間，分別對說話人和信道空間建模。

由于JFA進行信道補償時不可避免的包含說話人信息，并且存在空間掩蓋和空間重疊的問題，因此不能對說話人和信道進行準確建模和區(qū)分，于是在2010年Najim Dehak等人提出使用全局差異空間代替本征空間和信道空間，即I－vector對說話人進行建模。

隨著數(shù)據(jù)和計算資源的豐富，基于深度學(xué)習的聲紋識別帶來了性能的進一步提升。2018年X－vector在D－vector的基礎(chǔ)進行改進，通過在幀級特征上池化映射獲得可以表示說話人特性的段級向量，成為state－of－the－art的框架�；赬－vector說話人建模的聲紋識別系統(tǒng)主要包括語音特征提取，說話人建模和后端分類器進行信道補償及似然度打分三個部分。

特征方面算法：

MFCC／PLP／FBank等短時頻譜特征；

D－vector （谷歌2014年提的）；

Deep feature ／ Bottleneck feature ／Tandem feature （三者不是并行關(guān)系，可以搜關(guān)鍵詞查看相關(guān)論文）；

模型方面算法：

GMM－UBM；

JFA （Joint Factor Analysis）；

GMM－UBM i－vector；

Supervised－UBM i－vector；

DNN i－vector （2014年微軟Yun Lei等人提的）；

得分方面算法：

SVM（早期與GMM－UBM一起使用最為后端分類器）；

Cosine Distance （CDS）；

LDA；

PLDA；

當然，隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展和訓(xùn)練數(shù)據(jù)的龐大，谷歌、微軟和百度等公司使用end－to－end的方法集這三個方面于一體，效果也還可以。

除了以上主流技術(shù)，還有以下幾種：

BNF特征，ivector＋PLDA／CDS、GMM＋SVM、d－vector，ivevtor－plda 還有一些d－vector對數(shù)據(jù)量要求比較大的，主流的還是用nn去提取特征。

04科大訊飛、騰訊在聲紋識別相關(guān)專利

國內(nèi)哪些機構(gòu)在研究聲紋識別技術(shù)？

在德高行全球?qū)＠麛?shù)據(jù)庫中，檢索了相關(guān)專利，專利申請人排名如下：

申請人

專利數(shù)量

平安科技（深圳）有限公司

122

廈門快商通科技股份有限公司

騰訊科技（深圳）有限公司

百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司

華為技術(shù)有限公司

珠海格力電器股份有限公司

阿里巴巴集團控股有限公司

深圳壹賬通智能科技有限公司

芋頭科技（杭州）有限公司

OPPO廣東移動通信有限公司

中國工商銀行股份有限公司

中國銀行股份有限公司

北京百度網(wǎng)訊科技有限公司

廣州勢必可贏網(wǎng)絡(luò)科技有限公司

（該表不含子公司）

金融銀行業(yè)位居前列，可以理解，在認證交易方面，銀行系統(tǒng)從來下重金研發(fā)，畢竟，支付轉(zhuǎn)賬匯款最核心的操作就是確認是否為當事人的真實交易用途。

科大訊飛未列入靠前的名單，作為一家語音識別技術(shù)國內(nèi)一流的公司，細分支聲紋識別專利量排名靠后，出乎知情郎的意料。

不過，查了科大訊飛及其子公司的專利，人家有46件專利，也不算少。

知情郎比較關(guān)注騰訊的聲紋識別專利，因為在技術(shù)應(yīng)用廣度上，微信10億人的受眾，微信所采用的的聲紋識別必然是最靠譜，他每天都要應(yīng)對日活億級強度的檢測。

如果騰訊采用的聲紋識別技術(shù)不成熟，讓微信用戶無法通過聲紋解鎖微信，投訴潮估計會瞬間壓垮人家的客服部。

下為騰訊最新8件聲紋識別相關(guān)專利：

序號

標題

公開號

解決的技術(shù)問題

一種聲紋信息處理方法、裝置、電子設(shè)備及存儲介質(zhì)

CN115171660A

實時更新聲紋嵌入碼。可以提高利用聲紋嵌入碼進行聲紋識別的準確性，使用戶獲得更好的使用體驗。

一種情緒類別確定方法、裝置、設(shè)備及可讀存儲介質(zhì)

CN115171731A

從聲紋和語義信息中，提煉特征，確定該目標語音的目標情緒類別，提高情緒類別確定的準確性。

一種語音驗證處理的方法以及相關(guān)裝置

CN114648978A

將聲紋驗證處理的過程部署在聲紋驗證服務(wù)器中進行，而不是部署在終端設(shè)備中，使得該語音驗證的方法能夠有效地擺脫終端設(shè)備的硬件資源限制，使得終端設(shè)備能夠支持更多的說話對象進行語音錄入，進而實現(xiàn)對更多的說話對象的識別。

聲紋識別方法、裝置、介質(zhì)及設(shè)備

CN114333844A

本申請?zhí)峁┑募夹g(shù)方案可以在不影響原有聲紋模型性能的基礎(chǔ)上，對基于對抗樣本的白盒攻擊或黑盒攻擊實施有效的防御和檢測，從而提高了聲紋識別的安全性和可靠性。

一種基于音視頻分離的智能拆條方法

CN111586494B

傳統(tǒng)的長視頻拆條方式，需要投入大量的人工進行手動預(yù)覽拆分視頻，耗時耗力，無法在短時間內(nèi)批量地深度挖掘同質(zhì)同類內(nèi)容并驗證其重復(fù)性，對精準的用戶傳播造成了很大阻礙。本專利提供一種基于音視頻分離的智能拆條方法。

音頻處理方法、裝置、存儲介質(zhì)及計算機設(shè)備

CN113763962A

該方法可以根據(jù)音頻數(shù)據(jù)中聲紋信息之間的差別確定目標子音頻數(shù)據(jù)，再對目標子音頻數(shù)據(jù)進行評分。如此可以提高音頻數(shù)據(jù)處理的準確性，進而提升了對音頻數(shù)據(jù)評分的準確性。

語音識別方法和裝置、存儲介質(zhì)

CN112562681B

在復(fù)雜的聲音環(huán)境中降低干擾音頻的干擾是音頻處理中重的要研究方向。該方案提供了至少一種解決復(fù)雜的聲音環(huán)境中語音識別準確率較低的技術(shù)問題。

一種聲紋識別的方法、模型訓(xùn)練的方法以及服務(wù)器

CN110289003B

利用歸一化指數(shù)函數(shù)和中心化函數(shù)對聲紋識別模型進行聯(lián)合優(yōu)化，能夠減少來自同一說話人深度特征之間的類內(nèi)變化。采用兩種函數(shù)同時監(jiān)督和學(xué)習聲紋識別模型，可使深度特征具有更好的區(qū)分性，從而提升識別性能。

05經(jīng)典專利解讀

特別要提下該專利：聲紋識別方法、裝置、介質(zhì)及設(shè)備（CN114333844A），這是專門防御檢測攻擊者造假合成聲音的鑒偽技術(shù)。

簡答說，用AI檢測對抗AI合成聲音。

事實上，目前基于深度神經(jīng)網(wǎng)絡(luò)的聲紋識別已經(jīng)取得了性能非常不錯的識別效果，但是未受保護的聲紋識別系統(tǒng)具有極大的安全隱患，可能受到錄音重放攻擊、語音合成攻擊、語音轉(zhuǎn)換攻擊、對抗樣本攻擊等問題。其中關(guān)于對抗樣本攻擊的防御和檢測技術(shù)仍處于起步階段，目前已有的方案主要是進行對抗訓(xùn)練，或是引入新的網(wǎng)絡(luò)結(jié)構(gòu)進行主動防御，這些方法需要更多的計算資源，或是增加模型的參數(shù)量，且對抗防御的效果還有很大的提升空間。

一個典型的聲紋識別系統(tǒng)的工作流程主要涉及兩個步驟：“聲紋預(yù)留（注冊）”和“聲紋驗證（測試）”。預(yù)留是將用戶語音轉(zhuǎn)化成為說話人表征向量并進行存儲，聲紋驗證判斷一段未知的測試語音是否來自指定說話人，系統(tǒng)將測試語音轉(zhuǎn)化成為說話人表征向量同時與預(yù)留下的用戶語音進行打分比對，如果大于事先設(shè)置好的閾值，則判定屬于同一個說話人；反之如果打分小于閾值，則判定不屬于同一個說話人。

在用戶完成注冊后，在進行聲紋驗證步驟中，聲紋識別可能存在錄音重放攻擊、語音合成攻擊、語音轉(zhuǎn)換攻擊、對抗樣本攻擊等安全相關(guān)問題。錄音重放攻擊、語音合成攻擊、語音轉(zhuǎn)換攻擊是二次錄音或是合成轉(zhuǎn)換出的聲音，由于設(shè)備的頻響或是合成模型性能不足，造成用于攻擊的語音數(shù)據(jù)中一些頻域上存在缺失和扭曲，與真人說話會有不同的特性，通過大量的正負樣本學(xué)習，計算機能夠輕易分辨出是語音是錄音合成還是真人所說。

對抗樣本攻擊特別是在白盒情況的攻擊相比于以上三種攻擊更難檢測和防御。到目前為止，深度學(xué)習模型易受對抗樣本攻擊的原因仍然是一個開放的研究課題，缺乏完備的理論體系，這個問題也制約著深度學(xué)習的進一步發(fā)展。目前大部分關(guān)于對抗樣本的研究都集中在計算機視覺領(lǐng)域。由于語音信號屬于非平穩(wěn)信號，關(guān)于聲紋識別的對抗樣本攻擊和防御的研究仍處于起步階段。特別是在對抗樣本攻擊的防御上，目前還沒有很多完善的與聲紋相關(guān)的研究和解決方案。

目前，針對對抗攻擊的防御方法主要分為以下三種方案：

1．對抗訓(xùn)練：在每次模型訓(xùn)練過程中，通過在訓(xùn)練集中注入對抗樣本對模型進行再訓(xùn)練；

2．對輸入數(shù)據(jù)進行預(yù)處理：對輸入進行變換處理，使攻擊者難以計算模型的梯度，從而達到防御對抗攻擊的目的；

3．對模型進行蒸餾：使用知識蒸餾的方法降低網(wǎng)絡(luò)梯度的大小，提高發(fā)現(xiàn)小幅度擾動對抗樣本的能力。

然而上述方案中，存在如下缺點：

1．對抗訓(xùn)練需要在模型訓(xùn)練的過程中生成對抗樣本，隨后把生成的對抗樣本作為輸入數(shù)據(jù)訓(xùn)練原有的網(wǎng)絡(luò)。這兩個過程都需要耗費大量的計算資源和計算時間，并且最終得到的訓(xùn)練模型大多只能針對特定的對抗樣本算法進行防御，如果攻擊者修改對抗攻擊算法，將會使得模型防御能力大大降低。

2．目前對輸入數(shù)據(jù)進行預(yù)處理的防御方法大多采用生成的神經(jīng)網(wǎng)絡(luò)模型重構(gòu)輸入數(shù)據(jù)的方法，例如基于變分自編碼器（Variational Auto－Encoder，VAE）或?qū)股缮窠?jīng)網(wǎng)絡(luò)（Generative Adversarial Networks，GAN）對對抗樣本進行去噪處理，使得去噪模型輸出的數(shù)據(jù)結(jié)果更加接近于原始無噪聲的數(shù)據(jù)。這些方法需要引入新的神經(jīng)網(wǎng)絡(luò)，提高了聲紋識別系統(tǒng)的參數(shù)量；并且聲紋識別系統(tǒng)在推理的過程中需要耗費更多的計算時間在原始音頻的去噪處理上，且該方法很難抵御白盒攻擊。

3．對模型進行蒸餾和正則化可能會很大程度的損害聲紋模型的識別性能與魯棒性，讓原本在沒有收到攻擊的真實樣本下的識別性能降低。

4．目前的聲紋識別系統(tǒng)關(guān)于對抗樣本的防御策略大多都是對計算機視覺研究上的借鑒和遷移，相比于圖像信號，語音信號屬于非平穩(wěn)信號，聲紋識別系統(tǒng)的對抗樣本攻防御還暫時處在起步階段。這些在圖像上方法不一定適用于語音數(shù)據(jù)。

該專利工程師為了提升聲紋識別的可靠性和安全性，專門開發(fā)了一套自己的防御算法，在應(yīng)用于對抗防御和檢測中時，本申請?zhí)峁┑募夹g(shù)方案在輸入預(yù)處理階段進行改進，無需對原有的聲紋模型進行對抗訓(xùn)練，也無需增加用于對抗樣本攻擊的防御模塊，只需在原有的聲紋驗證階段增加對待識別語音的轉(zhuǎn)換處理和對多個聲紋驗證結(jié)果的判決處理，整體方案簡單易行，具有較高的通用性；且本申請?zhí)峁┑募夹g(shù)方案可以在不影響原有聲紋模型性能的基礎(chǔ)上，對基于對抗樣本的白盒攻擊或黑盒攻擊實施有效的防御和檢測，從而提高了聲紋識別的安全性和可靠性。

值得一讀的專利！

【轉(zhuǎn)載請注明德高行·知情郎】

原文標題 : 專利看騰訊聲紋識別技術(shù)有進步嗎，聲音解鎖功能不再雞肋！