聲紋識別原理
聲(sheng)(sheng)(sheng)紋是用(yong)電聲(sheng)(sheng)(sheng)學(xue)儀(yi)器顯(xian)示的(de)(de)攜帶言(yan)語(yu)信息的(de)(de)聲(sheng)(sheng)(sheng)波頻譜。人(ren)類語(yu)言(yan)的(de)(de)產生是人(ren)體語(yu)言(yan)中樞與發(fa)(fa)音器官之間一(yi)個(ge)(ge)復雜的(de)(de)生理物理過程(cheng),人(ren)在講話時使用(yong)的(de)(de)發(fa)(fa)聲(sheng)(sheng)(sheng)器官--舌、牙齒、喉(hou)頭、肺、鼻腔在尺寸和形態方(fang)面每個(ge)(ge)人(ren)的(de)(de)差異(yi)很大,所(suo)以(yi)任何兩(liang)個(ge)(ge)人(ren)的(de)(de)聲(sheng)(sheng)(sheng)紋圖(tu)譜都有差異(yi)。這也使得(de)聲(sheng)(sheng)(sheng)紋識別(bie)也可(ke)以(yi)稱為身份(fen)認證的(de)(de)一(yi)種方(fang)式。
聲紋識別優缺點
1、聲(sheng)紋識別(bie)的優勢在(zai)于(yu):
(1)聲紋提(ti)取方便,可在不(bu)知不(bu)覺中(zhong)完成,因此使用者的接受(shou)程(cheng)度也高;
(2)獲取語音的識別成本低廉,使用簡單,一個(ge)麥(mai)克(ke)風即可,在使用通訊(xun)設備時更(geng)無(wu)需額外的錄音設備;
(3)適合遠程身份確認,只需要一個麥克風或電話、手機就(jiu)可以通(tong)過網(wang)路(通(tong)訊(xun)網(wang)絡(luo)(luo)或互聯網(wang)絡(luo)(luo))實現遠(yuan)程(cheng)登錄;
(4)聲(sheng)紋(wen)辨認和(he)確認的算法復雜度低;
(5)配合(he)一(yi)些其他措施(shi),如通(tong)過語音識別進(jin)行內容(rong)鑒別等,可以提高(gao)準確率(lv)。這些優勢使得聲紋識別的應(ying)用越來越受到系統開發者和(he)用戶青睞。
2、聲紋識(shi)別(bie)的缺(que)點:
當然,聲(sheng)紋識別(bie)的應用有(you)一些缺點,比(bi)如(ru)同(tong)一個人的聲(sheng)音具有(you)易(yi)變性,易(yi)受身(shen)體(ti)狀況、年齡、情緒等的影響;比(bi)如(ru)不同(tong)的麥克風和信道對識別(bie)性能(neng)有(you)影響;比(bi)如(ru)環境噪音對識別(bie)有(you)干擾;又比(bi)如(ru)混合說話人的情形下(xia)人的聲(sheng)紋特征不易(yi)提取(qu)等等。
聲紋識別的過程
聲(sheng)紋(wen)識別的過程包括:語(yu)音信(xin)號處理、聲(sheng)紋(wen)特征提取、聲(sheng)紋(wen)建模、聲(sheng)紋(wen)比對、判(pan)別決策(ce)等(deng)。
聲紋識別匹配模式
聲紋(wen)識別技(ji)術的(de)關(guan)鍵在于對(dui)各(ge)種(zhong)聲學(xue)特征參數進行(xing)處理,并確定模式(shi)匹(pi)配(pei)方法,主要(yao)的(de)模式(shi)匹(pi)配(pei)方法包括:
1、模(mo)板匹配方法:利用(yong)動態時(shi)間(jian)彎折(zhe)(DTW)以(yi)對準訓練和測試特(te)征序(xu)列,主要(yao)用(yong)于固定詞組的應(ying)用(yong)(通常為文本相關(guan)任務);
2、最近(jin)鄰(lin)方法:訓練(lian)時(shi)保留所有特征矢(shi)量(liang)(liang),識別(bie)(bie)時(shi)對每個矢(shi)量(liang)(liang)都找到訓練(lian)矢(shi)量(liang)(liang)中(zhong)最近(jin)的K個,據(ju)此進行識別(bie)(bie),通常模型存儲和相似計算(suan)的量(liang)(liang)都很(hen)大(da);
3、神經網絡方法:有很多種形式(shi),如多層(ceng)感(gan)知、徑向基(ji)函數(RBF)等,可以顯式(shi)訓練以區(qu)分(fen)說話(hua)人和(he)其背(bei)景(jing)說話(hua)人,其訓練量很大,且模(mo)型的可推廣性不好;
5、VQ聚類方法(fa)(fa)(如LBG):效果比較好,算法(fa)(fa)復雜度也(ye)不(bu)高,和HMM方法(fa)(fa)配合起來(lai)更(geng)可以收(shou)到更(geng)好的效果;
6、多項式分類器方法:有較高的精度,但模型(xing)存儲和計算量(liang)都比較大;
此外(wai)還有(you)概率統計(ji)方法、動態時(shi)間規整(zheng)方法、矢量量化方法等等。
聲紋識別技術的難點
目前,聲紋識別技(ji)術的市場應用(yong)并(bing)不廣泛,,但并(bing)非這項技(ji)術本身(shen)(shen)不成熟(shu),而是(shi)由于(yu)實際商業應用(yong)場景的復雜(za)性,很可能導致(zhi)身(shen)(shen)份(fen)識別產生較大誤差。
首先,說話(hua)人的語音聲學特征不可避免地具有發(fa)展性(xing)和變(bian)異性(xing),既便是(shi)同(tong)一個人,即便采集到的兩段語音內容都是(shi)相(xiang)同(tong)的,但是(shi)在不同(tong)的時期或(huo)特殊的情境下,由于情緒(xu)、語速、疲(pi)勞(lao)程度等原(yuan)因,聲紋特征也不盡一致;
其次,聲紋(wen)特征提取是(shi)在(zai)現實環境中進行的,如何降噪(zao)以(yi)及去(qu)混(hun)響依然(ran)是(shi)聲紋(wen)識別的一(yi)大(da)難題。在(zai)外部(bu)環境中,各(ge)種(zhong)噪(zao)音都會通過錄音設備采(cai)集進來,這(zhe)些噪(zao)音會在(zai)一(yi)定程度上(shang)混(hun)淆(xiao)或者(zhe)淹(yan)沒說話(hua)人(ren)信息(xi),使得聲紋(wen)系(xi)統(tong)無法獲取準(zhun)確的說話(hua)人(ren)聲紋(wen)特征。因(yin)此(ci),應用(yong)聲紋(wen)識別技術的產品大(da)多適合在(zai)相對安靜的場合使用(yong)。