聲紋識別原理
聲紋(wen)是(shi)用電(dian)聲學儀器(qi)(qi)顯示的(de)(de)(de)(de)攜帶(dai)言(yan)(yan)語(yu)信息的(de)(de)(de)(de)聲波頻譜。人(ren)類語(yu)言(yan)(yan)的(de)(de)(de)(de)產生是(shi)人(ren)體語(yu)言(yan)(yan)中(zhong)樞與發(fa)音器(qi)(qi)官之間一(yi)(yi)個復(fu)雜的(de)(de)(de)(de)生理物理過(guo)程,人(ren)在講話(hua)時使(shi)用的(de)(de)(de)(de)發(fa)聲器(qi)(qi)官--舌、牙齒、喉頭、肺、鼻腔在尺寸和形(xing)態方面(mian)每個人(ren)的(de)(de)(de)(de)差異很(hen)大,所以任何兩個人(ren)的(de)(de)(de)(de)聲紋(wen)圖譜都(dou)有差異。這也使(shi)得聲紋(wen)識別也可(ke)以稱(cheng)為(wei)身(shen)份認證的(de)(de)(de)(de)一(yi)(yi)種方式(shi)。
聲紋識別優缺點
1、聲紋識別的優勢(shi)在于(yu):
(1)聲紋(wen)提取方(fang)便,可在(zai)不(bu)知不(bu)覺(jue)中完成,因此使(shi)用(yong)者的接(jie)受(shou)程(cheng)度也高;
(2)獲(huo)取(qu)語(yu)音(yin)的(de)識別(bie)成本(ben)低廉,使用(yong)簡單(dan),一(yi)個麥克風即可,在使用(yong)通訊設備(bei)時(shi)更無需額外的(de)錄音(yin)設備(bei);
(3)適合遠程身份確認,只需要一個麥克風或電話、手機就可以通過(guo)網(wang)路(lu)(通訊網(wang)絡(luo)或(huo)互聯網(wang)絡(luo))實現遠程登錄;
(4)聲紋辨(bian)認和確認的(de)算(suan)法(fa)復雜度低;
(5)配合一些其他(ta)措施(shi),如(ru)通過語(yu)音識別進行內容鑒(jian)別等,可以提高準確率。這些優(you)勢使得聲(sheng)紋識別的應用越來越受到系(xi)統開發者和用戶青睞。
2、聲紋(wen)識(shi)別的(de)缺(que)點:
當然,聲紋(wen)識(shi)別的(de)應用有(you)(you)一(yi)些(xie)缺點,比如同(tong)一(yi)個人(ren)的(de)聲音具(ju)有(you)(you)易(yi)變(bian)性,易(yi)受身體狀況、年齡、情(qing)緒等(deng)的(de)影(ying)響(xiang);比如不同(tong)的(de)麥(mai)克風和信道(dao)對(dui)識(shi)別性能有(you)(you)影(ying)響(xiang);比如環境噪音對(dui)識(shi)別有(you)(you)干擾;又比如混合說話人(ren)的(de)情(qing)形(xing)下人(ren)的(de)聲紋(wen)特征不易(yi)提取等(deng)等(deng)。
聲紋識別的過程
聲紋識別的過程包括(kuo):語音信號處理(li)、聲紋特(te)征(zheng)提取、聲紋建模、聲紋比(bi)對、判別決(jue)策等(deng)。
聲紋識別匹配模式
聲(sheng)紋識別技術的(de)關鍵在于對各種(zhong)聲(sheng)學特(te)征參數進行處(chu)理,并確定模式(shi)匹配方法,主要的(de)模式(shi)匹配方法包(bao)括:
1、模板匹配(pei)方法(fa):利用(yong)動態時(shi)間(jian)彎折(DTW)以對準訓練和測試特征(zheng)序列,主要用(yong)于(yu)固(gu)定(ding)詞組的應用(yong)(通常為(wei)文本相關任務);
2、最近鄰(lin)方法:訓(xun)練時(shi)保(bao)留所有特征矢(shi)量(liang),識別時(shi)對(dui)每個矢(shi)量(liang)都(dou)找到訓(xun)練矢(shi)量(liang)中最近的(de)K個,據此進行識別,通常(chang)模型存儲和相似(si)計(ji)算的(de)量(liang)都(dou)很大;
3、神經網絡方法:有很多(duo)種形式,如多(duo)層感知、徑向基函數(RBF)等,可以顯式訓(xun)練以區分說(shuo)話人(ren)(ren)和其(qi)背(bei)景說(shuo)話人(ren)(ren),其(qi)訓(xun)練量很大,且(qie)模型的(de)可推廣性不(bu)好(hao);
5、VQ聚(ju)類方法(如LBG):效(xiao)果(guo)比較好,算法復(fu)雜度(du)也不(bu)高,和HMM方法配合起(qi)來更(geng)可以收到(dao)更(geng)好的(de)效(xiao)果(guo);
6、多(duo)項(xiang)式分類器方法(fa):有較(jiao)高的精度,但模型(xing)存儲和(he)計算量都比較(jiao)大;
此(ci)外還有(you)概率統計(ji)方法、動態時間規(gui)整方法、矢量量化方法等等。
聲紋識別技術的難點
目前(qian),聲紋(wen)識(shi)(shi)別技術的(de)市場(chang)應(ying)用(yong)并不廣泛(fan),,但(dan)并非(fei)這項技術本(ben)身(shen)不成熟(shu),而是由于實際商(shang)業應(ying)用(yong)場(chang)景的(de)復(fu)雜(za)性,很可(ke)能導致身(shen)份識(shi)(shi)別產(chan)生較大誤(wu)差(cha)。
首先(xian),說話人(ren)的(de)(de)語音聲(sheng)學特(te)征不(bu)可避免地具有發(fa)展性和變異性,既便(bian)是同(tong)一個(ge)人(ren),即便(bian)采集到(dao)的(de)(de)兩段(duan)語音內容都是相同(tong)的(de)(de),但是在不(bu)同(tong)的(de)(de)時期或特(te)殊的(de)(de)情境(jing)下,由于情緒(xu)、語速、疲勞程(cheng)度等(deng)原(yuan)因,聲(sheng)紋特(te)征也不(bu)盡(jin)一致;
其次,聲(sheng)(sheng)紋(wen)(wen)特征提取(qu)是在(zai)現實環(huan)境中進行的(de)(de),如何降噪(zao)(zao)(zao)以及去混響依然(ran)是聲(sheng)(sheng)紋(wen)(wen)識(shi)(shi)別的(de)(de)一(yi)大難(nan)題。在(zai)外部環(huan)境中,各種(zhong)噪(zao)(zao)(zao)音都會通過錄音設備采集(ji)進來(lai),這些噪(zao)(zao)(zao)音會在(zai)一(yi)定程度上混淆或者淹(yan)沒說(shuo)話人信息(xi),使得聲(sheng)(sheng)紋(wen)(wen)系統無法獲取(qu)準(zhun)確的(de)(de)說(shuo)話人聲(sheng)(sheng)紋(wen)(wen)特征。因(yin)此,應用聲(sheng)(sheng)紋(wen)(wen)識(shi)(shi)別技(ji)術的(de)(de)產品大多適合在(zai)相對安靜的(de)(de)場合使用。