聲紋識別原理
聲(sheng)(sheng)(sheng)紋是(shi)用電聲(sheng)(sheng)(sheng)學儀器顯(xian)示的(de)(de)(de)(de)(de)攜帶言語信息的(de)(de)(de)(de)(de)聲(sheng)(sheng)(sheng)波頻譜(pu)。人(ren)(ren)類(lei)語言的(de)(de)(de)(de)(de)產生(sheng)是(shi)人(ren)(ren)體(ti)語言中樞與發音器官之(zhi)間一個復雜(za)的(de)(de)(de)(de)(de)生(sheng)理(li)物理(li)過程(cheng),人(ren)(ren)在(zai)講(jiang)話時(shi)使用的(de)(de)(de)(de)(de)發聲(sheng)(sheng)(sheng)器官--舌、牙齒、喉頭、肺、鼻腔在(zai)尺寸和形態方面(mian)每(mei)個人(ren)(ren)的(de)(de)(de)(de)(de)差異很大,所以任何(he)兩個人(ren)(ren)的(de)(de)(de)(de)(de)聲(sheng)(sheng)(sheng)紋圖譜(pu)都有差異。這也使得(de)聲(sheng)(sheng)(sheng)紋識別也可以稱(cheng)為身份認(ren)證的(de)(de)(de)(de)(de)一種方式。
聲紋識別優缺點
1、聲(sheng)紋識別(bie)的(de)優勢在于:
(1)聲紋提(ti)取方便,可在不知不覺中完(wan)成,因此使(shi)用者(zhe)的(de)接受程度也高;
(2)獲取語音(yin)的識別成本低廉,使用簡(jian)單,一個麥(mai)克(ke)風即可(ke),在使用通訊設備時(shi)更無需額外的錄音(yin)設備;
(3)適合遠程身份確認,只需要一個麥克風或電話、手機就可以(yi)通(tong)過網(wang)(wang)路(通(tong)訊網(wang)(wang)絡或互聯網(wang)(wang)絡)實現(xian)遠程登(deng)錄;
(4)聲紋辨認和確認的算法復雜度(du)低;
(5)配合(he)一些其(qi)他措(cuo)施,如通過語音識別進(jin)行(xing)內容鑒(jian)別等,可以提高準確率(lv)。這些優勢使(shi)得聲紋識別的(de)應用越來(lai)越受(shou)到系(xi)統開發者和用戶青(qing)睞。
2、聲(sheng)紋(wen)識別的(de)缺點:
當然(ran),聲(sheng)紋(wen)識(shi)別的應(ying)用(yong)有一些缺點,比(bi)(bi)(bi)如(ru)同(tong)(tong)一個(ge)人的聲(sheng)音具有易變性,易受身體狀(zhuang)況、年齡、情(qing)緒等的影(ying)響;比(bi)(bi)(bi)如(ru)不同(tong)(tong)的麥(mai)克風和信道對識(shi)別性能有影(ying)響;比(bi)(bi)(bi)如(ru)環境噪音對識(shi)別有干擾;又比(bi)(bi)(bi)如(ru)混(hun)合說話人的情(qing)形(xing)下(xia)人的聲(sheng)紋(wen)特征不易提取等等。
聲紋識別的過程
聲紋(wen)(wen)識別的過(guo)程包(bao)括:語音(yin)信號處理、聲紋(wen)(wen)特征提(ti)取(qu)、聲紋(wen)(wen)建(jian)模、聲紋(wen)(wen)比對、判(pan)別決策等(deng)。
聲紋識別匹配模式
聲紋識(shi)別技術的關鍵在于對各種聲學特征(zheng)參數(shu)進行(xing)處理,并(bing)確定模式匹配方法(fa),主(zhu)要的模式匹配方法(fa)包括(kuo):
1、模板(ban)匹配方(fang)法:利用(yong)動態時間彎折(DTW)以對準訓練和(he)測(ce)試特(te)征序(xu)列(lie),主要用(yong)于固定詞組(zu)的應用(yong)(通常為文本相(xiang)關任務(wu));
2、最(zui)(zui)近(jin)鄰方法:訓(xun)練時保留所有(you)特征(zheng)矢量(liang),識(shi)別時對每個(ge)矢量(liang)都(dou)找到訓(xun)練矢量(liang)中最(zui)(zui)近(jin)的K個(ge),據此(ci)進行識(shi)別,通常模(mo)型存儲和(he)相似計算的量(liang)都(dou)很大;
3、神經網(wang)絡方法:有(you)很(hen)多(duo)(duo)種(zhong)形(xing)式,如多(duo)(duo)層(ceng)感知、徑向基函數(shu)(RBF)等(deng),可以(yi)顯式訓(xun)練(lian)以(yi)區分說話(hua)人和其背(bei)景(jing)說話(hua)人,其訓(xun)練(lian)量很(hen)大,且(qie)模型的可推廣性不好;
5、VQ聚(ju)類方(fang)法(fa)(如LBG):效果(guo)比較好(hao),算法(fa)復雜度也不高(gao),和(he)HMM方(fang)法(fa)配合起來更可以收到更好(hao)的效果(guo);
6、多項(xiang)式(shi)分類器方(fang)法:有較(jiao)高的(de)精度,但模型存儲和計算量都比較(jiao)大;
此外還(huan)有概率統計(ji)方法、動態時間規整方法、矢量(liang)量(liang)化方法等等。
聲紋識別技術的難點
目前,聲紋識(shi)別技術(shu)的市場(chang)應用并不廣泛,,但并非(fei)這項技術(shu)本(ben)身不成熟(shu),而是由(you)于實(shi)際商(shang)業(ye)應用場(chang)景的復雜性,很(hen)可(ke)能導致(zhi)身份(fen)識(shi)別產生(sheng)較(jiao)大誤差。
首先,說話人的(de)語(yu)音聲學特(te)征(zheng)不(bu)可避免地具有發(fa)展性(xing)和變異性(xing),既(ji)便(bian)是同(tong)(tong)一(yi)個人,即(ji)便(bian)采集到的(de)兩段語(yu)音內容都是相同(tong)(tong)的(de),但是在(zai)不(bu)同(tong)(tong)的(de)時期或特(te)殊的(de)情(qing)(qing)境下,由于情(qing)(qing)緒、語(yu)速、疲勞程度等(deng)原因,聲紋(wen)特(te)征(zheng)也(ye)不(bu)盡一(yi)致(zhi);
其次,聲(sheng)(sheng)紋(wen)(wen)特征提取(qu)是(shi)(shi)在現實(shi)環境中進(jin)行的,如何降噪(zao)以(yi)及去混(hun)響(xiang)依然是(shi)(shi)聲(sheng)(sheng)紋(wen)(wen)識(shi)別(bie)的一大難(nan)題。在外部環境中,各種噪(zao)音都會(hui)通過錄(lu)音設備采(cai)集(ji)進(jin)來(lai),這些(xie)噪(zao)音會(hui)在一定程度上混(hun)淆或(huo)者(zhe)淹沒說話(hua)人信息,使得聲(sheng)(sheng)紋(wen)(wen)系統無法獲取(qu)準確的說話(hua)人聲(sheng)(sheng)紋(wen)(wen)特征。因此,應用(yong)聲(sheng)(sheng)紋(wen)(wen)識(shi)別(bie)技術的產品大多適(shi)合在相對安(an)靜(jing)的場合使用(yong)。