所謂智(zhi)能(neng)語音(yin)產(chan)(chan)業(ye)(ye)主要指通(tong)過語音(yin)合成技(ji)術和語音(yin)識別技(ji)術,為用(yong)戶(hu)提供各種服(fu)務(wu)的產(chan)(chan)業(ye)(ye)。一(yi)(yi)般來說,用(yong)戶(hu)只需要用(yong)說話的方式給服(fu)務(wu)終端發送命(ming)令,就能(neng)實現相應的服(fu)務(wu)。這(zhe)一(yi)(yi)產(chan)(chan)業(ye)(ye)從上世紀六十年代就已(yi)經出現,但并不(bu)為普通(tong)消費(fei)者所熟知,消費(fei)者對其(qi)認知度也比較低。近年來,隨著各大科技(ji)公司先后推出Siri等智(zhi)能(neng)語音(yin)服(fu)務(wu),這(zhe)一(yi)(yi)服(fu)務(wu)以及相關(guan)產(chan)(chan)業(ye)(ye)也開始被普通(tong)消費(fei)者和投資界所關(guan)注。
“您好,我的(de)朋友,到(dao)吃藥的(de)時(shi)間(jian)了!”當(dang)某(mou)個聲音在你耳(er)邊出現的(de)時(shi)候,你可(ke)能(neng)不會想(xiang)到(dao),這也許僅是預設(she)好的(de)一(yi)段程序。
語音交互是家庭智能機器人中的重要部分。這臺機器人可以和你(ni)(ni)(ni)進行語(yu)音交流。當你(ni)(ni)(ni)高興地(di)夸獎它(ta)時,他會呵呵地(di)笑出聲來,當你(ni)(ni)(ni)和它(ta)聊天時,它(ta)會根據你(ni)(ni)(ni)的(de)(de)話題說出相關的(de)(de)內容(rong)。當然,如(ru)果你(ni)(ni)(ni)家里有老人(ren)和孩(hai)子,它(ta)還將扮演一位保姆的(de)(de)角色。為老人(ren)提供心理(li)慰(wei)藉,與孩(hai)子唱歌玩耍,它(ta)都是一個最佳的(de)(de)幫(bang)手。
只需(xu)喊一(yi)聲“Hi,TV”,電視(shi)(shi)就可以開啟(qi)語音控(kong)制(zhi)系統,比如你說“最近天氣預報(bao)”,然(ran)后(hou)電視(shi)(shi)屏幕上就會閃(shan)現出最近一(yi)周的本地天氣情況。隨(sui)著智能(neng)電視(shi)(shi)功能(neng)的日漸(jian)豐富和強大,僅(jin)依(yi)靠一(yi)個簡單的電視(shi)(shi)遙控(kong)器已經滿(man)足不了智能(neng)電視(shi)(shi)的操控(kong)需(xu)求。
引入語(yu)音(yin)識別和(he)語(yu)音(yin)合(he)成技術(shu)的智能語(yu)音(yin)電(dian)視不(bu)僅能聽懂用(yong)戶(hu)(hu)說話并作(zuo)出反應,而(er)且(qie)還能“說出話”來。用(yong)戶(hu)(hu)憑(ping)借(jie)語(yu)音(yin)指令(ling)可以(yi)輕松完成換(huan)臺、電(dian)視節目查詢、網絡瀏覽/搜索、文(wen)字輸入等操作(zuo),而(er)電(dian)視能做的,就是(shi)根據用(yong)戶(hu)(hu)的需求讀出搜索到的內容。
未來,在每個(ge)家(jia)庭網絡(luo)上所有通(tong)過電(dian)力運轉的(de)設備,都可以(yi)(yi)被人們的(de)語(yu)音控(kong)制(zhi),比如可以(yi)(yi)控(kong)制(zhi)室內(nei)的(de)燈光、溫度等(deng)。
在(zai)駕駛環(huan)境下,用(yong)戶與車的交流,可以(yi)通過對(dui)話來(lai)實(shi)現,說出“想回家”,汽(qi)車會根據你家的位置設定好最佳(jia)路線,并開始導航。說出“加油站(zhan)”,幾(ji)公里范圍內的加油站(zhan)將逐(zhu)一由車載語音系統播報出來(lai)。
在車載環境下(xia),用(yong)戶的(de)(de)注意力(li)主要集中(zhong)在于駕駛,人(ren)與車的(de)(de)交互必須在不影響(xiang)駕駛的(de)(de)前提(ti)條件下(xia)進(jin)行(xing),語(yu)音識別技術提(ti)供(gong)了安全便捷的(de)(de)交互方式,用(yong)戶只需動口,就可以滿足在行(xing)車過程中(zhong)的(de)(de)相關需求(qiu)。
語(yu)音操控作為人機溝通的重要手段,拍照、打(da)電話、錄像,你只需(xu)說(shuo)出你的需(xu)求,它就將在你眼前展現出你想(xiang)要的結果。
智(zhi)能(neng)眼鏡、智(zhi)能(neng)手環、智(zhi)能(neng)手表,這些互聯網時代的(de)智(zhi)能(neng)化(hua)設備,最大限(xian)度地利用了語音控(kong)制技術,它將讓未(wei)來的(de)生活變得(de)不可思議。
“聽話”的瀏覽(lan)(lan)器離(li)我們并(bing)不遙遠。或許(xu)要不了多久,我們就(jiu)能(neng)拋(pao)開鼠(shu)標和觸(chu)摸板(ban),通(tong)(tong)過聲控瀏覽(lan)(lan)器完成瀏覽(lan)(lan)網頁、發送郵(you)件(jian)等。比如,你可以(yi)通(tong)(tong)過“暗一(yi)點”“亮一(yi)點”“字體(ti)大一(yi)號”等語音命令來控制瀏覽(lan)(lan)器。
傳統的(de)密碼(ma)恢復(fu)機制是回答(da)一些預(yu)(yu)設(she)的(de)安全問(wen)題,如“你的(de)出生地(di)在哪里”等,但這類(lei)問(wen)題有些時(shi)候(hou)容(rong)易被黑(hei)客破(po)解,用戶也可能(neng)記(ji)不起預(yu)(yu)設(she)的(de)問(wen)題和答(da)案,特別(bie)是企(qi)業員工(gong),就常(chang)(chang)常(chang)(chang)因為忘(wang)記(ji)密碼(ma)而求助于IT部門。
為(wei)此,一(yi)家外國公司推出了一(yi)項名(ming)為(wei)FastReset(快速(su)設置)的(de)新服務(wu)。該(gai)服務(wu)可先(xian)讓員工通(tong)過手(shou)機或電(dian)話(hua)注(zhu)冊自己的(de)聲紋,一(yi)旦員工忘記密碼(ma)需要(yao)重置,只需對著登錄界面(mian)念一(yi)段短語(比方說“芝麻開(kai)門”)即可完成。
很多(duo)小(xiao)朋友(you)都(dou)有(you)這(zhe)樣的(de)夢(meng)想:擁有(you)一(yi)個(ge)會(hui)說話的(de)玩具,就像喜劇(ju)電影《泰迪(di)熊》里面(mian)的(de)TED一(yi)樣。
在ToyTalk的官方網站上,這個夢想有了變成現實的可能:小女孩完成家庭作業后,把平板立起來,打開ToyTalk應用,把泰迪熊玩具放在平板攝像頭前方,小女孩就能和在平板里“活過(guo)來”的泰迪熊(xiong)對話了!
語音交互對于智能家居最直接(jie)的意義在于(yu)把智(zhi)能(neng)家居(ju)變得真(zhen)正的智(zhi)能(neng)起來,不管品牌與技術(shu)多(duo)么的先(xian)進,人機交(jiao)互界面(mian)多(duo)么的友善,都(dou)沒有語音(yin)交(jiao)互控制(zhi)來的簡便直接(jie)。科技讓(rang)生活更智(zhi)能(neng),語音(yin)讓(rang)交(jiao)互更便捷、快捷。所以,如果智(zhi)能(neng)家居(ju)能(neng)與語音(yin)交(jiao)互融于(yu)一體,那么智(zhi)能(neng)家居(ju)產(chan)業(ye)也許會迎(ying)來一次劃時代(dai)的突破。
用(yong)戶必須在離(li)手機比較近的距離(li)內(nei)說話,但在智能(neng)(neng)家(jia)居環(huan)境(jing)(jing)中,用(yong)戶和智能(neng)(neng)終端之間的距離(li)被大大增加(jia)了,用(yong)戶能(neng)(neng)隨意用(yong)語(yu)音(yin)控制智能(neng)(neng)家(jia)居的一個必要條件就是在無論你在客廳哪個角(jiao)落發出指(zhi)令,設(she)備都能(neng)(neng)準確的識別,語(yu)音(yin)識別技術必須突破距離(li)的障礙。目前室內(nei)的語(yu)音(yin)交(jiao)互受到背(bei)景噪音(yin)、其他(ta)人聲干(gan)擾(rao)、回聲、混響(xiang)(xiang)等多重(zhong)復(fu)雜因素影響(xiang)(xiang),只能(neng)(neng)在相對安靜、近距離(li)的環(huan)境(jing)(jing)下使用(yong)。
加之中國的(de)語(yu)系、方言(yan)、口音相當多(duo)(duo),再(zai)加上中文的(de)多(duo)(duo)語(yu)義性,導致語(yu)音識(shi)別(bie)率(lv)能力(li)不(bu)高。同時,在(zai)語(yu)義識(shi)別(bie)上,也存在(zai)上下文的(de)關聯帶來識(shi)別(bie)的(de)學習難、定(ding)位難和建立模型難等問題。
語(yu)(yu)音(yin)識(shi)別技(ji)術(shu)(shu)就是(shi)(shi)讓(rang)機器通過識(shi)別和理(li)解過程把(ba)語(yu)(yu)音(yin)信號轉變為相(xiang)應的(de)文本或命(ming)(ming)令的(de)技(ji)術(shu)(shu),與(yu)機器進行(xing)語(yu)(yu)音(yin)交流,讓(rang)機器明白你說什么。語(yu)(yu)音(yin)識(shi)別是(shi)(shi)一門交叉(cha)學科(ke),語(yu)(yu)音(yin)識(shi)別技(ji)術(shu)(shu)與(yu)語(yu)(yu)音(yin)合成技(ji)術(shu)(shu)結合使人們能(neng)夠甩掉鍵(jian)盤,通過語(yu)(yu)音(yin)命(ming)(ming)令進行(xing)操作,語(yu)(yu)音(yin)技(ji)術(shu)(shu)的(de)應用已(yi)經成為一個(ge)具有(you)競爭性的(de)新(xin)興高技(ji)術(shu)(shu)產業。
語(yu)(yu)音(yin)(yin)識(shi)(shi)別(bie)技(ji)術(shu)相當于給(gei)計算機系統裝(zhuang)上“耳朵”,使其具備“能聽”的(de)(de)(de)功能,該技(ji)術(shu)經(jing)過(guo)語(yu)(yu)音(yin)(yin)信號處(chu)(chu)理、語(yu)(yu)音(yin)(yin)特征處(chu)(chu)理、模型訓練及解碼引擎等復雜步驟,使機器(qi)最終能夠(gou)將語(yu)(yu)音(yin)(yin)中(zhong)的(de)(de)(de)內(nei)容、說話(hua)人(ren)、語(yu)(yu)種等信息(xi)識(shi)(shi)別(bie)出來。語(yu)(yu)音(yin)(yin)控(kong)制(zhi)功能的(de)(de)(de)實(shi)現(xian),與用戶(hu)的(de)(de)(de)使用習慣(guan)高度關聯,目前的(de)(de)(de)語(yu)(yu)音(yin)(yin)控(kong)制(zhi)功能實(shi)現(xian)方式可分為近場(chang)語(yu)(yu)音(yin)(yin)識(shi)(shi)別(bie)和(he)遠場(chang)語(yu)(yu)音(yin)(yin)識(shi)(shi)別(bie)二個大類。
在(zai)對音(yin)(yin)箱(xiang)等設備(bei)(bei)進行語(yu)音(yin)(yin)控制時,往(wang)往(wang)該設備(bei)(bei)處于(yu)播放歌曲(qu)的(de)(de)(de)狀(zhuang)態。由于(yu)麥(mai)(mai)(mai)克(ke)風(feng)安裝在(zai)音(yin)(yin)箱(xiang)上,麥(mai)(mai)(mai)克(ke)風(feng)和(he)說話人之間的(de)(de)(de)距離要遠大(da)于(yu)麥(mai)(mai)(mai)克(ke)風(feng)和(he)揚聲(sheng)器之間的(de)(de)(de)距離,在(zai)這(zhe)樣的(de)(de)(de)情況下,采用內外兼顧的(de)(de)(de)方(fang)法(fa)進行解決。內部使用特(te)殊的(de)(de)(de)回聲(sheng)消(xiao)除算(suan)法(fa)從(cong)內部減小(xiao)(xiao)噪音(yin)(yin)對麥(mai)(mai)(mai)克(ke)風(feng)的(de)(de)(de)影響。另(ling)外對于(yu)震(zhen)動(dong)(dong)帶來的(de)(de)(de)非線(xian)性干擾,傳(chuan)統(tong)的(de)(de)(de)線(xian)性回聲(sheng)消(xiao)除方(fang)法(fa)失(shi)效(xiao)了,因此(ci)可以使用非線(xian)性回聲(sheng)消(xiao)除算(suan)法(fa)提高(gao)內部噪聲(sheng)消(xiao)除的(de)(de)(de)效(xiao)果。在(zai)外部結構設計(ji)方(fang)面,使用精(jing)心設計(ji)的(de)(de)(de)麥(mai)(mai)(mai)克(ke)風(feng)陣列(lie)減震(zhen)結構,使多個(ge)麥(mai)(mai)(mai)克(ke)風(feng)和(he)它所(suo)連接的(de)(de)(de)電路板之間的(de)(de)(de)震(zhen)動(dong)(dong)減小(xiao)(xiao)到最小(xiao)(xiao),從(cong)而(er)最大(da)程度的(de)(de)(de)控制高(gao)聲(sheng)強導致的(de)(de)(de)音(yin)(yin)箱(xiang)本體震(zhen)動(dong)(dong)對拾(shi)音(yin)(yin)的(de)(de)(de)干擾。
近場語音識別需要用戶(hu)點擊啟動,并且用戶(hu)與終端(duan)設(she)備的距離(li)比較近,如(ru)手機或(huo)其他終端(duan)設(she)備,可直(zhi)接(jie)(jie)借助這些(xie)終端(duan)設(she)備直(zhi)接(jie)(jie)實現控制功能。
遠場(chang)語(yu)(yu)(yu)(yu)音(yin)識別(bie),以麥克風陣列遠距離拾(shi)取的(de)(de)(de)(de)(de)語(yu)(yu)(yu)(yu)音(yin)數(shu)(shu)據作為輸(shu)入數(shu)(shu)據,通過語(yu)(yu)(yu)(yu)音(yin)識別(bie)的(de)(de)(de)(de)(de)算法將(jiang)語(yu)(yu)(yu)(yu)音(yin)信(xin)號(hao)轉寫成(cheng)文字的(de)(de)(de)(de)(de)技(ji)術。雖然和(he)近場(chang)語(yu)(yu)(yu)(yu)音(yin)識別(bie)技(ji)術在(zai)原理上是(shi)相(xiang)同的(de)(de)(de)(de)(de),但是(shi)由于音(yin)源和(he)麥克風之間(jian)(jian)的(de)(de)(de)(de)(de)空間(jian)(jian)距離增大,在(zai)聲(sheng)波傳播(bo)過程中會出現(xian)信(xin)號(hao)強(qiang)度的(de)(de)(de)(de)(de)衰(shuai)減和(he)各種噪(zao)音(yin)干(gan)擾,因此需要(yao)特(te)殊的(de)(de)(de)(de)(de)語(yu)(yu)(yu)(yu)音(yin)數(shu)(shu)據拾(shi)取和(he)預處(chu)理技(ji)術;不同的(de)(de)(de)(de)(de)拾(shi)取設備和(he)預處(chu)理技(ji)術常常會使用于語(yu)(yu)(yu)(yu)音(yin)識別(bie)的(de)(de)(de)(de)(de)聲(sheng)波信(xin)號(hao)特(te)征發生改變,因此針對不同的(de)(de)(de)(de)(de)遠場(chang)語(yu)(yu)(yu)(yu)音(yin)拾(shi)取技(ji)術,需要(yao)對語(yu)(yu)(yu)(yu)音(yin)識別(bie)引擎進行定制化適配和(he)優(you)化。
當(dang)語音(yin)(yin)(yin)(yin)信(xin)(xin)號(hao)(hao)(hao)在傳(chuan)播(bo)過(guo)程中有所衰減,影響(xiang)采(cai)集(ji)信(xin)(xin)號(hao)(hao)(hao)的(de)(de)(de)強(qiang)度和(he)分辨率,使用的(de)(de)(de)靈敏(min)度非常高的(de)(de)(de)指(zhi)向(xiang)(xiang)性麥克(ke)風(feng),同(tong)時將麥克(ke)風(feng)的(de)(de)(de)參數(shu)(shu)調整到(dao)適(shi)合遠場(chang)語音(yin)(yin)(yin)(yin)數(shu)(shu)據的(de)(de)(de)模式,可以(yi)最(zui)大限度采(cai)集(ji)清晰的(de)(de)(de)遠場(chang)語音(yin)(yin)(yin)(yin)信(xin)(xin)號(hao)(hao)(hao)。語音(yin)(yin)(yin)(yin)指(zhi)令聲(sheng)(sheng)(sheng)波(bo)(bo)(bo)在傳(chuan)輸過(guo)程中受到(dao)周圍噪音(yin)(yin)(yin)(yin)的(de)(de)(de)污染(ran),降低聲(sheng)(sheng)(sheng)波(bo)(bo)(bo)信(xin)(xin)號(hao)(hao)(hao)的(de)(de)(de)信(xin)(xin)噪比,使用定向(xiang)(xiang)波(bo)(bo)(bo)速成形(xing)技(ji)術,抑制方(fang)向(xiang)(xiang)外的(de)(de)(de)噪音(yin)(yin)(yin)(yin),從(cong)而減少噪音(yin)(yin)(yin)(yin)對(dui)語音(yin)(yin)(yin)(yin)信(xin)(xin)號(hao)(hao)(hao)的(de)(de)(de)干擾。在一個房(fang)間里,麥克(ke)風(feng)拾(shi)取(qu)的(de)(de)(de)聲(sheng)(sheng)(sheng)波(bo)(bo)(bo)不僅僅直接來自(zi)于音(yin)(yin)(yin)(yin)源,還有音(yin)(yin)(yin)(yin)源發出(chu)后經過(guo)墻壁反射的(de)(de)(de)遲到(dao)的(de)(de)(de)聲(sheng)(sheng)(sheng)波(bo)(bo)(bo),形(xing)成聲(sheng)(sheng)(sheng)音(yin)(yin)(yin)(yin)的(de)(de)(de)殘留,造成混響(xiang)。利用多(duo)個麥克(ke)風(feng)采(cai)集(ji)的(de)(de)(de)數(shu)(shu)據,通過(guo)多(duo)通道回聲(sheng)(sheng)(sheng)消除(chu)(chu)算(suan)法,將這(zhe)些不同(tong)時間達到(dao)的(de)(de)(de)聲(sheng)(sheng)(sheng)音(yin)(yin)(yin)(yin)數(shu)(shu)據分離(li)開來,從(cong)而消除(chu)(chu)了混響(xiang)對(dui)聲(sheng)(sheng)(sheng)音(yin)(yin)(yin)(yin)數(shu)(shu)據的(de)(de)(de)影響(xiang)。
在(zai)遠距離用(yong)語音(yin)進(jin)行操控的(de)時候,聲(sheng)音(yin)可能(neng)來(lai)自不(bu)同(tong)方向的(de)不(bu)同(tong)人(ren)。因此首(shou)先要確定哪些是發指(zhi)(zhi)(zhi)令的(de)聲(sheng)音(yin),哪些不(bu)是。使用(yong)的(de)麥(mai)克(ke)(ke)風陣(zhen)列波速成(cheng)形(xing)算法,將360度空間(jian)垂直劃分成(cheng)若(ruo)干區(qu)域,每個麥(mai)克(ke)(ke)風負(fu)責檢測一個指(zhi)(zhi)(zhi)定的(de)區(qu)域。當某個空間(jian)區(qu)域里面檢測到有(you)喚(huan)醒詞出現時,對應于該(gai)空間(jian)區(qu)域的(de)麥(mai)克(ke)(ke)風拾(shi)音(yin)功能(neng)就被增強,其(qi)他區(qu)域的(de)麥(mai)克(ke)(ke)風拾(shi)音(yin)就被抑制。從而(er)實現對聲(sheng)音(yin)進(jin)行有(you)方向有(you)角度的(de)拾(shi)取,避免了周圍電視機(ji)里的(de)說話聲(sheng)音(yin)、其(qi)他人(ren)交談(tan)對語音(yin)指(zhi)(zhi)(zhi)令的(de)影(ying)響(xiang)。
語(yu)(yu)音(yin)(yin)(yin)喚(huan)醒(xing)(xing),是(shi)指(zhi)通過(guo)含有(you)特定喚(huan)醒(xing)(xing)詞的(de)(de)(de)語(yu)(yu)音(yin)(yin)(yin)輸入(ru)來(lai)“觸發”語(yu)(yu)音(yin)(yin)(yin)識別(bie)系統以(yi)實現后續的(de)(de)(de)語(yu)(yu)音(yin)(yin)(yin)交(jiao)互。由(you)于(yu)功耗等方面(mian)(mian)的(de)(de)(de)限制,智(zhi)能(neng)設(she)備(bei)(bei)很難24小時(shi)都保持在(zai)(zai)激(ji)活狀(zhuang)態;因此,如果(guo)要在(zai)(zai)家里(li)自由(you)地控制智(zhi)能(neng)家居設(she)備(bei)(bei),還(huan)(huan)需要有(you)即時(shi)“喚(huan)醒(xing)(xing)”功能(neng),也(ye)就(jiu)是(shi)給智(zhi)能(neng)設(she)備(bei)(bei)加入(ru)“語(yu)(yu)音(yin)(yin)(yin)喚(huan)醒(xing)(xing)”技術(shu)(shu)。通過(guo)該技術(shu)(shu),任何(he)(he)人在(zai)(zai)任何(he)(he)環(huan)境、任何(he)(he)時(shi)間,無論(lun)是(shi)近(jin)場(chang)還(huan)(huan)是(shi)遠場(chang),面(mian)(mian)向設(she)備(bei)(bei)直接(jie)說(shuo)出預設(she)的(de)(de)(de)喚(huan)醒(xing)(xing)詞,就(jiu)能(neng)激(ji)活產品(pin)的(de)(de)(de)識別(bie)引擎,從(cong)而真正實現全程無觸控的(de)(de)(de)語(yu)(yu)音(yin)(yin)(yin)交(jiao)互。
通過上面的介紹,相信大家對智能家居語音控制技術有了一定的了解,對智能家居語音控制技術的背景和功能有了深刻認識。生活在當代的我們,除了追求物質上的溫飽、衣服上的溫暖同時,還更加追求于精神上的方便、輕松、舒適。因此我們要不斷與時俱進,掌握新的智能技術。相信在不久的將來這種智能家居會(hui)成(cheng)為你生活中的好伙伴,好幫手(shou)!