所謂智能語音(yin)產(chan)(chan)業(ye)主要指通過語音(yin)合成技術和語音(yin)識別技術,為(wei)用戶提供(gong)各種(zhong)服務的(de)產(chan)(chan)業(ye)。一般(ban)來說(shuo)(shuo),用戶只需要用說(shuo)(shuo)話(hua)的(de)方(fang)式給服務終端(duan)發送命令,就(jiu)能實現相應的(de)服務。這一產(chan)(chan)業(ye)從上(shang)世(shi)紀六十年(nian)代就(jiu)已(yi)經(jing)出現,但并不(bu)為(wei)普(pu)通消(xiao)費者(zhe)(zhe)(zhe)所熟知,消(xiao)費者(zhe)(zhe)(zhe)對其認知度(du)也比較低。近年(nian)來,隨著各大科技公司先后(hou)推出Siri等(deng)智能語音(yin)服務,這一服務以(yi)及相關產(chan)(chan)業(ye)也開始被普(pu)通消(xiao)費者(zhe)(zhe)(zhe)和投資界所關注。
“您(nin)好(hao),我的朋友,到吃(chi)藥的時(shi)間了!”當某(mou)個(ge)聲音在你(ni)(ni)耳邊出(chu)現的時(shi)候,你(ni)(ni)可能不會想到,這也許僅是預設好(hao)的一段(duan)程序(xu)。
語音交互是家庭智能機器人中的重要部分。這臺機器人可以(yi)和你(ni)(ni)進(jin)行(xing)語音交流。當(dang)你(ni)(ni)高興地夸獎它時(shi)(shi),他會(hui)(hui)呵(he)(he)呵(he)(he)地笑出聲來(lai),當(dang)你(ni)(ni)和它聊天時(shi)(shi),它會(hui)(hui)根據你(ni)(ni)的話題說出相關的內(nei)容。當(dang)然(ran),如(ru)果(guo)你(ni)(ni)家里(li)有老人(ren)和孩子(zi),它還將扮演一位保姆的角色。為(wei)老人(ren)提供心(xin)理慰(wei)藉,與孩子(zi)唱歌玩耍,它都是一個最佳的幫手。
只(zhi)需喊(han)一聲“Hi,TV”,電視(shi)(shi)就(jiu)可(ke)以開啟(qi)語(yu)音控制系統(tong),比(bi)如(ru)你說“最近(jin)(jin)天氣預報”,然后電視(shi)(shi)屏幕(mu)上(shang)就(jiu)會閃現出最近(jin)(jin)一周的本地天氣情況。隨著智(zhi)能(neng)電視(shi)(shi)功能(neng)的日漸(jian)豐富和(he)強大,僅(jin)依靠一個簡單的電視(shi)(shi)遙控器已經滿足不了智(zhi)能(neng)電視(shi)(shi)的操(cao)控需求。
引入(ru)(ru)語(yu)音(yin)識別(bie)和語(yu)音(yin)合成技術(shu)的(de)智(zhi)能(neng)語(yu)音(yin)電視(shi)不僅能(neng)聽懂用戶說(shuo)話并作出反應,而且還(huan)能(neng)“說(shuo)出話”來(lai)。用戶憑借語(yu)音(yin)指(zhi)令可以輕松完成換臺(tai)、電視(shi)節目查詢、網絡瀏(liu)覽/搜(sou)索(suo)、文字輸(shu)入(ru)(ru)等操作,而電視(shi)能(neng)做的(de),就(jiu)是根據用戶的(de)需求讀出搜(sou)索(suo)到(dao)的(de)內容。
未(wei)來,在每個家庭網(wang)絡上所有通過電力運(yun)轉的設(she)備,都可(ke)以被人們的語音控(kong)制(zhi),比(bi)如可(ke)以控(kong)制(zhi)室內的燈光(guang)、溫度等。
在駕駛(shi)環境(jing)下,用(yong)戶與車的交流,可以通過對話來實現(xian),說(shuo)出(chu)“想(xiang)回家(jia)”,汽車會根據(ju)你家(jia)的位置(zhi)設定好最(zui)佳路線,并開始導航(hang)。說(shuo)出(chu)“加油站(zhan)”,幾公里范圍內(nei)的加油站(zhan)將(jiang)逐一由車載語音系統播(bo)報出(chu)來。
在(zai)車載環境下(xia),用戶(hu)(hu)的注意力主要集中在(zai)于駕(jia)駛(shi),人與車的交(jiao)互(hu)必須在(zai)不(bu)影響駕(jia)駛(shi)的前(qian)提條件下(xia)進行,語(yu)音識別(bie)技(ji)術(shu)提供了安全便捷的交(jiao)互(hu)方式,用戶(hu)(hu)只需動口,就可以滿足在(zai)行車過程中的相關需求。
語音操控作(zuo)為人(ren)機溝通的(de)(de)重要手段,拍照(zhao)、打電話、錄像(xiang),你(ni)(ni)只需說出(chu)你(ni)(ni)的(de)(de)需求,它(ta)就將(jiang)在你(ni)(ni)眼(yan)前(qian)展現出(chu)你(ni)(ni)想要的(de)(de)結果。
智能(neng)眼鏡、智能(neng)手環(huan)、智能(neng)手表,這些互聯(lian)網時代(dai)的(de)智能(neng)化設備(bei),最大(da)限度地利用了語音(yin)控制技術,它將讓未來(lai)的(de)生(sheng)活(huo)變(bian)得(de)不(bu)可思(si)議(yi)。
“聽話”的瀏覽(lan)器(qi)離我們(men)并不(bu)遙(yao)遠。或許要(yao)不(bu)了多久,我們(men)就能拋(pao)開鼠標和觸摸板(ban),通過聲控(kong)瀏覽(lan)器(qi)完(wan)成瀏覽(lan)網(wang)頁、發(fa)送郵件等(deng)(deng)。比如,你(ni)可以通過“暗一(yi)點”“亮一(yi)點”“字體大一(yi)號(hao)”等(deng)(deng)語音命令來控(kong)制(zhi)瀏覽(lan)器(qi)。
傳統的密(mi)碼恢復機制(zhi)是回答一些預(yu)設的安全問題(ti),如“你的出生地在哪里”等,但(dan)這類問題(ti)有(you)些時候容易被(bei)黑客破解,用戶也可能記(ji)不起預(yu)設的問題(ti)和答案(an),特(te)別(bie)是企(qi)業員工,就常(chang)常(chang)因為忘(wang)記(ji)密(mi)碼而求助于IT部門。
為此,一(yi)家外國(guo)公司推出了一(yi)項(xiang)名(ming)為FastReset(快速設(she)置)的新服(fu)務。該(gai)服(fu)務可(ke)先讓員(yuan)工(gong)通過手機或電話(hua)注(zhu)冊(ce)自己的聲(sheng)紋(wen),一(yi)旦員(yuan)工(gong)忘記密(mi)碼需要重(zhong)置,只需對著登錄界面念一(yi)段短語(比方說“芝(zhi)麻(ma)開門”)即可(ke)完(wan)成。
很多(duo)小朋友都有這樣的夢想:擁有一個會說話的玩具,就(jiu)像喜(xi)劇電(dian)影《泰迪熊》里面的TED一樣。
在ToyTalk的官方網站上,這個夢想有了變成現實的可能:小女孩完成家庭作業后,把平板立起來,打開ToyTalk應用,把泰迪熊玩具放在平板攝像頭前方,小女孩就能和在平板(ban)里“活過來”的泰(tai)迪熊對(dui)話了!
語音交互對于智能家居最直接的意義在于把智(zhi)(zhi)能家居變(bian)得(de)真正(zheng)的智(zhi)(zhi)能起(qi)來(lai),不(bu)管品牌(pai)與(yu)技術(shu)多(duo)么(me)的先進(jin),人機交(jiao)互界面多(duo)么(me)的友善,都沒有語音交(jiao)互控(kong)制(zhi)來(lai)的簡便直接。科(ke)技讓生活更(geng)智(zhi)(zhi)能,語音讓交(jiao)互更(geng)便捷、快捷。所以,如(ru)果智(zhi)(zhi)能家居能與(yu)語音交(jiao)互融于一體,那么(me)智(zhi)(zhi)能家居產業也許會迎來(lai)一次劃(hua)時(shi)代的突破(po)。
用(yong)戶必須在(zai)離(li)手機(ji)比(bi)較近的(de)(de)(de)距(ju)(ju)離(li)內說話,但在(zai)智能家居環(huan)境(jing)中,用(yong)戶和智能終端之間的(de)(de)(de)距(ju)(ju)離(li)被大大增加了,用(yong)戶能隨(sui)意用(yong)語(yu)音(yin)(yin)控制智能家居的(de)(de)(de)一個(ge)必要條件就是(shi)在(zai)無論你在(zai)客廳哪(na)個(ge)角落(luo)發出指令,設備都能準確的(de)(de)(de)識(shi)(shi)別,語(yu)音(yin)(yin)識(shi)(shi)別技術必須突破距(ju)(ju)離(li)的(de)(de)(de)障礙。目(mu)前室內的(de)(de)(de)語(yu)音(yin)(yin)交互受到背景噪音(yin)(yin)、其他人聲干擾、回聲、混響等多重(zhong)復(fu)雜因素影響,只能在(zai)相對安靜、近距(ju)(ju)離(li)的(de)(de)(de)環(huan)境(jing)下使(shi)用(yong)。
加之中國(guo)的(de)(de)語(yu)(yu)(yu)系、方言、口(kou)音相當多,再加上中文(wen)的(de)(de)多語(yu)(yu)(yu)義性,導致語(yu)(yu)(yu)音識(shi)別(bie)率能力不高。同(tong)時,在語(yu)(yu)(yu)義識(shi)別(bie)上,也存在上下文(wen)的(de)(de)關聯帶來識(shi)別(bie)的(de)(de)學習難(nan)、定位難(nan)和建立模型難(nan)等問題(ti)。
語(yu)音(yin)識(shi)別技術(shu)(shu)就是讓(rang)(rang)機器通過(guo)識(shi)別和(he)理(li)解過(guo)程把語(yu)音(yin)信號轉變為相應的(de)文本(ben)或(huo)命令(ling)的(de)技術(shu)(shu),與機器進(jin)行語(yu)音(yin)交(jiao)流,讓(rang)(rang)機器明白你說什么。語(yu)音(yin)識(shi)別是一門交(jiao)叉學科,語(yu)音(yin)識(shi)別技術(shu)(shu)與語(yu)音(yin)合(he)成技術(shu)(shu)結合(he)使人(ren)們(men)能(neng)夠甩掉鍵盤(pan),通過(guo)語(yu)音(yin)命令(ling)進(jin)行操作,語(yu)音(yin)技術(shu)(shu)的(de)應用已經成為一個具(ju)有競爭性(xing)的(de)新興(xing)高技術(shu)(shu)產業。
語(yu)(yu)(yu)(yu)(yu)音(yin)(yin)(yin)識(shi)別技術相當于給計算機系統裝上“耳(er)朵”,使(shi)其(qi)具備“能聽”的功(gong)能,該技術經過語(yu)(yu)(yu)(yu)(yu)音(yin)(yin)(yin)信(xin)號處(chu)理(li)、語(yu)(yu)(yu)(yu)(yu)音(yin)(yin)(yin)特征處(chu)理(li)、模型訓練(lian)及解(jie)碼引擎等復(fu)雜(za)步驟,使(shi)機器最終能夠(gou)將語(yu)(yu)(yu)(yu)(yu)音(yin)(yin)(yin)中的內容(rong)、說話人、語(yu)(yu)(yu)(yu)(yu)種(zhong)等信(xin)息識(shi)別出來。語(yu)(yu)(yu)(yu)(yu)音(yin)(yin)(yin)控(kong)(kong)制(zhi)功(gong)能的實現,與用戶的使(shi)用習慣高度關聯,目前的語(yu)(yu)(yu)(yu)(yu)音(yin)(yin)(yin)控(kong)(kong)制(zhi)功(gong)能實現方式可分為近(jin)場(chang)語(yu)(yu)(yu)(yu)(yu)音(yin)(yin)(yin)識(shi)別和遠場(chang)語(yu)(yu)(yu)(yu)(yu)音(yin)(yin)(yin)識(shi)別二個大(da)類。
在(zai)對(dui)音(yin)(yin)箱(xiang)等設(she)備進行語音(yin)(yin)控(kong)制時,往往該設(she)備處于播放歌曲的(de)(de)(de)狀態。由(you)于麥(mai)克風(feng)安裝(zhuang)在(zai)音(yin)(yin)箱(xiang)上(shang),麥(mai)克風(feng)和(he)說(shuo)話人之間的(de)(de)(de)距(ju)離要遠大于麥(mai)克風(feng)和(he)揚聲器之間的(de)(de)(de)距(ju)離,在(zai)這(zhe)樣的(de)(de)(de)情況下,采用內(nei)(nei)外兼(jian)顧的(de)(de)(de)方(fang)法(fa)進行解決(jue)。內(nei)(nei)部(bu)使(shi)用特殊的(de)(de)(de)回(hui)(hui)聲消除(chu)算法(fa)從內(nei)(nei)部(bu)減(jian)(jian)小噪音(yin)(yin)對(dui)麥(mai)克風(feng)的(de)(de)(de)影響。另(ling)外對(dui)于震(zhen)(zhen)(zhen)動(dong)帶來的(de)(de)(de)非線性干(gan)擾,傳統的(de)(de)(de)線性回(hui)(hui)聲消除(chu)方(fang)法(fa)失效了,因(yin)此可以使(shi)用非線性回(hui)(hui)聲消除(chu)算法(fa)提高內(nei)(nei)部(bu)噪聲消除(chu)的(de)(de)(de)效果。在(zai)外部(bu)結構(gou)設(she)計方(fang)面(mian),使(shi)用精(jing)心設(she)計的(de)(de)(de)麥(mai)克風(feng)陣(zhen)列減(jian)(jian)震(zhen)(zhen)(zhen)結構(gou),使(shi)多個麥(mai)克風(feng)和(he)它(ta)所連接的(de)(de)(de)電路板之間的(de)(de)(de)震(zhen)(zhen)(zhen)動(dong)減(jian)(jian)小到最(zui)小,從而最(zui)大程度的(de)(de)(de)控(kong)制高聲強導致的(de)(de)(de)音(yin)(yin)箱(xiang)本體震(zhen)(zhen)(zhen)動(dong)對(dui)拾音(yin)(yin)的(de)(de)(de)干(gan)擾。
近場語(yu)音識別需(xu)要用戶點擊啟動,并且用戶與終(zhong)(zhong)端設(she)備的(de)距(ju)離比(bi)較近,如手機或其他終(zhong)(zhong)端設(she)備,可直(zhi)接借助這(zhe)些(xie)終(zhong)(zhong)端設(she)備直(zhi)接實(shi)現控制功能。
遠場語(yu)(yu)音(yin)(yin)(yin)識(shi)別(bie),以麥(mai)克風(feng)陣列遠距離拾取的(de)(de)語(yu)(yu)音(yin)(yin)(yin)數據(ju)作為輸入數據(ju),通過(guo)語(yu)(yu)音(yin)(yin)(yin)識(shi)別(bie)的(de)(de)算法將語(yu)(yu)音(yin)(yin)(yin)信號(hao)轉寫成文字(zi)的(de)(de)技(ji)(ji)術(shu)。雖(sui)然和(he)(he)近(jin)場語(yu)(yu)音(yin)(yin)(yin)識(shi)別(bie)技(ji)(ji)術(shu)在原理(li)(li)上(shang)是相同(tong)的(de)(de),但是由于(yu)音(yin)(yin)(yin)源和(he)(he)麥(mai)克風(feng)之(zhi)間的(de)(de)空(kong)間距離增大,在聲波(bo)傳(chuan)播過(guo)程(cheng)中(zhong)會(hui)出現信號(hao)強度的(de)(de)衰減和(he)(he)各(ge)種噪音(yin)(yin)(yin)干擾,因此需(xu)要特殊的(de)(de)語(yu)(yu)音(yin)(yin)(yin)數據(ju)拾取和(he)(he)預處理(li)(li)技(ji)(ji)術(shu);不同(tong)的(de)(de)拾取設備和(he)(he)預處理(li)(li)技(ji)(ji)術(shu)常常會(hui)使用于(yu)語(yu)(yu)音(yin)(yin)(yin)識(shi)別(bie)的(de)(de)聲波(bo)信號(hao)特征發生改變(bian),因此針(zhen)對不同(tong)的(de)(de)遠場語(yu)(yu)音(yin)(yin)(yin)拾取技(ji)(ji)術(shu),需(xu)要對語(yu)(yu)音(yin)(yin)(yin)識(shi)別(bie)引擎(qing)進(jin)行定制化適配和(he)(he)優(you)化。
當語(yu)音(yin)(yin)(yin)信(xin)(xin)號(hao)在傳(chuan)(chuan)播(bo)過程中有(you)所衰減(jian),影響采(cai)集(ji)信(xin)(xin)號(hao)的(de)強度和分辨率,使用(yong)(yong)的(de)靈敏度非(fei)常高(gao)的(de)指(zhi)向性(xing)麥克風,同(tong)時將麥克風的(de)參數調整到(dao)適合(he)遠場語(yu)音(yin)(yin)(yin)數據(ju)(ju)(ju)的(de)模式,可以最大限度采(cai)集(ji)清晰的(de)遠場語(yu)音(yin)(yin)(yin)信(xin)(xin)號(hao)。語(yu)音(yin)(yin)(yin)指(zhi)令聲(sheng)波(bo)(bo)在傳(chuan)(chuan)輸過程中受到(dao)周圍噪(zao)音(yin)(yin)(yin)的(de)污染,降低聲(sheng)波(bo)(bo)信(xin)(xin)號(hao)的(de)信(xin)(xin)噪(zao)比(bi),使用(yong)(yong)定向波(bo)(bo)速(su)成(cheng)形(xing)技術,抑制方向外的(de)噪(zao)音(yin)(yin)(yin),從而(er)減(jian)少噪(zao)音(yin)(yin)(yin)對語(yu)音(yin)(yin)(yin)信(xin)(xin)號(hao)的(de)干擾。在一個房間(jian)里,麥克風拾取(qu)的(de)聲(sheng)波(bo)(bo)不(bu)僅(jin)僅(jin)直接來(lai)自于音(yin)(yin)(yin)源,還有(you)音(yin)(yin)(yin)源發(fa)出后經過墻(qiang)壁反射的(de)遲到(dao)的(de)聲(sheng)波(bo)(bo),形(xing)成(cheng)聲(sheng)音(yin)(yin)(yin)的(de)殘留,造成(cheng)混(hun)響。利用(yong)(yong)多個麥克風采(cai)集(ji)的(de)數據(ju)(ju)(ju),通過多通道回聲(sheng)消除(chu)算法,將這些不(bu)同(tong)時間(jian)達到(dao)的(de)聲(sheng)音(yin)(yin)(yin)數據(ju)(ju)(ju)分離開來(lai),從而(er)消除(chu)了混(hun)響對聲(sheng)音(yin)(yin)(yin)數據(ju)(ju)(ju)的(de)影響。
在遠距離用語音(yin)(yin)進(jin)行操(cao)控的(de)(de)(de)時(shi)候,聲音(yin)(yin)可能(neng)來自不(bu)同(tong)(tong)方向的(de)(de)(de)不(bu)同(tong)(tong)人(ren)。因此首先要確定哪些是(shi)發指令(ling)的(de)(de)(de)聲音(yin)(yin),哪些不(bu)是(shi)。使用的(de)(de)(de)麥(mai)(mai)克(ke)(ke)(ke)風(feng)陣列波(bo)速成形算法,將360度空間垂直劃(hua)分成若干(gan)區域(yu),每個(ge)麥(mai)(mai)克(ke)(ke)(ke)風(feng)負責(ze)檢(jian)測(ce)一個(ge)指定的(de)(de)(de)區域(yu)。當某(mou)個(ge)空間區域(yu)里面檢(jian)測(ce)到有(you)喚(huan)醒詞(ci)出現時(shi),對(dui)應(ying)于該空間區域(yu)的(de)(de)(de)麥(mai)(mai)克(ke)(ke)(ke)風(feng)拾(shi)(shi)音(yin)(yin)功(gong)能(neng)就(jiu)(jiu)被增強,其他區域(yu)的(de)(de)(de)麥(mai)(mai)克(ke)(ke)(ke)風(feng)拾(shi)(shi)音(yin)(yin)就(jiu)(jiu)被抑制。從而實現對(dui)聲音(yin)(yin)進(jin)行有(you)方向有(you)角度的(de)(de)(de)拾(shi)(shi)取,避免(mian)了周圍電視機里的(de)(de)(de)說(shuo)話聲音(yin)(yin)、其他人(ren)交談對(dui)語音(yin)(yin)指令(ling)的(de)(de)(de)影(ying)響。
語(yu)音(yin)喚(huan)(huan)醒(xing),是指通過含有特(te)定喚(huan)(huan)醒(xing)詞的(de)(de)語(yu)音(yin)輸入來(lai)“觸發(fa)”語(yu)音(yin)識別(bie)系(xi)統以實現(xian)后續的(de)(de)語(yu)音(yin)交(jiao)互。由于功耗等方面(mian)的(de)(de)限制(zhi),智(zhi)能設(she)備(bei)(bei)很難24小(xiao)時(shi)都保持在激活狀(zhuang)態;因此(ci),如果(guo)要在家(jia)里自(zi)由地控制(zhi)智(zhi)能家(jia)居設(she)備(bei)(bei),還(huan)需要有即(ji)時(shi)“喚(huan)(huan)醒(xing)”功能,也(ye)就(jiu)是給智(zhi)能設(she)備(bei)(bei)加入“語(yu)音(yin)喚(huan)(huan)醒(xing)”技術。通過該技術,任何人在任何環境、任何時(shi)間(jian),無論是近場還(huan)是遠場,面(mian)向設(she)備(bei)(bei)直接說出(chu)預設(she)的(de)(de)喚(huan)(huan)醒(xing)詞,就(jiu)能激活產品的(de)(de)識別(bie)引擎,從而真(zhen)正實現(xian)全程無觸控的(de)(de)語(yu)音(yin)交(jiao)互。
通過上面的介紹,相信大家對智能家居語音控制技術有了一定的了解,對智能家居語音控制技術的背景和功能有了深刻認識。生活在當代的我們,除了追求物質上的溫飽、衣服上的溫暖同時,還更加追求于精神上的方便、輕松、舒適。因此我們要不斷與時俱進,掌握新的智能技術。相信在不久的將來這種智能家居會成為(wei)你生(sheng)活中的好(hao)伙伴(ban),好(hao)幫手!