所謂(wei)智能(neng)語音(yin)產(chan)(chan)(chan)業(ye)主要指通過語音(yin)合成技(ji)術和(he)語音(yin)識別技(ji)術,為用(yong)戶(hu)提供各種服務(wu)(wu)的產(chan)(chan)(chan)業(ye)。一般(ban)來(lai)(lai)說,用(yong)戶(hu)只(zhi)需要用(yong)說話的方式給服務(wu)(wu)終端(duan)發送命令,就能(neng)實現相應(ying)的服務(wu)(wu)。這一產(chan)(chan)(chan)業(ye)從上世紀六十年(nian)(nian)代就已經出現,但并不為普(pu)通消(xiao)費者(zhe)所熟知,消(xiao)費者(zhe)對其認知度也(ye)比較低(di)。近年(nian)(nian)來(lai)(lai),隨著各大科技(ji)公司先后推出Siri等智能(neng)語音(yin)服務(wu)(wu),這一服務(wu)(wu)以及相關產(chan)(chan)(chan)業(ye)也(ye)開(kai)始被普(pu)通消(xiao)費者(zhe)和(he)投資界所關注。
“您好,我的(de)(de)朋(peng)友,到吃(chi)藥(yao)的(de)(de)時間(jian)了!”當某個(ge)聲音在你(ni)耳(er)邊出現(xian)的(de)(de)時候,你(ni)可能(neng)不(bu)會想到,這也許僅是預設好的(de)(de)一段程序。
語音交互是家庭智能機器人中的重要部分。這臺機器人可以(yi)和你(ni)(ni)進(jin)行語音交流。當你(ni)(ni)高興地夸獎(jiang)它(ta)時(shi),他會(hui)呵呵地笑出聲來,當你(ni)(ni)和它(ta)聊(liao)天時(shi),它(ta)會(hui)根據(ju)你(ni)(ni)的話題說(shuo)出相關(guan)的內(nei)容。當然,如果你(ni)(ni)家里有老人和孩(hai)子,它(ta)還將扮演一位(wei)保姆(mu)的角色。為老人提供心(xin)理慰藉(jie),與孩(hai)子唱歌玩耍,它(ta)都(dou)是一個最佳的幫手。
只需(xu)喊一(yi)聲“Hi,TV”,電視(shi)就可以(yi)開啟(qi)語音控(kong)制系統,比如你說“最近(jin)天氣預(yu)報”,然后電視(shi)屏幕上就會閃現出最近(jin)一(yi)周的本地天氣情況。隨著智能電視(shi)功能的日漸豐富和強(qiang)大,僅(jin)依靠(kao)一(yi)個簡單的電視(shi)遙控(kong)器已(yi)經滿足不了智能電視(shi)的操控(kong)需(xu)求。
引入語音(yin)(yin)識別(bie)和語音(yin)(yin)合(he)成技術的智能(neng)語音(yin)(yin)電視不僅能(neng)聽懂(dong)用戶(hu)說話并作出反應,而且還能(neng)“說出話”來。用戶(hu)憑借語音(yin)(yin)指令可(ke)以(yi)輕(qing)松完成換臺(tai)、電視節(jie)目查詢(xun)、網絡瀏(liu)覽/搜索(suo)、文字輸入等操作,而電視能(neng)做的,就是根據用戶(hu)的需求讀出搜索(suo)到的內(nei)容。
未來,在每個家庭網絡上所有通過電力運(yun)轉的設備(bei),都可以(yi)被(bei)人們(men)的語(yu)音控制,比如可以(yi)控制室內的燈光、溫(wen)度等。
在駕駛環境下,用戶(hu)與車的交(jiao)流,可(ke)以通過對(dui)話(hua)來實現,說出(chu)“想回家”,汽(qi)車會根據你家的位(wei)置設(she)定好最佳路線(xian),并開(kai)始導航。說出(chu)“加油(you)站”,幾公里范圍內的加油(you)站將逐一由(you)車載語音系(xi)統播報出(chu)來。
在車(che)載環境下,用戶的(de)注意(yi)力主要集中在于駕駛,人與車(che)的(de)交互必須(xu)在不影響駕駛的(de)前提(ti)(ti)條件(jian)下進行,語音識(shi)別技術提(ti)(ti)供了安(an)全(quan)便(bian)捷的(de)交互方式,用戶只(zhi)需動口(kou),就可以滿足在行車(che)過程中的(de)相關需求。
語(yu)音(yin)操控作為人機溝通的重(zhong)要手段,拍照、打(da)電話、錄像,你(ni)(ni)(ni)只需說出你(ni)(ni)(ni)的需求,它就將在你(ni)(ni)(ni)眼前(qian)展(zhan)現出你(ni)(ni)(ni)想(xiang)要的結果。
智能(neng)(neng)眼鏡、智能(neng)(neng)手(shou)環、智能(neng)(neng)手(shou)表,這(zhe)些互聯網(wang)時代(dai)的智能(neng)(neng)化設(she)備,最大限度地利用了語(yu)音控制技術(shu),它將讓未來(lai)的生活變得(de)不可思議。
“聽話”的瀏(liu)覽(lan)(lan)器(qi)(qi)離我們并不(bu)遙遠。或許(xu)要不(bu)了(le)多久,我們就能拋開鼠(shu)標和觸摸板,通過聲控(kong)瀏(liu)覽(lan)(lan)器(qi)(qi)完成(cheng)瀏(liu)覽(lan)(lan)網頁、發送(song)郵(you)件等。比(bi)如,你可以通過“暗(an)一(yi)點”“亮一(yi)點”“字體大一(yi)號”等語(yu)音(yin)命令(ling)來控(kong)制(zhi)瀏(liu)覽(lan)(lan)器(qi)(qi)。
傳(chuan)統的(de)密(mi)碼恢復機制是(shi)回答一(yi)些(xie)預設的(de)安全問(wen)題(ti)(ti),如“你(ni)的(de)出生地(di)在哪里”等,但(dan)這(zhe)類問(wen)題(ti)(ti)有些(xie)時(shi)候容易被(bei)黑客破解(jie),用戶也可能記不(bu)起預設的(de)問(wen)題(ti)(ti)和(he)答案,特(te)別是(shi)企業員工,就常常因為忘記密(mi)碼而求(qiu)助于IT部(bu)門。
為(wei)此,一(yi)(yi)家外國(guo)公司推(tui)出了一(yi)(yi)項名為(wei)FastReset(快(kuai)速設置)的新服務。該服務可(ke)先讓員(yuan)工通過手機或電話注(zhu)冊自己(ji)的聲紋,一(yi)(yi)旦員(yuan)工忘記(ji)密碼需要(yao)重置,只(zhi)需對著(zhu)登錄界(jie)面念一(yi)(yi)段短語(比方說“芝(zhi)麻開門”)即可(ke)完成。
很多(duo)小朋友都(dou)有這(zhe)樣的夢想(xiang):擁有一(yi)個會說話的玩(wan)具(ju),就像喜(xi)劇電影《泰迪(di)熊》里(li)面(mian)的TED一(yi)樣。
在ToyTalk的官方網站上,這個夢想有了變成現實的可能:小女孩完成家庭作業后,把平板立起來,打開ToyTalk應用,把泰迪熊玩具放在平板攝像頭前方,小女孩就能和在平板里“活(huo)過來”的泰迪熊(xiong)對(dui)話了(le)!
語音交互對于智能家居最直接(jie)的(de)意(yi)義(yi)在于把智(zhi)能(neng)(neng)(neng)家(jia)居變得真正的(de)智(zhi)能(neng)(neng)(neng)起來,不管品牌與技術多么(me)的(de)先進,人(ren)機交(jiao)互(hu)(hu)界面(mian)多么(me)的(de)友善(shan),都沒(mei)有(you)語音交(jiao)互(hu)(hu)控制來的(de)簡便直接(jie)。科技讓(rang)生活(huo)更(geng)(geng)智(zhi)能(neng)(neng)(neng),語音讓(rang)交(jiao)互(hu)(hu)更(geng)(geng)便捷、快捷。所以,如果智(zhi)能(neng)(neng)(neng)家(jia)居能(neng)(neng)(neng)與語音交(jiao)互(hu)(hu)融于一體,那么(me)智(zhi)能(neng)(neng)(neng)家(jia)居產業也(ye)許會(hui)迎來一次劃(hua)時(shi)代的(de)突破(po)。
用戶必(bi)(bi)須(xu)在離(li)手機比(bi)較近(jin)的距離(li)內說(shuo)話,但在智能家居環(huan)境(jing)中(zhong),用戶和智能終端之(zhi)間的距離(li)被(bei)大(da)大(da)增加了,用戶能隨意(yi)用語(yu)音(yin)控制智能家居的一個必(bi)(bi)要條件就是在無論你在客廳哪個角落(luo)發出指令,設備都能準(zhun)確(que)的識別,語(yu)音(yin)識別技術必(bi)(bi)須(xu)突破距離(li)的障礙。目前(qian)室內的語(yu)音(yin)交(jiao)互受到背景噪音(yin)、其他人聲干擾(rao)、回聲、混響等多重復雜因素影響,只能在相(xiang)對安靜、近(jin)距離(li)的環(huan)境(jing)下使(shi)用。
加(jia)(jia)之(zhi)中(zhong)國的語(yu)系、方言、口音(yin)相當多,再(zai)加(jia)(jia)上中(zhong)文(wen)的多語(yu)義(yi)性,導致語(yu)音(yin)識別率能力(li)不高。同(tong)時,在語(yu)義(yi)識別上,也存在上下文(wen)的關聯帶來識別的學習難(nan)、定位難(nan)和建立模型(xing)難(nan)等(deng)問題。
語音識(shi)(shi)別技(ji)術(shu)(shu)就(jiu)是(shi)讓機器通過(guo)識(shi)(shi)別和理解過(guo)程(cheng)把(ba)語音信(xin)號轉變為相應的文本或命令的技(ji)術(shu)(shu),與機器進(jin)行語音交流,讓機器明白你說什(shen)么。語音識(shi)(shi)別是(shi)一門(men)交叉學科,語音識(shi)(shi)別技(ji)術(shu)(shu)與語音合(he)成技(ji)術(shu)(shu)結(jie)合(he)使人們能夠(gou)甩掉鍵盤,通過(guo)語音命令進(jin)行操作,語音技(ji)術(shu)(shu)的應用已經成為一個具有競爭性的新興(xing)高技(ji)術(shu)(shu)產(chan)業。
語(yu)(yu)(yu)音(yin)識別技術相當于給(gei)計算機(ji)系統裝上“耳(er)朵”,使其具備“能(neng)聽”的(de)(de)功(gong)能(neng),該(gai)技術經(jing)過語(yu)(yu)(yu)音(yin)信號處理(li)(li)、語(yu)(yu)(yu)音(yin)特(te)征處理(li)(li)、模型訓練及解碼(ma)引擎(qing)等(deng)復雜(za)步驟,使機(ji)器(qi)最終能(neng)夠將語(yu)(yu)(yu)音(yin)中的(de)(de)內容(rong)、說話(hua)人(ren)、語(yu)(yu)(yu)種等(deng)信息(xi)識別出來。語(yu)(yu)(yu)音(yin)控制功(gong)能(neng)的(de)(de)實現(xian),與用戶的(de)(de)使用習慣高度關聯,目(mu)前的(de)(de)語(yu)(yu)(yu)音(yin)控制功(gong)能(neng)實現(xian)方(fang)式可(ke)分(fen)為近場(chang)語(yu)(yu)(yu)音(yin)識別和(he)遠場(chang)語(yu)(yu)(yu)音(yin)識別二個(ge)大類。
在(zai)(zai)對(dui)音(yin)箱(xiang)等設備進(jin)行(xing)語音(yin)控制時,往往該設備處于(yu)播放歌曲的(de)(de)(de)狀態(tai)。由(you)于(yu)麥(mai)(mai)克(ke)(ke)風(feng)(feng)安裝(zhuang)在(zai)(zai)音(yin)箱(xiang)上,麥(mai)(mai)克(ke)(ke)風(feng)(feng)和說話人之(zhi)(zhi)間(jian)的(de)(de)(de)距(ju)離要遠大于(yu)麥(mai)(mai)克(ke)(ke)風(feng)(feng)和揚聲(sheng)器之(zhi)(zhi)間(jian)的(de)(de)(de)距(ju)離,在(zai)(zai)這樣的(de)(de)(de)情況下,采(cai)用(yong)內(nei)(nei)外兼顧(gu)的(de)(de)(de)方法進(jin)行(xing)解決。內(nei)(nei)部(bu)使用(yong)特殊的(de)(de)(de)回(hui)聲(sheng)消(xiao)(xiao)除(chu)(chu)算(suan)法從(cong)內(nei)(nei)部(bu)減(jian)小(xiao)(xiao)噪音(yin)對(dui)麥(mai)(mai)克(ke)(ke)風(feng)(feng)的(de)(de)(de)影響。另(ling)外對(dui)于(yu)震(zhen)動(dong)帶來的(de)(de)(de)非線(xian)性(xing)干擾,傳統的(de)(de)(de)線(xian)性(xing)回(hui)聲(sheng)消(xiao)(xiao)除(chu)(chu)方法失效(xiao)(xiao)了(le),因此可以(yi)使用(yong)非線(xian)性(xing)回(hui)聲(sheng)消(xiao)(xiao)除(chu)(chu)算(suan)法提高內(nei)(nei)部(bu)噪聲(sheng)消(xiao)(xiao)除(chu)(chu)的(de)(de)(de)效(xiao)(xiao)果。在(zai)(zai)外部(bu)結構(gou)設計方面,使用(yong)精(jing)心設計的(de)(de)(de)麥(mai)(mai)克(ke)(ke)風(feng)(feng)陣列減(jian)震(zhen)結構(gou),使多個麥(mai)(mai)克(ke)(ke)風(feng)(feng)和它(ta)所連接的(de)(de)(de)電路板之(zhi)(zhi)間(jian)的(de)(de)(de)震(zhen)動(dong)減(jian)小(xiao)(xiao)到最小(xiao)(xiao),從(cong)而最大程(cheng)度(du)的(de)(de)(de)控制高聲(sheng)強導致的(de)(de)(de)音(yin)箱(xiang)本體震(zhen)動(dong)對(dui)拾音(yin)的(de)(de)(de)干擾。
近場語(yu)音識別需要(yao)用(yong)戶點擊(ji)啟(qi)動,并且(qie)用(yong)戶與終端設(she)備的(de)距(ju)離比較近,如手(shou)機或其他終端設(she)備,可直接(jie)借助這些(xie)終端設(she)備直接(jie)實現控制功能。
遠場語(yu)音(yin)(yin)(yin)(yin)識(shi)(shi)別(bie)(bie),以麥克風陣列遠距離拾(shi)取的語(yu)音(yin)(yin)(yin)(yin)數據(ju)作為輸(shu)入(ru)數據(ju),通過語(yu)音(yin)(yin)(yin)(yin)識(shi)(shi)別(bie)(bie)的算(suan)法將語(yu)音(yin)(yin)(yin)(yin)信號轉寫成文字的技術。雖然(ran)和(he)近場語(yu)音(yin)(yin)(yin)(yin)識(shi)(shi)別(bie)(bie)技術在(zai)原(yuan)理(li)上(shang)是相同的,但是由于(yu)音(yin)(yin)(yin)(yin)源(yuan)和(he)麥克風之(zhi)間(jian)(jian)的空間(jian)(jian)距離增大(da),在(zai)聲(sheng)波(bo)傳播過程(cheng)中會出(chu)現信號強度的衰減和(he)各種噪音(yin)(yin)(yin)(yin)干擾,因此需要特(te)殊的語(yu)音(yin)(yin)(yin)(yin)數據(ju)拾(shi)取和(he)預處理(li)技術;不(bu)同的拾(shi)取設備和(he)預處理(li)技術常常會使用于(yu)語(yu)音(yin)(yin)(yin)(yin)識(shi)(shi)別(bie)(bie)的聲(sheng)波(bo)信號特(te)征發生改變(bian),因此針對(dui)不(bu)同的遠場語(yu)音(yin)(yin)(yin)(yin)拾(shi)取技術,需要對(dui)語(yu)音(yin)(yin)(yin)(yin)識(shi)(shi)別(bie)(bie)引擎進行定制(zhi)化適配和(he)優化。
當(dang)語(yu)(yu)音(yin)(yin)信號(hao)在傳(chuan)播過(guo)程中(zhong)有所衰減,影(ying)響(xiang)采(cai)集(ji)(ji)信號(hao)的(de)(de)(de)(de)(de)強度和分辨(bian)率,使用的(de)(de)(de)(de)(de)靈敏度非常高的(de)(de)(de)(de)(de)指(zhi)向性麥克(ke)風,同(tong)時(shi)將(jiang)麥克(ke)風的(de)(de)(de)(de)(de)參數(shu)調(diao)整(zheng)到適合遠場(chang)語(yu)(yu)音(yin)(yin)數(shu)據的(de)(de)(de)(de)(de)模式,可以(yi)最大限(xian)度采(cai)集(ji)(ji)清晰的(de)(de)(de)(de)(de)遠場(chang)語(yu)(yu)音(yin)(yin)信號(hao)。語(yu)(yu)音(yin)(yin)指(zhi)令聲(sheng)(sheng)(sheng)波(bo)在傳(chuan)輸過(guo)程中(zhong)受(shou)到周圍噪音(yin)(yin)的(de)(de)(de)(de)(de)污染,降低(di)聲(sheng)(sheng)(sheng)波(bo)信號(hao)的(de)(de)(de)(de)(de)信噪比,使用定(ding)向波(bo)速(su)成(cheng)(cheng)形(xing)技術,抑(yi)制方向外的(de)(de)(de)(de)(de)噪音(yin)(yin),從而減少噪音(yin)(yin)對語(yu)(yu)音(yin)(yin)信號(hao)的(de)(de)(de)(de)(de)干擾(rao)。在一個房間(jian)里,麥克(ke)風拾取的(de)(de)(de)(de)(de)聲(sheng)(sheng)(sheng)波(bo)不僅僅直(zhi)接來(lai)自(zi)于(yu)音(yin)(yin)源(yuan),還有音(yin)(yin)源(yuan)發出后經過(guo)墻壁(bi)反射的(de)(de)(de)(de)(de)遲到的(de)(de)(de)(de)(de)聲(sheng)(sheng)(sheng)波(bo),形(xing)成(cheng)(cheng)聲(sheng)(sheng)(sheng)音(yin)(yin)的(de)(de)(de)(de)(de)殘留,造成(cheng)(cheng)混(hun)(hun)響(xiang)。利(li)用多個麥克(ke)風采(cai)集(ji)(ji)的(de)(de)(de)(de)(de)數(shu)據,通(tong)(tong)過(guo)多通(tong)(tong)道回(hui)聲(sheng)(sheng)(sheng)消(xiao)除算法,將(jiang)這(zhe)些(xie)不同(tong)時(shi)間(jian)達(da)到的(de)(de)(de)(de)(de)聲(sheng)(sheng)(sheng)音(yin)(yin)數(shu)據分離開來(lai),從而消(xiao)除了(le)混(hun)(hun)響(xiang)對聲(sheng)(sheng)(sheng)音(yin)(yin)數(shu)據的(de)(de)(de)(de)(de)影(ying)響(xiang)。
在遠距離用語音(yin)(yin)(yin)進(jin)行操控的(de)時候,聲音(yin)(yin)(yin)可能來(lai)自不同方(fang)向(xiang)(xiang)的(de)不同人。因此首先要確(que)定(ding)哪(na)些是發(fa)指令的(de)聲音(yin)(yin)(yin),哪(na)些不是。使(shi)用的(de)麥克風陣(zhen)列波速成形(xing)算法,將360度空間(jian)垂(chui)直劃分(fen)成若干區域,每(mei)個(ge)(ge)麥克風負責檢(jian)測(ce)一個(ge)(ge)指定(ding)的(de)區域。當某個(ge)(ge)空間(jian)區域里面(mian)檢(jian)測(ce)到(dao)有喚醒詞(ci)出現(xian)時,對(dui)應(ying)于該空間(jian)區域的(de)麥克風拾音(yin)(yin)(yin)功能就被增強,其他(ta)區域的(de)麥克風拾音(yin)(yin)(yin)就被抑(yi)制。從而(er)實現(xian)對(dui)聲音(yin)(yin)(yin)進(jin)行有方(fang)向(xiang)(xiang)有角度的(de)拾取(qu),避免了周圍電視(shi)機里的(de)說話聲音(yin)(yin)(yin)、其他(ta)人交談對(dui)語音(yin)(yin)(yin)指令的(de)影響。
語(yu)音(yin)(yin)喚醒,是指通過含有特定喚醒詞(ci)的語(yu)音(yin)(yin)輸入來“觸發(fa)”語(yu)音(yin)(yin)識別(bie)系統以實(shi)現后續(xu)的語(yu)音(yin)(yin)交(jiao)互。由于功(gong)耗等(deng)方面的限制,智能(neng)設(she)(she)備(bei)很(hen)難24小(xiao)時都保持在激活狀態;因此,如果要在家里自由地控制智能(neng)家居設(she)(she)備(bei),還需(xu)要有即時“喚醒”功(gong)能(neng),也就是給智能(neng)設(she)(she)備(bei)加入“語(yu)音(yin)(yin)喚醒”技(ji)術(shu)。通過該(gai)技(ji)術(shu),任(ren)何(he)(he)人在任(ren)何(he)(he)環(huan)境、任(ren)何(he)(he)時間,無(wu)論是近場還是遠場,面向設(she)(she)備(bei)直接(jie)說出預設(she)(she)的喚醒詞(ci),就能(neng)激活產品的識別(bie)引擎,從而真正實(shi)現全程無(wu)觸控的語(yu)音(yin)(yin)交(jiao)互。
通過上面的介紹,相信大家對智能家居語音控制技術有了一定的了解,對智能家居語音控制技術的背景和功能有了深刻認識。生活在當代的我們,除了追求物質上的溫飽、衣服上的溫暖同時,還更加追求于精神上的方便、輕松、舒適。因此我們要不斷與時俱進,掌握新的智能技術。相信在不久的將來這種智能家居會成(cheng)為(wei)你(ni)生活中的好(hao)伙(huo)伴,好(hao)幫手!