未來的智能家居操控方式
來源:互聯(lián)網(wǎng) 編輯:郭雨婷 2016-09-18 09:03:46 加入收藏 咨詢

所在單位: | * |
姓名: | * |
手機(jī): | * |
職位: | |
郵箱: | * |
其他聯(lián)系方式: | |
咨詢內(nèi)容: | |
驗(yàn)證碼: |
|
在很多國外科幻大片所描述的未來生活中,使用語音方式來操控家電的炫酷場景無處不在。比如在《美國隊(duì)長2》中,神盾局的頭子用語音操控虛擬桌面、窗簾和電視;在《鋼鐵俠》系列電影中,男主角回到家以后,說聲想喝咖啡,咖啡機(jī)便開始沖咖啡;在《碟中諜4》中,阿湯哥通過用語音來開燈和開電視……
科幻片中這樣的未來并非憑空想象,國外的IT巨頭已先后以智能家庭產(chǎn)品與語音相結(jié)合的方式進(jìn)入智能家庭領(lǐng)域:谷歌收購NEST布局智能家庭,不斷強(qiáng)化GoogleNow的語音入口;蘋果HomeKit智能家居平臺與Siri也不斷加強(qiáng)融合;微軟近期也發(fā)布語音助手Cortana,為它在智能家庭領(lǐng)域擴(kuò)展交互入口。
從這些國外科技大佬們對語音產(chǎn)業(yè)的重視和投入,可以看出智能語音與智能家庭的融合是大勢所趨,業(yè)內(nèi)普遍認(rèn)為語音作為人類信息最自然、最便捷的交互方式,必將成為未來智能家居設(shè)備中的重要組成部分。在國內(nèi),語音巨頭科大訊飛也在去年8月宣布進(jìn)軍智能家庭市場,并于今年3月攜手京東成立合資公司,宣告雙方將在智能家居和語音技術(shù)領(lǐng)域展開全面合作。
隨著國內(nèi)外巨頭們對語音交互領(lǐng)域投入的增加,語音核心技術(shù)正逐步成熟,曾經(jīng)的技術(shù)瓶頸亦在慢慢被突破。這其中語音識別技術(shù)是語音交互的基礎(chǔ)與核心,"語音識別"技術(shù)相當(dāng)于給計(jì)算機(jī)系統(tǒng)安裝上"耳朵",使其具備"能聽"的功能。該技術(shù)經(jīng)過語音信號處理、語音特征處理、模型訓(xùn)練及解碼引擎等復(fù)雜步驟,使機(jī)器最終能夠?qū)⒄Z音中的內(nèi)容、說話人、語種等信息識別出來。
圖:主流的語音識別系統(tǒng)框架圖
了解了語音識別的基礎(chǔ)內(nèi)容和系統(tǒng)框架之后我們來看看,語音識別技術(shù)要在智能家居生活中真正實(shí)用,必須要過哪5關(guān)?
一、距離:遠(yuǎn)場識別技術(shù)打破距離瓶頸
近場識別技術(shù)目前已經(jīng)比較成熟,現(xiàn)在手機(jī)上使用的語音輸入功能就屬于近場識別技術(shù),用戶必須在離手機(jī)比較近的距離內(nèi)說話,但在智能家居環(huán)境中,用戶和智能終端之間的距離被大大增加了,用戶能隨意用語音控制智能家居的一個必要條件就是在無論你在客廳哪個角落發(fā)出指令,設(shè)備都能準(zhǔn)確的識別,語音識別技術(shù)必須突破距離的障礙。
目前室內(nèi)的語音交互受到背景噪音、其他人聲干擾、回聲、混響等多重復(fù)雜因素影響,導(dǎo)致識別率低甚至無法使用,只能在相對安靜、近距離的環(huán)境下使用。而遠(yuǎn)場識別技術(shù)將能夠很好的解決這些問題。
二、效率:又快又準(zhǔn)
近年來,隨著深度學(xué)習(xí)理論的爆發(fā)式發(fā)展及其在語音識別領(lǐng)域獲得的顯著效果,同時(shí)Kaldi等開源語音識別工具也在工業(yè)界和學(xué)術(shù)界逐漸普及,語音識別的門檻持續(xù)降低,許多公司都具備了語音識別的能力及相關(guān)產(chǎn)品,但其實(shí)很多使用過Siri的國內(nèi)用戶都會有這樣的感覺:Siri的反應(yīng)太慢,說出一句話往往要等待很久才能顯示結(jié)果,另外,準(zhǔn)確率也不高,離好用還有很遠(yuǎn)的距離。
三、個性化:越來越懂你
每個人在說話時(shí),口音、語速、口頭禪都不一樣,那么家里的智能設(shè)備只會識別一些基本詞句顯然是遠(yuǎn)遠(yuǎn)不夠的,它們必須要更懂你。比如,懂你的口音、方言、口頭禪以及時(shí)不時(shí)蹦出的專業(yè)詞匯等。
讓智能設(shè)備適應(yīng)每個人的使用習(xí)慣可能嗎?答案是肯定的。這里要用的到就是語音識別的另外一項(xiàng)關(guān)鍵技術(shù)--個性化識別技術(shù)。個性化識別指的是語音識別系統(tǒng)具備自動學(xué)習(xí)并適應(yīng)用戶使用習(xí)慣的能力,你用的越多,它越懂你。一般來說,個性化識別包括發(fā)音和語言兩方面。其中發(fā)音個性化主要是指系統(tǒng)對用戶語速、口音等發(fā)音習(xí)慣的學(xué)習(xí),而語言個性化主要是指系統(tǒng)可以對用戶的特定詞匯(例如人名、地名、口頭禪、專業(yè)詞匯等)具備更好的辨識性。
四、方言:普通話標(biāo)不標(biāo)zun也照樣能用
眾所周知,中國的語音及語言博大精深,雖然國家在推廣標(biāo)準(zhǔn)普通話方面不遺余力,但是中國真正掌握標(biāo)準(zhǔn)普通話的人群比例還是比較低的,而中國的口音現(xiàn)象則是紛繁復(fù)雜,甚至?xí)霈F(xiàn)同城市中都有不同口音的情況。因此,當(dāng)這些帶有或輕或重口音的人群在使用語音輸入時(shí),如果按通常的方法使用標(biāo)準(zhǔn)普通話數(shù)據(jù)進(jìn)行模型的訓(xùn)練,就會產(chǎn)生很嚴(yán)重的適配問題,從而影響語音輸入時(shí)的識別效果。
"方言"現(xiàn)在也不再是語音識別的障礙,得益于各類方言豐富的音頻數(shù)據(jù)、特殊詞匯、發(fā)音現(xiàn)象等專業(yè)資源以及充分利用深度神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)特色,方言的語音識別可以得到改善。
五、語音喚醒:真正解放雙手
由于功耗等方面的限制,智能設(shè)備很難24小時(shí)都保持在激活狀態(tài)。因此,要想在家里自由地控制智能家居設(shè)備,我們還需要能即時(shí)"喚醒"功能,也就是給智能設(shè)備加入"語音喚醒"技術(shù)。
語音喚醒,是指通過含有特定喚醒詞的語音輸入來"觸發(fā)"語音識別系統(tǒng)以實(shí)現(xiàn)后續(xù)的語音交互。通過該技術(shù),任何人在任何環(huán)境、任何時(shí)間,無論是近場(0.5米以內(nèi))還是遠(yuǎn)場(2~5米),面向設(shè)備直接說出預(yù)設(shè)的喚醒詞,就能激活產(chǎn)品的識別引擎,從而真正實(shí)現(xiàn)全程無觸控的語音交互。
除了說單個喚醒詞實(shí)現(xiàn)喚醒外,更自然便捷、在技術(shù)上更具有挑戰(zhàn)性的交互方式是在連續(xù)語流中帶上喚醒詞,以實(shí)現(xiàn)喚醒產(chǎn)品并同時(shí)實(shí)現(xiàn)操控的效果。目前,語音喚醒方案已在部分產(chǎn)品中取得成功應(yīng)用。
結(jié)語:隨著語音識別技術(shù)在距離、效率、個性化、方言、喚醒等多方面一一突破實(shí)用瓶頸,隨心所欲"聲"控智能家居的時(shí)代一觸即發(fā),那么這一變革多久會來?也許在明年,也許就在明天。
評論comment