
近幾年,隨著語(yǔ)音技術(shù)的不斷發(fā)展,人機(jī)交互逐漸走入語(yǔ)音時(shí)代,進(jìn)入到智能操作系統(tǒng)時(shí)代,手機(jī)、平板、可穿戴、智能家居、智能汽車等不斷出現(xiàn),各種業(yè)務(wù)、軟件、應(yīng)用也迅速普及,而且越來(lái)越多應(yīng)用也開(kāi)始引入語(yǔ)音功能。
語(yǔ)音識(shí)別為什么這么重要,這兩年大火的人工智能機(jī)器人的出現(xiàn),大大的改善了我們的生活,手機(jī)可以和人類聊天,甚至?xí)袢艘粯拥耐其N產(chǎn)品,甚至讓人覺(jué)察不出來(lái)。主要體現(xiàn)在:一是技術(shù)水平不斷提高,特別是語(yǔ)音合成和基礎(chǔ)語(yǔ)音識(shí)別技術(shù)發(fā)展較快;二是產(chǎn)業(yè)規(guī)模持續(xù)擴(kuò)大,帶動(dòng)了家電、汽車、移動(dòng)互聯(lián)網(wǎng)等一批相關(guān)產(chǎn)業(yè)的發(fā)展;三是優(yōu)秀企業(yè)大幅涌現(xiàn),出現(xiàn)了一大批優(yōu)秀的企業(yè)。
Windows語(yǔ)音識(shí)別功能主要是使用聲音命令指揮你的電腦,實(shí)現(xiàn)離開(kāi)鍵盤鼠標(biāo)來(lái)實(shí)現(xiàn)人機(jī)交互。通過(guò)聲音控制窗口、啟動(dòng)程序、在窗口之間切換,使用菜單和單擊按鈕等功能。Windows語(yǔ)音識(shí)別功能僅僅限于 Windows系統(tǒng)體系內(nèi)的一些常用操作和指令,并且是與監(jiān)視器顯示輔助來(lái)完成整個(gè)語(yǔ)音操作。

例如你想用語(yǔ)音通過(guò)主菜單打開(kāi)某個(gè)程序,當(dāng)你說(shuō)出“開(kāi)始”后,系統(tǒng)將會(huì)提供一個(gè)“顯示編號(hào)”的區(qū)塊劃分功能,這樣假如你想打開(kāi)“下載”這個(gè)文件夾,你只需說(shuō)出它的編號(hào)“,程序就會(huì)給你打開(kāi)“下載”這個(gè)文件夾了。這樣做的原因一是因?yàn)椋喝绻阈枰_(kāi)啟用戶自行安裝的紛繁復(fù)雜的程序,Windows的語(yǔ)音庫(kù)里面可能沒(méi)有這些程序相應(yīng)的名稱,會(huì)造成識(shí)別不準(zhǔn),甚至無(wú)法識(shí)別,二是通過(guò)顯示編號(hào),和語(yǔ)音識(shí)別編號(hào),響應(yīng)指令的效率更高,因此這樣語(yǔ)音配合監(jiān)視器的分模塊顯示大大的提高了用戶使用Windows系統(tǒng)的效率和準(zhǔn)確率。
同樣,如果你對(duì)桌面的快捷方式或文件進(jìn)行語(yǔ)音操作,系統(tǒng)將會(huì)提供一個(gè)稱之為“鼠標(biāo)網(wǎng)絡(luò)”的功能,對(duì)桌面進(jìn)行以前區(qū)域的劃分和自動(dòng)編號(hào),用語(yǔ)音+視覺(jué)來(lái)提高操作效率和識(shí)別的精準(zhǔn)率:
在目前Windows的語(yǔ)音識(shí)別程序中,除文本的語(yǔ)音輸入(包括文字和符號(hào))之外,還包括16個(gè)常用命令,9項(xiàng)常用控件命令,31項(xiàng)文本處理命令,15項(xiàng)窗口命令,5個(gè)點(diǎn)擊屏幕任意位置命令,以及另外的幾組鍵盤命令。用戶所能語(yǔ)音指揮的也就是圍繞這些預(yù)先準(zhǔn)備好了的命令進(jìn)行交互操作,旨在這將有可能提高使用電腦的效率,和盡可能的把雙手從鼠標(biāo)鍵盤上解放出來(lái)。
然后我們?cè)谇斑M(jìn)一點(diǎn),再想一下假如現(xiàn)在我們要面對(duì)的不是電腦、手機(jī)、而是一個(gè)機(jī)器人!一位擬人化,仿真化的機(jī)器人,對(duì)比上面的例子你會(huì)很容易發(fā)現(xiàn)它和常用的電子設(shè)備的不同之處在于,它很可能是不會(huì)有一個(gè)我們通常所見(jiàn)的顯示屏,那以上那些通過(guò)語(yǔ)音指令結(jié)合屏幕可視化輔助來(lái)進(jìn)行的高效的交互方式在機(jī)器人身上就受到了限制。在這種情況下你面對(duì)著機(jī)器人,你肯定會(huì)想它在聽(tīng)我說(shuō)話嗎?它能聽(tīng)懂我說(shuō)話嗎?我說(shuō)什么它能聽(tīng)懂?我說(shuō)什么它可能聽(tīng)不懂等等這樣一堆問(wèn)題會(huì)立即撲面而來(lái)。
其實(shí)在我們現(xiàn)有的技術(shù)水平和條件下,特別是面向大眾商用的機(jī)器人,想做到像電影里面那種人和機(jī)器人自由交流的情景幾乎是不可能。當(dāng)然我們做一個(gè)產(chǎn)品,當(dāng)然會(huì)有功能定位和市場(chǎng)需求等等很多方面要考慮的,那我在這里討論的是一臺(tái)為用戶提供各種咨詢和能進(jìn)行簡(jiǎn)單語(yǔ)音邏輯“聊天”的機(jī)器人,需要如何處理語(yǔ)音交互方面的問(wèn)題,盡可能不依賴電腦屏幕,而直接來(lái)與人互動(dòng)和提供各種咨詢的機(jī)器人。

中天智領(lǐng)是國(guó)內(nèi)領(lǐng)先的智慧交互信息化整體解決方案服務(wù)商,通過(guò)多年潛心研發(fā),創(chuàng)造出一系列智慧人機(jī)交互系統(tǒng)產(chǎn)品,集智慧人機(jī)交互產(chǎn)品、智慧人機(jī)交互終端、智慧交互平臺(tái)、智慧交互云于一體,重點(diǎn)研發(fā)出精準(zhǔn)遠(yuǎn)距離激光遙控、光感手觸、觸摸筆、指揮教鞭、智能指揮臺(tái)、移動(dòng)可視化交互、實(shí)物交互、智能語(yǔ)音等多種交互系統(tǒng)。
中天智領(lǐng)智能語(yǔ)音交互,讓交互“說(shuō)”出來(lái)無(wú)論將來(lái)指揮中心增加多少信號(hào),多少業(yè)務(wù)場(chǎng)景,不再需要后臺(tái)人員使用電腦操作,只需說(shuō)出名字,即可快速大屏展示。面對(duì)成千上萬(wàn)的監(jiān)控圖像,不再需要眼花繚亂的尋找,只需要說(shuō)出想看到的監(jiān)控場(chǎng)景,大屏即可全屏顯示。

中天智領(lǐng)采用藍(lán)牙5.0通訊模式實(shí)現(xiàn)遠(yuǎn)距離智能語(yǔ)音交互,在離屏50米的范圍內(nèi),按下智能激光筆上的語(yǔ)音按鈕,說(shuō)出想要執(zhí)行的命令,系統(tǒng)將會(huì)從海量的信息中匹配與之相對(duì)應(yīng)的操作,例如說(shuō)出“打開(kāi)監(jiān)控”,屏幕上隨即會(huì)調(diào)出預(yù)設(shè)的監(jiān)控場(chǎng)景信息。智能語(yǔ)音交互默認(rèn)支持100個(gè)語(yǔ)音指令,滿足大部分用戶的使用需求,同時(shí)可以支持命令擴(kuò)展,以及特殊命令定制化。