
近幾年,隨著語音技術(shù)的不斷發(fā)展,人機(jī)交互逐漸走入語音時(shí)代,進(jìn)入到智能操作系統(tǒng)時(shí)代,手機(jī)、平板、可穿戴、智能家居、智能汽車等不斷出現(xiàn),各種業(yè)務(wù)、軟件、應(yīng)用也迅速普及,而且越來越多應(yīng)用也開始引入語音功能。
語音識別為什么這么重要,這兩年大火的人工智能機(jī)器人的出現(xiàn),大大的改善了我們的生活,手機(jī)可以和人類聊天,甚至?xí)袢艘粯拥耐其N產(chǎn)品,甚至讓人覺察不出來。主要體現(xiàn)在:一是技術(shù)水平不斷提高,特別是語音合成和基礎(chǔ)語音識別技術(shù)發(fā)展較快;二是產(chǎn)業(yè)規(guī)模持續(xù)擴(kuò)大,帶動(dòng)了家電、汽車、移動(dòng)互聯(lián)網(wǎng)等一批相關(guān)產(chǎn)業(yè)的發(fā)展;三是優(yōu)秀企業(yè)大幅涌現(xiàn),出現(xiàn)了一大批優(yōu)秀的企業(yè)。
Windows語音識別功能主要是使用聲音命令指揮你的電腦,實(shí)現(xiàn)離開鍵盤鼠標(biāo)來實(shí)現(xiàn)人機(jī)交互。通過聲音控制窗口、啟動(dòng)程序、在窗口之間切換,使用菜單和單擊按鈕等功能。Windows語音識別功能僅僅限于 Windows系統(tǒng)體系內(nèi)的一些常用操作和指令,并且是與監(jiān)視器顯示輔助來完成整個(gè)語音操作。

例如你想用語音通過主菜單打開某個(gè)程序,當(dāng)你說出“開始”后,系統(tǒng)將會提供一個(gè)“顯示編號”的區(qū)塊劃分功能,這樣假如你想打開“下載”這個(gè)文件夾,你只需說出它的編號“,程序就會給你打開“下載”這個(gè)文件夾了。這樣做的原因一是因?yàn)椋喝绻阈枰_啟用戶自行安裝的紛繁復(fù)雜的程序,Windows的語音庫里面可能沒有這些程序相應(yīng)的名稱,會造成識別不準(zhǔn),甚至無法識別,二是通過顯示編號,和語音識別編號,響應(yīng)指令的效率更高,因此這樣語音配合監(jiān)視器的分模塊顯示大大的提高了用戶使用Windows系統(tǒng)的效率和準(zhǔn)確率。
同樣,如果你對桌面的快捷方式或文件進(jìn)行語音操作,系統(tǒng)將會提供一個(gè)稱之為“鼠標(biāo)網(wǎng)絡(luò)”的功能,對桌面進(jìn)行以前區(qū)域的劃分和自動(dòng)編號,用語音+視覺來提高操作效率和識別的精準(zhǔn)率:
在目前Windows的語音識別程序中,除文本的語音輸入(包括文字和符號)之外,還包括16個(gè)常用命令,9項(xiàng)常用控件命令,31項(xiàng)文本處理命令,15項(xiàng)窗口命令,5個(gè)點(diǎn)擊屏幕任意位置命令,以及另外的幾組鍵盤命令。用戶所能語音指揮的也就是圍繞這些預(yù)先準(zhǔn)備好了的命令進(jìn)行交互操作,旨在這將有可能提高使用電腦的效率,和盡可能的把雙手從鼠標(biāo)鍵盤上解放出來。
然后我們在前進(jìn)一點(diǎn),再想一下假如現(xiàn)在我們要面對的不是電腦、手機(jī)、而是一個(gè)機(jī)器人!一位擬人化,仿真化的機(jī)器人,對比上面的例子你會很容易發(fā)現(xiàn)它和常用的電子設(shè)備的不同之處在于,它很可能是不會有一個(gè)我們通常所見的顯示屏,那以上那些通過語音指令結(jié)合屏幕可視化輔助來進(jìn)行的高效的交互方式在機(jī)器人身上就受到了限制。在這種情況下你面對著機(jī)器人,你肯定會想它在聽我說話嗎?它能聽懂我說話嗎?我說什么它能聽懂?我說什么它可能聽不懂等等這樣一堆問題會立即撲面而來。
其實(shí)在我們現(xiàn)有的技術(shù)水平和條件下,特別是面向大眾商用的機(jī)器人,想做到像電影里面那種人和機(jī)器人自由交流的情景幾乎是不可能。當(dāng)然我們做一個(gè)產(chǎn)品,當(dāng)然會有功能定位和市場需求等等很多方面要考慮的,那我在這里討論的是一臺為用戶提供各種咨詢和能進(jìn)行簡單語音邏輯“聊天”的機(jī)器人,需要如何處理語音交互方面的問題,盡可能不依賴電腦屏幕,而直接來與人互動(dòng)和提供各種咨詢的機(jī)器人。

中天智領(lǐng)是國內(nèi)領(lǐng)先的智慧交互信息化整體解決方案服務(wù)商,通過多年潛心研發(fā),創(chuàng)造出一系列智慧人機(jī)交互系統(tǒng)產(chǎn)品,集智慧人機(jī)交互產(chǎn)品、智慧人機(jī)交互終端、智慧交互平臺、智慧交互云于一體,重點(diǎn)研發(fā)出精準(zhǔn)遠(yuǎn)距離激光遙控、光感手觸、觸摸筆、指揮教鞭、智能指揮臺、移動(dòng)可視化交互、實(shí)物交互、智能語音等多種交互系統(tǒng)。
中天智領(lǐng)智能語音交互,讓交互“說”出來無論將來指揮中心增加多少信號,多少業(yè)務(wù)場景,不再需要后臺人員使用電腦操作,只需說出名字,即可快速大屏展示。面對成千上萬的監(jiān)控圖像,不再需要眼花繚亂的尋找,只需要說出想看到的監(jiān)控場景,大屏即可全屏顯示。

中天智領(lǐng)采用藍(lán)牙5.0通訊模式實(shí)現(xiàn)遠(yuǎn)距離智能語音交互,在離屏50米的范圍內(nèi),按下智能激光筆上的語音按鈕,說出想要執(zhí)行的命令,系統(tǒng)將會從海量的信息中匹配與之相對應(yīng)的操作,例如說出“打開監(jiān)控”,屏幕上隨即會調(diào)出預(yù)設(shè)的監(jiān)控場景信息。智能語音交互默認(rèn)支持100個(gè)語音指令,滿足大部分用戶的使用需求,同時(shí)可以支持命令擴(kuò)展,以及特殊命令定制化。