
人機交互是指人與計算機的信息交換,包括計算機通過輸出或顯示設備給人提供信息,以及人通過輸入設備向計算機輸入有關信息。
人機交互的目的就是討論如何使設計的計算機能夠幫助人們更加安全可靠,更加有效率地完成所要完成的任務。從以上概念可以看出,人機交互是指用戶和機器之間相互交換信息。但盡管計算機的功能現(xiàn)在變的十分強大,用途也越來越廣,但歸根到底它仍是人類的工具,不能在沒有人控制的情況下獨立完成任務,因此它同樣受到人的支配、控制。
人機語音交互的發(fā)展階段包括以下幾個方面:
語音識別
語音識別是人機語音交互的第一步,主要作用是將用戶的語音轉換為文字,以便機器的結構化處理。
語音為模擬信號,需經過麥克風等設備采樣處理后成為機器可處理的數(shù)字信號;然后經過特征提取,將信號從時域轉換到頻域;再利用提取到的特征向量,經過模式匹配最終轉化為文本。其中模式匹配環(huán)節(jié)的聲學模型和語言模型決定著最
終識別的效果,聲學模型和語言模型均需要利用標注之后的數(shù)據(jù)進行訓練得到,目前多采用監(jiān)督學習算法實現(xiàn),優(yōu)點是準確率高,缺點是需要人工介入且工作量大。
在實際應用中,除了關注所采用的機器學習算法和軟件處理外,還需要重視語音采集環(huán)節(jié),尤其遠場交互場景(例如智能音響)。語音采集是語音識別的前置條件,如果采集的語音質量不高,即使算力再充足、算法再精妙、數(shù)據(jù)量再大質量再高,最終的識別準確率也不理想。所以在一些場景下需要通過提升麥克風降噪效果、采用麥克風陣列等方式提升語音采集質量。
深度學習算法的應用,使語音識別成為人工智能最先突破的領域之一。當前,市場主流廠商的語音識別準確率超過了人類水平,手機、電腦、降噪麥克風(陣列)等場景優(yōu)化后識別準確率高于95%,電話等場景優(yōu)化后識別準確率高于85%,其他語音優(yōu)化后識別準確率高于80%。
自然語言理解
自然語言理解是基于自然語言處理的相關技術實現(xiàn)的,兩者之間的關系可表現(xiàn)為:
語音識別后的文本,經過分詞、詞性標注、命名實體識別、依存句法分析等處理,并結合情感分析等結果,對用戶意圖進行識別。
當前,自然語言理解是人機語音交互中較弱的一環(huán),暫時還無法應用到全場景交互中,但是在垂直領域(金融、醫(yī)療、教育等)可用,并且可解決部分客服、銷售業(yè)務。在閑聊場景中,目前智能音響的應用比較深入,多個廠商的智能音響可支持百科問答、導購交互、日常聊天等功能。
對話管理
對話管理接收來自于自然語言理解的語義結果,并結合當前的語義環(huán)境,基于預設的對話狀態(tài),決策接下來的動作,并對語義環(huán)境進行更新,然后循環(huán)往復,直到結束交互。預設的對話狀態(tài)即對話規(guī)則,例如對話流程、動作判斷等多種形式的結合。
由于語音交互的復雜性和隨機性,導致對話管理難度很大。具體表現(xiàn)為預設對話狀態(tài)的主觀性、多輪對話的容錯性、偏離對話狀態(tài)的合理化處理、多場景切換與恢復等。和自然語言理解類似,當前對話管理在垂直領域和閑聊的部分場景應用較好,但是要應用到全場景交互中,挑戰(zhàn)同樣非常大。
自然語言生成
自然語言生成可視作語言理解的逆過程,將向用戶傳達的概念、知識、數(shù)據(jù)、意圖等信息轉化為語言,自然語言生成一般包括6個步驟。
內容確定作用是決定哪些信息需包含在正在構建的文本中,文本結構作用是決定合理的組織文本順序,句子聚合作用是決定在單個句子中呈現(xiàn)的信息,語法化作用是找到合適的單詞和短語來表達信息,參考表達式生成作用是識別需表達內容的領域并使用該領域詞匯,語言實現(xiàn)作用是將所有的單詞和短語組成格式良好的句子。
當前,人機語音交互中還未實現(xiàn)完全自動化的自然語言生成,在實際應用中多采用預先設計的文本模板來生成文本輸出,例如在查詢銀行卡余額時,預設文本“您查詢的銀行卡余額為【金額】元”。
語音合成
語音合成是人機語音交互的出口,目的是將自然語言生成后的文本或預設文本轉換為語音,播報給用戶。合成語音的自然度直接關系到交互體驗。
語音合成的原理比較復雜,但是目前的技術和應用都很成熟。市場主流廠商中英文的語音合成效果超過了人類水平,中文自然度MOS值可達到4.5左右,英文自然度MOS值可達到4.2左右。
在實際使用過程中,為了達到比較好的效果,也采用人工錄音和語音合成結合的方式,預設的固定文本部分采用人工錄音方式,動態(tài)變化部分采用語音合成方式。例如上述的“您查詢的銀行卡余額為【余額】元”,其中動態(tài)變化的“【余額】”采用語音合成方式,其余部分采用人工錄音方式。
其他技術
除了以上技術,還有一些技術也廣泛應用于人機語音交互中,例如聲紋識別、知識圖譜等。
聲紋識別是一種根據(jù)說話人語音波形識別說話人身份的生物識別技術。相比于人臉識別、虹膜識別、指紋識別等技術,聲紋識別可以進行遠程身份識別,用戶不必和生物特征采集設備接觸,即可完成識別過程。聲紋識別的應用可分為身份確認和身份辨識,身份確認是指根據(jù)一段語音確認是否為目標用戶,是1:1比對的過程;身份辨識是指根據(jù)一段語音從一個集合中選取最匹配的用戶,是1:N判別的過程。在智能音響中,可采用聲紋識別進行用戶身份識別,針對不同用戶提供個性化服務。
知識圖譜是一種描述知識實體、實體與實體之間關聯(lián)的結構化知識管理技術。知識圖譜相比于傳統(tǒng)的知識管理技術,能夠將零散的知識有效聚合起來,方便檢索、提取、調用、管理。知識圖譜在人機語音交互中的應用,可以有效提升知識檢索、知識生成的速度和準確度,如果結合自然語言生成技術,提供給用戶的結果也更接近于人類表達。
中天智領是國內領先的智慧交互信息化系統(tǒng)整體解決方案服務商,通過多年潛心研發(fā),創(chuàng)造出一系列智慧人機交互系統(tǒng)產品,集智慧人機交互產品、智慧人機交互終端、智慧交互平臺、智慧交互云于一體,重點研發(fā)出精準遠距離激光遙控、光感手觸、觸摸筆、指揮教鞭、智能指揮臺、移動可視化交互、實物交互、智能語音等多種交互系統(tǒng)。
中天智領智能語音交互,讓交互“說”出來無論將來指揮中心增加多少信號,多少業(yè)務場景,不再需要后臺人員使用電腦操作,只需說出名字,即可快速大屏展示。面對成千上萬的監(jiān)控圖像,不再需要眼花繚亂的尋找,只需要說出想看到的監(jiān)控場景,大屏即可全屏顯示。
中天智領智能語音交互系統(tǒng)將設備連接到網絡的能力,與現(xiàn)代語音識別服務相結合,實現(xiàn)了強大的新用戶界面。一種以用戶內心意圖為中心
的人機交互方式,以語音命令為核心的智能人機交互體驗。系統(tǒng)用人類最自然的語言(開口說話)給設備下達指令,達成自己的目的。用戶按
下遙控器上的語音鍵,下達清晰和直接的單向預設語音指令,傳輸?shù)骄W絡中的語音識別引擎,達到對應的控制效果。獨有的語音壓縮算法,
將語音壓縮以實現(xiàn)抗干擾及較遠距離的語音實時傳輸,30米范圍內精準遙控,360°無死角聲源定向。對話模型本地運行,數(shù)據(jù)本地存儲和處
理,保障數(shù)據(jù)的私密性。