語音互動,特別是全場景語音,是智慧座艙必不可少的其中一部分,對於小鵬而言,全場景語音化身為小P助手,透過OTA升級,不斷提升語音互動的能力和水平,也體現了一臺智慧汽車的未來的可玩空間。
無論是網際網路為時代,還是移動網際網路時代,都是GUI互動為主導,但隨著AI的興起,新的互動方式也隨之熱門起來。完善的智慧互動,應該是多模態的,例如語音互動、手勢互動,甚至透過眼神完成互動。對於當前階段的智慧汽車來說,天生就適合語音、手勢等操作方式,而語音互動則更成熟,讓駕駛員可以雙手不離開方向盤,專注的開車,對安全駕駛來說,這很重要。
目前各大智慧汽車廠商都重點投入到語音互動領域。那麼好的語音互動體驗,體現在哪些地方呢?我認為有3個方面:聽、理解、表達。只有這3方面做好,語音互動系統才算健康。
完整的語音互動流程
聽,就是能聽清楚,聽正確。這包括了硬體方面的回聲消除、降噪,軟體方面的合理的人聲檢測間隔,錄音時長,語音識別模型等。目前主流的語音識別廠商,如國內佔最大份額市場的訊飛,還有在吳恩達加盟後,識別率大幅提升的百度,還有專攻智車載領域的思必馳等,都號稱識別率超過95%,但這些都是理想情況下的資料,實際環境中,由於環境的干擾等因素,會影響識別正確率。例如在車內環境中,空調風量、車內人聲、風噪、胎噪,說話人口音、方言,多人聲等,都會讓識別率打折扣。這是整個語音互動的第一個環節,目前不少智慧機器人在這個環節就讓使用者產生挫敗感,這是入口,要讓使用者從一開始互動就感到快樂。
聽,就像人的耳朵,這個環節沒做好,拾音不正確,甚至不能拾音,那就等於人失聰。
那麼,要讓機器能聽清、聽正確,就得從源頭開始做文章,這樣才能保證為下一步能的語義理解提供乾淨的輸入。
語音識別流程
首先,從最前端來說,需要至少雙麥克風結合專門的DSP降噪晶片才能實現回聲消除、降噪、聲源定位的功能。獲得相對乾淨的語音訊號後,就需要語音識別軟體進行語音到文字的轉換。語音識別,從李開復提出的基於統計的無特定人語音識別開始,到現階段的基於深度學習的方案,都早已達到商用級別。
而語音究竟如何變成文字?根據吳軍《數學之美》的介紹,以中文語音識別為例子,可以簡單理解為,語音經過一些列訊號處理後,透過聲學模型,把語音對映成對應的拼音序列,再透過語言模型,把拼音序列,轉換為文字序列。語音識別系統經過大量標註預料的訓練,能得到當前語音對應的最大機率拼音序列,同樣也能得到當前拼音序列對應的最大機率的文字序列。
理解,就是聽到使用者語音,並識別為文字後,能正確理解使用者表達的真實意圖。目前各大廠商的語音識別,早已達到商用標準,但語義理解則還有大的進步空間,是整個智慧語音互動中掉隊的一環。
雖然是車載環境,但其實是一個開放域,就是說,在車上使用者有可能問各種各樣的問題,例如路況、天氣、聽歌、導航、控制車內裝置、閒聊等。由於中文的複雜性,有些問題甚至是人也難以理解,就算目前備受追捧的深度學習,在語義理解領域也還沒關鍵性突破,所以制約了語音互動的發展。目前各種智慧音箱,智慧助手,更多的是在特定領域的任務型對話機器人。
那麼對於特定領域,機器怎麼能正確識別到使用者的真實意圖呢?目前效果比較好的都是透過深度學習的方法對使用者的話進行處理。簡單來說,分為兩個步驟,分別是:
領域識別:例如使用者說“今天天氣怎麼樣”,這是屬於天氣領域的問題。
意圖識別及引數提取:上面問天氣的例子,使用者的真正的意圖,是讓機器人告知其今天的天氣情況。其中隱含的引數有,日期(今天),地點(當前城市)
機器人識別到使用者話語的領域、意圖,及相應引數後,就可以進行具體日期的天氣資料獲取,並返回展示給使用者。
表達,則是聽清、理解正確後,怎麼把結果展示給使用者。通常包括UI互動、展示方式,以及語音合成(TTS,Text to Speech)。由於目前業界語義理解能力的侷限,提高使用者體驗的更合理方式應該從互動方式上入手。雖然傳統的GUI互動方式發展已經很成熟,從介面元件排布,字型字號,甚至顏色風格都有相應的成熟案例及標準,但CUI(Conversation User Interface對話使用者介面,也有稱為DUI、VUI)則是一個嶄新的領域,沒有現成的案例可以參考,更多的需要摸索和試錯。此外,智慧,還體現在機器不只是被動接受使用者指令,還可以適當時候主動詢問使用者。例如,今天下暴雨了,系統判斷常走的路線會塞車,則主動建議使用者選擇另外一條順暢的路線。你責罵它的時候,它可以透過介面、燈光、聲音等表達自己的情感。這樣使用者才覺得和自己交流的不是生硬冷冰冰的機器,而是有自我感受的助手。目前的智慧語音產品,需要等一方說完,一方才能開始說話,或者用特定的打斷詞中斷機器說話後,才能進行自己命令的表達。這與真實世界的對話方式是非常不同的,這也是目前語音互動讓人覺得笨的原因之一。
結語:
一個語言互動系統,要稱得上智慧,語音合成的效果也顯得很重要。目前大多數語音合成,都有比較明顯的機械感,例如多音字發音不準,朗讀平直,沒有抑揚頓挫的情感,不會根據使用者的情緒調整回覆的音量、音調、音色等,讓使用者覺得是在跟一個機器在對話。與此相對的,智慧的TTS應該是有情感的,能根據語境調整文字的朗讀,而不是隻有一個音調,能流利的、抑揚頓挫的表達。目前已經有廠商提供多種情感的TTS服務,而在今年5月的Google I/O大會上釋出的Google Duplex技術,驚豔了大片同行,其中的全雙工語音互動,非常接近真實的對話場景,其中的語音合成,也已經達到以假亂真的程度,有興趣的同學自行搜尋。
總的看來,雖然目前語音互動還存在諸多不足,但不可否認的是,它是未來發展的趨勢。國內外眾多巨頭都跳進這個領域,企圖拿到語音互動流量入口的船票。再給點時間,或許三五年後,很多日常事情,談笑間便可解決。