語音互動是怎麼一回事為你找到了答案

語音互動，特別是全場景語音，是智慧座艙必不可少的其中一部分，對於小鵬而言，全場景語音化身為小P助手，透過OTA升級，不斷提升語音互動的能力和水平，也體現了一臺智慧汽車的未來的可玩空間。

無論是網際網路為時代，還是移動網際網路時代，都是GUI互動為主導，但隨著AI的興起，新的互動方式也隨之熱門起來。完善的智慧互動，應該是多模態的，例如語音互動、手勢互動，甚至透過眼神完成互動。對於當前階段的智慧汽車來說，天生就適合語音、手勢等操作方式，而語音互動則更成熟，讓駕駛員可以雙手不離開方向盤，專注的開車，對安全駕駛來說，這很重要。

目前各大智慧汽車廠商都重點投入到語音互動領域。那麼好的語音互動體驗，體現在哪些地方呢？我認為有3個方面：聽、理解、表達。只有這3方面做好，語音互動系統才算健康。

完整的語音互動流程

聽，就是能聽清楚，聽正確。這包括了硬體方面的回聲消除、降噪，軟體方面的合理的人聲檢測間隔，錄音時長，語音識別模型等。目前主流的語音識別廠商，如國內佔最大份額市場的訊飛，還有在吳恩達加盟後，識別率大幅提升的百度，還有專攻智車載領域的思必馳等，都號稱識別率超過95%，但這些都是理想情況下的資料，實際環境中，由於環境的干擾等因素，會影響識別正確率。例如在車內環境中，空調風量、車內人聲、風噪、胎噪，說話人口音、方言，多人聲等，都會讓識別率打折扣。這是整個語音互動的第一個環節，目前不少智慧機器人在這個環節就讓使用者產生挫敗感，這是入口，要讓使用者從一開始互動就感到快樂。

聽，就像人的耳朵，這個環節沒做好，拾音不正確，甚至不能拾音，那就等於人失聰。

那麼，要讓機器能聽清、聽正確，就得從源頭開始做文章，這樣才能保證為下一步能的語義理解提供乾淨的輸入。

語音識別流程

首先，從最前端來說，需要至少雙麥克風結合專門的DSP降噪晶片才能實現回聲消除、降噪、聲源定位的功能。獲得相對乾淨的語音訊號後，就需要語音識別軟體進行語音到文字的轉換。語音識別，從李開復提出的基於統計的無特定人語音識別開始，到現階段的基於深度學習的方案，都早已達到商用級別。

而語音究竟如何變成文字？根據吳軍《數學之美》的介紹，以中文語音識別為例子，可以簡單理解為，語音經過一些列訊號處理後，透過聲學模型，把語音對映成對應的拼音序列，再透過語言模型，把拼音序列，轉換為文字序列。語音識別系統經過大量標註預料的訓練，能得到當前語音對應的最大機率拼音序列，同樣也能得到當前拼音序列對應的最大機率的文字序列。

理解，就是聽到使用者語音，並識別為文字後，能正確理解使用者表達的真實意圖。目前各大廠商的語音識別，早已達到商用標準，但語義理解則還有大的進步空間，是整個智慧語音互動中掉隊的一環。

雖然是車載環境，但其實是一個開放域，就是說，在車上使用者有可能問各種各樣的問題，例如路況、天氣、聽歌、導航、控制車內裝置、閒聊等。由於中文的複雜性，有些問題甚至是人也難以理解，就算目前備受追捧的深度學習，在語義理解領域也還沒關鍵性突破，所以制約了語音互動的發展。目前各種智慧音箱，智慧助手，更多的是在特定領域的任務型對話機器人。

那麼對於特定領域，機器怎麼能正確識別到使用者的真實意圖呢？目前效果比較好的都是透過深度學習的方法對使用者的話進行處理。簡單來說，分為兩個步驟，分別是：

領域識別：例如使用者說“今天天氣怎麼樣”，這是屬於天氣領域的問題。

意圖識別及引數提取：上面問天氣的例子，使用者的真正的意圖，是讓機器人告知其今天的天氣情況。其中隱含的引數有，日期（今天），地點（當前城市）

機器人識別到使用者話語的領域、意圖，及相應引數後，就可以進行具體日期的天氣資料獲取，並返回展示給使用者。

表達，則是聽清、理解正確後，怎麼把結果展示給使用者。通常包括UI互動、展示方式，以及語音合成（TTS，Text to Speech）。由於目前業界語義理解能力的侷限，提高使用者體驗的更合理方式應該從互動方式上入手。雖然傳統的GUI互動方式發展已經很成熟，從介面元件排布，字型字號，甚至顏色風格都有相應的成熟案例及標準，但CUI（Conversation User Interface對話使用者介面，也有稱為DUI、VUI）則是一個嶄新的領域，沒有現成的案例可以參考，更多的需要摸索和試錯。此外，智慧，還體現在機器不只是被動接受使用者指令，還可以適當時候主動詢問使用者。例如，今天下暴雨了，系統判斷常走的路線會塞車，則主動建議使用者選擇另外一條順暢的路線。你責罵它的時候，它可以透過介面、燈光、聲音等表達自己的情感。這樣使用者才覺得和自己交流的不是生硬冷冰冰的機器，而是有自我感受的助手。目前的智慧語音產品，需要等一方說完，一方才能開始說話，或者用特定的打斷詞中斷機器說話後，才能進行自己命令的表達。這與真實世界的對話方式是非常不同的，這也是目前語音互動讓人覺得笨的原因之一。

結語：

一個語言互動系統，要稱得上智慧，語音合成的效果也顯得很重要。目前大多數語音合成，都有比較明顯的機械感，例如多音字發音不準，朗讀平直，沒有抑揚頓挫的情感，不會根據使用者的情緒調整回覆的音量、音調、音色等，讓使用者覺得是在跟一個機器在對話。與此相對的，智慧的TTS應該是有情感的，能根據語境調整文字的朗讀，而不是隻有一個音調，能流利的、抑揚頓挫的表達。目前已經有廠商提供多種情感的TTS服務，而在今年5月的Google I/O大會上釋出的Google Duplex技術，驚豔了大片同行，其中的全雙工語音互動，非常接近真實的對話場景，其中的語音合成，也已經達到以假亂真的程度，有興趣的同學自行搜尋。

總的看來，雖然目前語音互動還存在諸多不足，但不可否認的是，它是未來發展的趨勢。國內外眾多巨頭都跳進這個領域，企圖拿到語音互動流量入口的船票。再給點時間，或許三五年後，很多日常事情，談笑間便可解決。

分類： 財經

時間： 2022-02-16

語音互動是怎麼一回事為你找到了答案

相關文章

首屆中國新電商大會發布《新電商研究報告》，首次定義“新電商”概念
10月9日,以"新經濟新業態新發展"為主題的首屆中國新電商大會在吉林長春舉行.會上重磅釋出的<新電商研究報告>(以下簡稱<報告>),首次定義了" ...

亞馬遜“封店”，跨境電商如何應對
詹金良/文亞馬遜的封號潮持續之下,跨境電商這門生意正越來越"難"做. 今年5月以來,美國亞馬遜根據<賣家行為準則>等格式條款,凍結了其平臺上的不少中國商家賬戶,隨著亞馬 ...

亞馬遜跨境電商
今年以來,整個亞馬遜行業動盪不安,各種事件和流量不斷持續下滑,讓不少新老賣家焦慮不安.如果沒有這次疫情亞馬遜在2020年估計就內捲了,疫情為跨境電商續命一年,但是不可能持續續命. 現在市場供需失衡,北 ...

2021美國傢俱和床墊電商排行榜：亞馬遜、Wayfair合佔59%
文/Joanne Friedrick 譯/吳姍姍電商在美國零售業的比例在過去10年一直穩步上升.得益於疫情導致的實體零售困難,2020年更是走勢直衝雲霄. 根據Digital Commerce 36 ...

做亞馬遜跨境電商需要多少資金
亞馬遜的二種備貨模式:自發貨與海外倉. FBM: fulfilment by merchant 商家自發貨.FBA: fulfilment by amazon 透過亞馬遜倉庫發貨. 第一部分:我們先聊 ...

亞馬遜和其它跨境電商平臺的對比
很多跨境電商賣家不知道如何選擇銷售平臺,我整理了目前幾大主流電商平臺的發展情況,供大家借鑑: 1.eBay 可以說,eBay是中國跨境電商賣家發源之"根".很多現在我們耳熟能詳的跨 ...

一文讀懂子不語IPO：跨境電商「黑馬」年利潤過億
"截至2020年底,子不語自主設計品牌數量已達151個,自營網站收入佔比大增." 本文為IPO早知道原創作者|蘇打疫情的持續蔓延,在衝擊許多行業發展軌跡的同時,也顛覆著線上的消 ...

“新電商”正深刻參與中國經濟多元變革
來源:新華網新華社長春10月9日電(記者張博宇)9日上午,以"新經濟新業態新發展"為主題的首屆中國新電商大會在吉林省長春市舉行,會上釋出了由國家工業資訊保安發展研究中心等單位 ...

語音互動是怎麼一回事 為你找到了答案

相關文章

首屆中國新電商大會發布《新電商研究報告》，首次定義“新電商”概念 10月9日,以"新經濟 新業態 新發展"為主題的首屆中國新電商大會在吉林長春舉行.會上重磅釋出的<新電商研究報告>(以下簡稱<報告>),首次定義了" ...

亞馬遜“封店”，跨境電商如何應對 詹金良/文亞馬遜的封號潮持續之下,跨境電商這門生意正越來越"難"做. 今年5月以來,美國亞馬遜根據<賣家行為準則>等格式條款,凍結了其平臺上的不少中國商家賬戶,隨著亞馬 ...

2021美國傢俱和床墊電商排行榜：亞馬遜、Wayfair合佔59% 文/Joanne Friedrick 譯/吳姍姍 電商在美國零售業的比例在過去10年一直穩步上升.得益於疫情導致的實體零售困難,2020年更是走勢直衝雲霄. 根據Digital Commerce 36 ...

做亞馬遜跨境電商需要多少資金 亞馬遜的二種備貨模式:自發貨與海外倉. FBM: fulfilment by merchant 商家自發貨.FBA: fulfilment by amazon 透過亞馬遜倉庫發貨. 第一部分:我們先聊 ...

亞馬遜和其它跨境電商平臺的對比 很多跨境電商賣家不知道如何選擇銷售平臺,我整理了目前幾大主流電商平臺的發展情況,供大家借鑑: 1.eBay 可以說,eBay是中國跨境電商賣家發源之"根".很多現在我們耳熟能詳的跨 ...

一文讀懂子不語IPO：跨境電商「黑馬」年利潤過億 "截至2020年底,子不語自主設計品牌數量已達151個,自營網站收入佔比大增." 本文為IPO早知道原創 作者|蘇打 疫情的持續蔓延,在衝擊許多行業發展軌跡的同時,也顛覆著線上的消 ...

語音互動是怎麼一回事為你找到了答案

首屆中國新電商大會發布《新電商研究報告》，首次定義“新電商”概念
10月9日,以"新經濟新業態新發展"為主題的首屆中國新電商大會在吉林長春舉行.會上重磅釋出的<新電商研究報告>(以下簡稱<報告>),首次定義了" ...

亞馬遜“封店”，跨境電商如何應對
詹金良/文亞馬遜的封號潮持續之下,跨境電商這門生意正越來越"難"做. 今年5月以來,美國亞馬遜根據<賣家行為準則>等格式條款,凍結了其平臺上的不少中國商家賬戶,隨著亞馬 ...

2021美國傢俱和床墊電商排行榜：亞馬遜、Wayfair合佔59%
文/Joanne Friedrick 譯/吳姍姍電商在美國零售業的比例在過去10年一直穩步上升.得益於疫情導致的實體零售困難,2020年更是走勢直衝雲霄. 根據Digital Commerce 36 ...

做亞馬遜跨境電商需要多少資金
亞馬遜的二種備貨模式:自發貨與海外倉. FBM: fulfilment by merchant 商家自發貨.FBA: fulfilment by amazon 透過亞馬遜倉庫發貨. 第一部分:我們先聊 ...

亞馬遜和其它跨境電商平臺的對比
很多跨境電商賣家不知道如何選擇銷售平臺,我整理了目前幾大主流電商平臺的發展情況,供大家借鑑: 1.eBay 可以說,eBay是中國跨境電商賣家發源之"根".很多現在我們耳熟能詳的跨 ...

一文讀懂子不語IPO：跨境電商「黑馬」年利潤過億
"截至2020年底,子不語自主設計品牌數量已達151個,自營網站收入佔比大增." 本文為IPO早知道原創作者|蘇打疫情的持續蔓延,在衝擊許多行業發展軌跡的同時,也顛覆著線上的消 ...