sponsored links

語音互動是怎麼一回事 為你找到了答案

語音互動,特別是全場景語音,是智慧座艙必不可少的其中一部分,對於小鵬而言,全場景語音化身為小P助手,透過OTA升級,不斷提升語音互動的能力和水平,也體現了一臺智慧汽車的未來的可玩空間。

無論是網際網路為時代,還是移動網際網路時代,都是GUI互動為主導,但隨著AI的興起,新的互動方式也隨之熱門起來。完善的智慧互動,應該是多模態的,例如語音互動、手勢互動,甚至透過眼神完成互動。對於當前階段的智慧汽車來說,天生就適合語音、手勢等操作方式,而語音互動則更成熟,讓駕駛員可以雙手不離開方向盤,專注的開車,對安全駕駛來說,這很重要。

目前各大智慧汽車廠商都重點投入到語音互動領域。那麼好的語音互動體驗,體現在哪些地方呢?我認為有3個方面:聽、理解、表達。只有這3方面做好,語音互動系統才算健康。

完整的語音互動流程

聽,就是能聽清楚,聽正確。這包括了硬體方面的回聲消除、降噪,軟體方面的合理的人聲檢測間隔,錄音時長,語音識別模型等。目前主流的語音識別廠商,如國內佔最大份額市場的訊飛,還有在吳恩達加盟後,識別率大幅提升的百度,還有專攻智車載領域的思必馳等,都號稱識別率超過95%,但這些都是理想情況下的資料,實際環境中,由於環境的干擾等因素,會影響識別正確率。例如在車內環境中,空調風量、車內人聲、風噪、胎噪,說話人口音、方言,多人聲等,都會讓識別率打折扣。這是整個語音互動的第一個環節,目前不少智慧機器人在這個環節就讓使用者產生挫敗感,這是入口,要讓使用者從一開始互動就感到快樂。

聽,就像人的耳朵,這個環節沒做好,拾音不正確,甚至不能拾音,那就等於人失聰。

那麼,要讓機器能聽清、聽正確,就得從源頭開始做文章,這樣才能保證為下一步能的語義理解提供乾淨的輸入。

語音識別流程

首先,從最前端來說,需要至少雙麥克風結合專門的DSP降噪晶片才能實現回聲消除、降噪、聲源定位的功能。獲得相對乾淨的語音訊號後,就需要語音識別軟體進行語音到文字的轉換。語音識別,從李開復提出的基於統計的無特定人語音識別開始,到現階段的基於深度學習的方案,都早已達到商用級別。

而語音究竟如何變成文字?根據吳軍《數學之美》的介紹,以中文語音識別為例子,可以簡單理解為,語音經過一些列訊號處理後,透過聲學模型,把語音對映成對應的拼音序列,再透過語言模型,把拼音序列,轉換為文字序列。語音識別系統經過大量標註預料的訓練,能得到當前語音對應的最大機率拼音序列,同樣也能得到當前拼音序列對應的最大機率的文字序列。

理解,就是聽到使用者語音,並識別為文字後,能正確理解使用者表達的真實意圖。目前各大廠商的語音識別,早已達到商用標準,但語義理解則還有大的進步空間,是整個智慧語音互動中掉隊的一環。

雖然是車載環境,但其實是一個開放域,就是說,在車上使用者有可能問各種各樣的問題,例如路況、天氣、聽歌、導航、控制車內裝置、閒聊等。由於中文的複雜性,有些問題甚至是人也難以理解,就算目前備受追捧的深度學習,在語義理解領域也還沒關鍵性突破,所以制約了語音互動的發展。目前各種智慧音箱,智慧助手,更多的是在特定領域的任務型對話機器人。

語音互動是怎麼一回事 為你找到了答案

那麼對於特定領域,機器怎麼能正確識別到使用者的真實意圖呢?目前效果比較好的都是透過深度學習的方法對使用者的話進行處理。簡單來說,分為兩個步驟,分別是:

領域識別:例如使用者說“今天天氣怎麼樣”,這是屬於天氣領域的問題。

意圖識別及引數提取:上面問天氣的例子,使用者的真正的意圖,是讓機器人告知其今天的天氣情況。其中隱含的引數有,日期(今天),地點(當前城市)

機器人識別到使用者話語的領域、意圖,及相應引數後,就可以進行具體日期的天氣資料獲取,並返回展示給使用者。

表達,則是聽清、理解正確後,怎麼把結果展示給使用者。通常包括UI互動、展示方式,以及語音合成(TTS,Text to Speech)。由於目前業界語義理解能力的侷限,提高使用者體驗的更合理方式應該從互動方式上入手。雖然傳統的GUI互動方式發展已經很成熟,從介面元件排布,字型字號,甚至顏色風格都有相應的成熟案例及標準,但CUI(Conversation User Interface對話使用者介面,也有稱為DUI、VUI)則是一個嶄新的領域,沒有現成的案例可以參考,更多的需要摸索和試錯。此外,智慧,還體現在機器不只是被動接受使用者指令,還可以適當時候主動詢問使用者。例如,今天下暴雨了,系統判斷常走的路線會塞車,則主動建議使用者選擇另外一條順暢的路線。你責罵它的時候,它可以透過介面、燈光、聲音等表達自己的情感。這樣使用者才覺得和自己交流的不是生硬冷冰冰的機器,而是有自我感受的助手。目前的智慧語音產品,需要等一方說完,一方才能開始說話,或者用特定的打斷詞中斷機器說話後,才能進行自己命令的表達。這與真實世界的對話方式是非常不同的,這也是目前語音互動讓人覺得笨的原因之一。

結語:

一個語言互動系統,要稱得上智慧,語音合成的效果也顯得很重要。目前大多數語音合成,都有比較明顯的機械感,例如多音字發音不準,朗讀平直,沒有抑揚頓挫的情感,不會根據使用者的情緒調整回覆的音量、音調、音色等,讓使用者覺得是在跟一個機器在對話。與此相對的,智慧的TTS應該是有情感的,能根據語境調整文字的朗讀,而不是隻有一個音調,能流利的、抑揚頓挫的表達。目前已經有廠商提供多種情感的TTS服務,而在今年5月的Google I/O大會上釋出的Google Duplex技術,驚豔了大片同行,其中的全雙工語音互動,非常接近真實的對話場景,其中的語音合成,也已經達到以假亂真的程度,有興趣的同學自行搜尋。

總的看來,雖然目前語音互動還存在諸多不足,但不可否認的是,它是未來發展的趨勢。國內外眾多巨頭都跳進這個領域,企圖拿到語音互動流量入口的船票。再給點時間,或許三五年後,很多日常事情,談笑間便可解決。

分類: 財經
時間: 2022-02-16

相關文章

亞馬遜跨境電商的模式選擇
亞馬遜電商平臺有自發貨和FBA,想要做好亞馬遜,要有一個客戶至上的服務態度.我們一起來看看他們的模式吧 一.FBM 自發貨,就是我們自己發貨,在這裡會有一個誤區,以為直接把貨交給物流打包然後發走,物流 ...

首屆中國新電商大會發布《新電商研究報告》,首次定義“新電商”概念
10月9日,以"新經濟 新業態 新發展"為主題的首屆中國新電商大會在吉林長春舉行.會上重磅釋出的<新電商研究報告>(以下簡稱<報告>),首次定義了" ...

亞馬遜“封店”,跨境電商如何應對

亞馬遜“封店”,跨境電商如何應對
詹金良/文亞馬遜的封號潮持續之下,跨境電商這門生意正越來越"難"做. 今年5月以來,美國亞馬遜根據<賣家行為準則>等格式條款,凍結了其平臺上的不少中國商家賬戶,隨著亞馬 ...

亞馬遜大舉關停中國電商風波後,跨境電商自建“站”忙
■ 深圳特區報記者 範京蓉 "最近關於建獨立站的諮詢業務暴增,我們客服都忙不過來了." 一家專門從事跨境電商建站服務的公司海外業務負責人告訴記者. 今年上半年,由於海外疫情加劇,網 ...

亞馬遜封停中國賣家 跨境B2B電商迎來發展新機遇?

亞馬遜封停中國賣家 跨境B2B電商迎來發展新機遇?
來源:中國經營報 跨境電商是當前發展速度最快.潛力最大.帶動作用最強的外貿新業態新模式.本報資料室/圖 亞馬遜封停中國賣家一事正在發生微妙變化,申訴不成功.資金被凍結的中小賣家開始尋找亞馬遜之外的&q ...

90後的我做亞馬遜電商的真實經歷

90後的我做亞馬遜電商的真實經歷
18年的時候自己,選擇了人生中的一條電商路,終於下定決心要做出自己的一番事業,我是從國內的電商,淘寶開始做的,當時我還記得的自己賣的第一個產品是自己家的服裝屬於有自己的貨源,這個讓我佔了很大的優勢. ...

亞馬遜跨境電商
今年以來,整個亞馬遜行業動盪不安,各種事件和流量不斷持續下滑,讓不少新老賣家焦慮不安.如果沒有這次疫情亞馬遜在2020年估計就內捲了,疫情為跨境電商續命一年,但是不可能持續續命. 現在市場供需失衡,北 ...

亞馬遜,一個賺錢的電商平臺
亞馬遜是美國最大的電子商務平臺,全球一共有14個站點,覆蓋了100多個國家,有歐洲站.北美站.日本站.中東站.阿聯酋,澳洲站等.歐洲站包括英法德意西,北美包括加拿大.墨西哥.美國.日本是獨立站,還有澳 ...

2021美國傢俱和床墊電商排行榜:亞馬遜、Wayfair合佔59%

2021美國傢俱和床墊電商排行榜:亞馬遜、Wayfair合佔59%
文/Joanne Friedrick 譯/吳姍姍 電商在美國零售業的比例在過去10年一直穩步上升.得益於疫情導致的實體零售困難,2020年更是走勢直衝雲霄. 根據Digital Commerce 36 ...

做亞馬遜跨境電商需要多少資金

做亞馬遜跨境電商需要多少資金
亞馬遜的二種備貨模式:自發貨與海外倉. FBM: fulfilment by merchant 商家自發貨.FBA: fulfilment by amazon 透過亞馬遜倉庫發貨. 第一部分:我們先聊 ...

跨境電商合規,亞馬遜封店也許不是壞事,品牌建設已成趨勢
1.跨境電商需增強智慧財產權意識 跨境電商需增強智慧財產權意識 亞馬遜對中國賣家大批封號對於中國跨境電商來說是個不小的打擊,但是這次封店潮也並不全是壞事,而是給大家敲了一次警鐘,賣家野蠻生長的時代已經 ...

亞馬遜和其它跨境電商平臺的對比
很多跨境電商賣家不知道如何選擇銷售平臺,我整理了目前幾大主流電商平臺的發展情況,供大家借鑑: 1.eBay 可以說,eBay是中國跨境電商賣家發源之"根".很多現在我們耳熟能詳的跨 ...

亞馬遜聖誕入庫時間提前,TikTok全球職位招募進軍電商平臺
剛闊別國慶假期,九月全心投入"戰鬥",別迷迷糊糊,本週跨境電商要聞大事參看,一手掌握跨境風向標,祝賣家朋友場場爆單! 01 亞馬遜聖誕節最晚入庫時間調整提前 亞馬遜美國站公佈的最晚 ...

我的跨境電商日誌:開單啦!亞馬遜第一單是如何產生的(2)

我的跨境電商日誌:開單啦!亞馬遜第一單是如何產生的(2)
4.圖片處理. 分銷平臺是現成的圖片包,不用操心. 後來自己找產品上傳時就比較麻煩的了.1688平臺的圖片,都很粗糙,而且往往數量也不夠用,然後再到淘寶找同類產品補充圖片.淘寶的圖片又過於花哨. 那就 ...

亞馬遜封殺中國電商,速賣通能否成為救命稻草?關鍵要看菜鳥

亞馬遜封殺中國電商,速賣通能否成為救命稻草?關鍵要看菜鳥
跨境電商行業這幾個月發生了一件大事.全球電商平臺亞馬遜,從4月底開始重手整治平臺上的第三方賣家,中國賣家們這次也遭了災.以至於到了8月份,廣東省商務廳都派出調研組去深圳了,打算用政府力量來制定措施,幫 ...

我的跨境電商日誌:開單啦!亞馬遜第一單是如何產生的(1)

我的跨境電商日誌:開單啦!亞馬遜第一單是如何產生的(1)
半個多月沒有更新自己的亞馬遜經營情況了,一些朋友問我:是不是黃了? 哈哈! 真沒有. 不更新是因為自己這些天真的很忙,忙到沒有時間能靜下心來認真梳理. 投入超兩萬 先看一下上面的投入.兩萬多了.細心的 ...

跨境電商亞馬遜的開店條件
亞馬遜開店不需要支付保證金,它的全部費用主要包含以下幾點: 1. 亞馬遜店鋪月租費用.這項支出每個店鋪是39.99美金,也有部分是店鋪是亞馬遜全球開店的連結,因此,所有站點加起來的月租費用也是39.9 ...

一文讀懂子不語IPO:跨境電商「黑馬」年利潤過億

一文讀懂子不語IPO:跨境電商「黑馬」年利潤過億
"截至2020年底,子不語自主設計品牌數量已達151個,自營網站收入佔比大增." 本文為IPO早知道原創 作者|蘇打 疫情的持續蔓延,在衝擊許多行業發展軌跡的同時,也顛覆著線上的消 ...

“新電商”正深刻參與中國經濟多元變革
來源:新華網 新華社長春10月9日電(記者張博宇)9日上午,以"新經濟 新業態 新發展"為主題的首屆中國新電商大會在吉林省長春市舉行,會上釋出了由國家工業資訊保安發展研究中心等單位 ...

社交電商的前世今生大揭秘

社交電商的前世今生大揭秘
社交電商是什麼? 網路上主流解釋:社交電商是指透過社交網路平臺,或電商平臺的社交功能,將關注.分享.討論.溝通互動等社交化元素應用到電子商務的購買服務中,以更好地完成交易的過程.這是網際網路大廠總結出 ...