sponsored links

AI 看唇語,在嘈雜場景的語音識別準確率高達75%

出品 | AI科技大本營(ID:rgznai100)

人們透過聆聽和觀察說話者的嘴唇動作來感知言語。

那麼,AI 也可以嗎?

AI 看唇語,在嘈雜場景的語音識別準確率高達75%

事實上,研究表明視覺線索在語言學習中起著關鍵的作用。相比之下,人工智慧語言識別系統主要是建立在音訊上。而且需要大量資料來訓練,通常需要數萬小時的記錄。

為了研究視覺效果,尤其是嘴部動作的鏡頭,是否可以提高語音識別系統的效能。Meta 的研究人員開發了 Audio-Visual Hidden Unit BERT (AV-HuBERT),這是一個透過觀看學習和聽人們說話來理解語言的框架。

Meta 聲稱 AV-HuBERT 比使用相同數量轉錄量的最佳視聽語音識別系統準確率高 75%。此外,該公司表示,AV-HuBERT 使用十分之一的標記資料優於以前最好的視聽語言識別系統,這使得它可能對音影片資料很少的語言具有潛在的用途。

Meta AI 研究科學家 Abdelrahman Mohamed 表示:“在未來,像 AV-HuBERT 這樣的 AI 框架可用於提高語音識別技術在嘈雜的日常條件下的效能,例如,在聚會上或在熙熙攘攘的街頭中進行的互動。智慧手機中的助手、增強現實眼鏡和配備攝像頭的智慧揚聲器,例如 Alexa Echo Show 也可以在這項技術中受益。”

目前,Meta 已將相關程式碼開源到 GitHub。

AV-HuBERT

Meta 並不是第一個將人工智慧應用於讀唇語問題的公司。2016年,牛津大學的研究人員建立了一個系統,該系統在某些測試中的準確率幾乎是經驗豐富的唇讀者的兩倍,並且可以實時地處理影片。2017年,Alphabet 旗下的 DeepMind 在數千小時的電視節目中訓練了一個系統,在測試集上可以正確翻譯約 50%的單詞而沒有錯誤,遠高於人類專家的 12.4%。

但是牛津大學和 DeepMind 的模型,與許多後續的唇讀模型一樣,在它們可以識別的詞彙範圍內受到限制。這些模型還需要與轉錄本配對的資料集才能進行訓練,而且它們無法處理影片中任何揚聲器的音訊。

有點獨特的是, AV-HuBERT 利用了無監督或自我監督的學習。透過監督學習,像 DeepMind 這樣的演算法在標記的示例資料上進行訓練,直到它們可以檢測到示例和特定輸出之間的潛在關係。例如,系統可能會被訓練在顯示柯基的圖片時寫出單詞「dog」。然而,AV-HuBERT 自學對未標記的資料進行分類,處理資料以從其固有結構中學習。

AI 看唇語,在嘈雜場景的語音識別準確率高達75%

AV-HuBERT 也是多模態的,因為它透過一系列的音訊和唇部動作提示來學習感知語言。透過結合說話過程中嘴唇和牙齒的運動等線索以及聽覺資訊,AV-HuBERT 可以捕捉這兩種資料型別之間的細微關聯。

最初的 AV-HuBERT 模型在 30 小時的 TED Talk 影片上進行了訓練,大大少於之前最先進模型的 31,000 小時的訓練時間。但是,儘管在較少的資料上進行了訓練,AV-HuBERT 的單詞錯誤率 (WER)(衡量語音識別效能的指標)在可以看到但聽不到說話者的情況下略好於舊模型的 33.6%,前者為 32.5%。(WER 的計算方法是將錯誤識別的單詞數除以總單詞數;32.5% 轉化為大約每 30 個單詞出現一個錯誤。)在 433 小時的 TED 演講訓練進一步將 AV-HuBERT 的 WER 降低到 28.6%。

一旦 AV-HuBERT 很好地瞭解了資料之間的結構和相關性,研究人員就能夠在未標記的資料上進一步訓練它。上傳到 YouTube 的 2,442 小時名人英語影片,這不僅使 WER 下降到 26.9%,而且 Meta 表示,它表明只需要少量標記資料來訓練特定應用程式(例如,當多人同時說話時)或不同語言的框架。

事實上,Meta 聲稱當背景中播放響亮的音樂或噪音時,AV-HuBERT 在識別一個人的語音方面比純音訊模型好約 50%,當語音和背景噪音同樣響亮時,AV-HuBERT 的 WER 為 3.2%,而之前的最佳多模式模型為 25.5%。

潛在的缺點

在許多方面來看,AV-HuBERT 象徵著 Meta 在用於複雜任務的無監督、多模式技術方面不斷增長的投資。

Meta 表示 AV-HuBERT 可以為開發“低資源”語言的對話模型開闢可能性。該公司建議,AV-HuBERT 還可用於為有語言障礙的人建立語音識別系統,以及檢測深度偽造和為虛擬現實化身生成逼真的嘴唇運動。

在各方面資料上,新方法的變現著實很精彩,但也有學者有一些擔憂。

其中,華盛頓大學的人工智慧倫理學專家Os Keye就提到,對於因患有唐氏綜合徵、中風等疾病而導致面部癱瘓的人群,依賴讀唇的語音識別還有意義嗎?

在微軟和卡內基梅隆大學的一篇論文中,提出了人工智慧公平性研究路線圖,指出類似於 AV-HuBERT 的面部分析系統的某些方面可能不適用於患有唐氏綜合症、軟骨發育不全(損害骨骼生長)和“導致特徵性面部差異的其他條件”等。

Mohamed 強調 AV-HuBERT 只關注唇部區域來捕捉唇部運動,而不是整個面部。他補充說,與大多數 AI 模型類似,AV-HuBERT 的效能將“與訓練資料中不同人群的代表性樣本數量成正比”。

“為了評估我們的方法,我們使用了公開可用的 LRS3 資料集,該資料集由牛津大學研究人員於 2018 年公開提供的 TED Talk 影片組成。由於該資料集不代表殘疾說話者,因此我們沒有預期效能下降的特定百分比,”Mohamed 說。

Meta 表示,它將“繼續在背景噪聲和說話者重疊很常見的日常場景中進行基準測試和開發改進視聽語音識別模型的方法。”

參考連結:

https://venturebeat.com/2022/01/07/meta-claims-its-ai-improves-speech-recognition-quality-by-reading-lips/

分類: 汽車
時間: 2022-01-11

相關文章

新疆電力市場直接交易規模超2000億千瓦時
9月30日,從新疆電力交易中心有限公司獲悉,新疆電力市場直接交易規模累計突破2000億千瓦時,達到2061.53億千瓦時,規模創歷史新高,累計釋放改革紅利157億元,較大促進了新疆電力上下游產業的發展 ...

一臺Mate主機暗示華為佈局企業市場,成為國內企業後盾

一臺Mate主機暗示華為佈局企業市場,成為國內企業後盾
華為推臺式主機MateStation S不是沒道理,中規中矩的灰色設計和小型化的機箱有一個非常適合它的地方--辦公桌:使用國產造已經不是支援國產製造的主要原因了,這裡有更重要的,那就是"資料 ...

面板價格波動促電視企業開拓新市場,套系化關鍵在互聯互通
進入9月,家電行業秋季新品陸續推出.液晶面板價格變動之下,OLED.Mini LED.鐳射電視等新顯示技術迎來發展機遇,隨著消費升級與需求多元化,電競顯示等繼續成為電視企業佈局方向.此外,家電套系化趨 ...

平抑鋰電池需求,鈉電池上位

平抑鋰電池需求,鈉電池上位
國內動力電池龍頭寧德時代,最近動作頻頻. 在中秋節前,寧德時代董事長助理孟祥峰透露,明年將有一條鈉離子電池(下稱鈉電池)產線投入生產.這意味著,寧德時代在開發出適合的鈉電池正負極材料和電解液之後,再一 ...

“家電免拆清洗”市場,真的有“金礦”可挖?

“家電免拆清洗”市場,真的有“金礦”可挖?
文 | 雷科技leitech 凡是安裝了家電的使用者,大多有家電清洗的經歷.相較於自己清洗家電,選擇專業的家電清洗服務會讓人覺得更省心. 隨著家電產品不斷的更新迭代,家電產業結構隨之升級,與之相關的家 ...

動力電池企業正加緊“備貨
來源:蓋世汽車 張北 針對動力電池上游原材料供應問題,國家相關部門釋放了出手統籌的訊號. 9月16日,工業和資訊化部副部長辛國斌在第三屆世界新能源汽車大會上表示,新能源汽車產業發展面臨不少新問題和新挑 ...

兩輪車“換電”風口已至,千億市場空間爆發在即

兩輪車“換電”風口已至,千億市場空間爆發在即
中國的兩輪電動車市場規模非常大,達到千億元級別.據不完全統計,目前中國的兩輪電動車日均騎行大概有7億次,每天有1.2億次左右的充電需求.不過,現在傳統電動兩輪車在充電中有幾個比較明顯的痛點. 首先,安 ...

鋰電池產業鏈全景圖梳理之一——正極材料
鋰電池產業鏈毫無疑問是近兩年最熱門的投資賽道,也是我未來三到五年最為看好的三大賽道之一(其餘兩個賽道是光伏發電和風電).今年以來,先後對光伏發電產業鏈和風電產業鏈進行了系統梳理(風電還有一部分未完成) ...

市場復甦迎來升級新趨勢 餐飲消費有新意有人氣
來源:人民日報 餐廳預訂火爆,飲品店排起長龍,美食街熙熙攘攘--國慶假期,在疫情防控常態化條件下,接觸型消費加快回升,餐飲消費加快恢復. 據統計,今年上半年,餐飲業收入達21712億元,同比增長48. ...

2021年我國鋰電池行業相關政策彙總一覽
來源--觀研報告網 ChinaBaoGao.com 1.行業主管部門及監管體制 中國電池工業協會的職責包括對電池工業的政策提出建議,起草電池工業的發展規劃和電池產品標準,組織有關科研專案和技術改造專案 ...

汽車產業逐漸回暖 2021年後智慧行車記錄儀市場需求攀升

汽車產業逐漸回暖 2021年後智慧行車記錄儀市場需求攀升
汽車產業逐漸回暖 智慧行車記錄儀市場需求攀升 智慧行車記錄儀指的是在車輛行駛過程中起到影像和聲音記錄的裝置.智慧行車記錄儀主要起到維護車主自身合法權益,在遇到事故後方便民警儘快定責的目的.近幾年&qu ...

恆大事件持續發酵,家電企業的經營風險管控也要亡羊補牢

恆大事件持續發酵,家電企業的經營風險管控也要亡羊補牢
與商業機會一樣,風險對於所有產業和企業來說,真的是"無處不在,無時不在".早在五六年前,家電圈就在一直呼籲並提醒,所有的家電廠商們,特別是那些急於"做大做強"營 ...

被日企壟斷60%市場,中國教師一舉打破壟斷,現年產8萬套供不應求

被日企壟斷60%市場,中國教師一舉打破壟斷,現年產8萬套供不應求
製造機器人的關鍵元件被日本壟斷,中國製造業在該領域常年未能突圍成功,北京一位普通教師卻將日企的壟斷打破,這是一種什麼裝置?這位老師又是如何實現國產化自研的呢? 日企掌控60%國內市場 隨著智慧化技術的 ...

報告:中國新茶飲市場持續增長 減糖、健康是消費新需求

報告:中國新茶飲市場持續增長 減糖、健康是消費新需求
中新網北京9月24日電 記者 杜燕 <2021新茶飲研究報告>(以下簡稱<報告>)在京釋出.報告顯示,2019年底,中國飲品店門店總數約為42.7萬家,2020年底門店數量增至 ...

2021年中國牙刷消毒器市場分析報告-市場現狀與投資潛力研究

2021年中國牙刷消毒器市場分析報告-市場現狀與投資潛力研究
來源--觀研報告網 ChinaBaoGao.com 牙刷消毒器主要是指利用紫外線照射等方式給牙刷消毒的工具, 具有保持牙刷清潔衛生的功能,與傳統的鹽水消毒相比具有殺菌徹底.操作方便的優勢.按照安裝型別 ...

蔚藍鋰芯重啟定增 擬募資不超25億元加碼鋰電池產能
繼9月份終止定增事項後,蔚藍鋰芯(002245)又火速啟動了新一輪非公開發行,持續加碼產能. 10月8日晚間,公司釋出全新的非公開發行預案,擬向包含實控人CHENKAI在內的不超35名特定物件,募資不 ...

一線|“缺芯潮”衝擊波:提車變慢、展車被賣、二手車火爆

一線|“缺芯潮”衝擊波:提車變慢、展車被賣、二手車火爆
<科創板日報>(上海,記者 曾樂)訊,由全球晶片短缺所引發的連鎖反應,正在逐漸顯現. 缺芯危機籠罩下,不少車企出現大規模減產.甚至停產的情況.由於新車供應不足,在"物以稀為貴&q ...

【“兩化一推”在行動】安徽信達家居:馳騁市場政府是靠山

【“兩化一推”在行動】安徽信達家居:馳騁市場政府是靠山
阜南經開區的安徽信達家居有限公司自2017年該企業投產以來,一年一個臺階,實現了產值從當初一千萬元到今年一個億的攀升.安徽信達家居有限公司總經理李明說,歸根結底馳騁市場的動力來自企業的科學運作和政府鼎 ...

未來行業的藍海市場,你能抓得住嗎?

未來行業的藍海市場,你能抓得住嗎?
我們目前所熟知的幾大OTA主要為:攜程.美團旅行.去哪兒.馬蜂窩.驢媽媽.同程藝龍.途牛.相信大家生活中對這些平臺都不陌生.隨著線上移動網際網路的快速發展,旅遊及酒店業線上業務日益增多,線上訂單早已超 ...

iPhone霸佔57%高階市場!華為,小米難當大任

iPhone霸佔57%高階市場!華為,小米難當大任
由於眾所周知的原因,在2020年下半年第三輪禁令生效後,華為晶片的全球供應鏈被完全切斷. 在失去晶片來源和谷歌GMS服務支援後,華為的智慧手機業務急劇惡化.過去,穩步贏得蘋果.偶爾超越三星的手機巨頭迅 ...