sponsored links

Meta AI連發三篇Textless NLP論文:語音生成的終極答案?

編輯:LRS

【新智元導讀】AI語音生成的特點就是呆板,沒有情緒的起伏。最近Meta AI連發了三篇Textless NLP的論文,不僅開源了textlesslib庫,還展示了AI對話在語音情感轉換的驚人能力!

在日常交流的時候,人們往往會使用一些「非語言」的訊號,比如語調、情感表達、停頓、口音、節奏等來強化對話互動的效果。

像開心、憤怒、失落、睏倦時說同一句話,雖然內容都一樣,但聽起來的感覺肯定是非常不同的,而AI的發聲則比較死板。

Meta AI連發三篇Textless NLP論文:語音生成的終極答案?

目前AI語音生成系統大部分還是根據書面文字來學習發聲,也就是說,模型只能知道說話的內容,卻不知道人類以何種語速、情感來說,對於文字之外富有表現力的語音訊號根本捕捉不到。

所以AI雖然能當主持人播新聞,但在一些特殊的應用場景裡,比如小品、相聲、脫口秀這些語言藝術領域,人工智慧還沒法取代人類來說話。

Meta AI連發三篇Textless NLP論文:語音生成的終極答案?

Meta AI去年推出了一個突破性的自然語言處理模型GSLM,打破了傳統模型對文字的依賴。

GSLM可以透過直接處理原始的音訊訊號來發現結構化的內容,無需使用任何人工標籤或文字,就像人學語言的過程一樣。GSLM能夠讓NLP模型捕捉到口頭語言的表現力,也可以作為下游應用的一種預訓練形式,或者作為一種生成工具,從給定的輸入音訊提示中生成後續音訊。

Meta AI連發三篇Textless NLP論文:語音生成的終極答案?

最近,Meta基於GSLM連發三篇論文,朝著更有表現力的NLP模型向前走了一大步。

開源textlesslib

釋出了一個開源的Textless Python庫,機器學習開發人員可以更快地在GSLM元件(編碼器,語言模型,解碼器)上進行實驗。

Meta AI連發三篇Textless NLP論文:語音生成的終極答案?

論文連結:https://arxiv.org/pdf/2202.07359.pdf

程式碼連結:https://github.com/facebookresearch/textlesslib

Textless NLP是一個活躍的研究領域,旨在使NLP相關的技術和工具可以直接用於口語。透過使用自監督學習的離散語音表徵,Textless NLP技術能夠在那些沒有書面形式的語言上或在基於文字的方法無法獲得的口語資訊中開發出更多有趣的NLP應用。

Meta開源的textlesslib是一個旨在促進無文字NLP研究的庫。該庫的目標是加快研究週期,並降低初學者的學習曲線。庫中提供高度可配置的、現成的可用工具,將語音編碼為離散值序列,並提供工具將這種流解碼迴音頻領域。

語音情感轉換

對於一些表達性的發聲,比如笑聲、哈欠和哭聲,研究人員開發的模型已經能夠捕捉到這些訊號了。這些表達方式對於以人的方式理解互動的背景至關重要,模型能夠辨別出那些有可能傳達關於他們的交流意圖或他們試圖傳達的情感的細微差別,比如是諷刺、煩躁還是無聊等等。

Meta AI連發三篇Textless NLP論文:語音生成的終極答案?

論文連結:https://arxiv.org/pdf/2111.07402.pdf

演示連結:https://speechbot.github.io/emotion/

語音情感轉換(Speech Emotion Conversion)是指在保留詞彙內容和說話人身份的情況下修改語音語料的可感知情感的任務。在這篇論文中,研究人員把情感轉換的問題作為一項口語翻譯任務,將語音分解成離散的、不相干的,由內容單元、音調(f0)、說話人和情緒組成的學習表徵。

模型先透過將內容單元翻譯成目標情感來修改語音內容,然後根據這些單元來預測聲音特徵,最後透過將預測的表徵送入一個神經聲碼器來生成語音波形。

這種正規化使得模型不止能發現訊號的頻譜和引數變化,還可以對非語言發聲進行建模,如插入笑聲、消除哈欠等。論文在客觀上和主觀上證明了所提出的方法在感知情感和音訊質量方面優於基線。實驗部分嚴格評估了這樣一個複雜系統的所有組成部分,並以廣泛的模型分析和消融研究作為結論,以更好地強調擬議方法的架構選擇、優勢和劣勢。

Meta AI連發三篇Textless NLP論文:語音生成的終極答案?

比如在一個包含五種情緒表達方式(中立、憤怒、娛樂、睏倦或厭惡)的情緒轉換任務中,模型需要根據輸入音訊轉換到目標情緒,可以看到整個流程就相當於是一個端到端的序列翻譯問題,所以插入、刪除、替換一些非語言的音訊訊號來轉換情感就會更容易。

經過實驗評估可以看到,提出的模型與以往最佳情感語音轉換模型相比,取得了極大的質量提升。事實上,結果與原始音訊的質量非常接近(圖表中以淺綠色為原始音訊)。

Meta AI連發三篇Textless NLP論文:語音生成的終極答案?

有情感的AI對話

Meta AI建立了一個可以讓兩個人工智慧agent之間自發的、實時的閒聊模型,每個agent的行為因素,如偶爾的重疊或停頓都很真實,這對建立像虛擬助手這樣的應用場景來說很重要,可以讓AI更好地理解細微的社交線索和訊號,比如能夠捕捉到與人聊天時的細微的積極或消極反饋。

Meta AI連發三篇Textless NLP論文:語音生成的終極答案?

論文連結:https://arxiv.org/pdf/2203.16502.pdf

演示連結:https://speechbot.github.io/dgslm/

文中提出的dGSLM模型是第一個能夠生成自然口語對話音訊樣本的Textless模型。模型的開發上利用了最近在無監督口語單元發現方面的工作,加上一個帶有交叉注意力的雙塔Transformer架構,在2000小時的雙通道原始對話音訊(Fisher資料集)上訓練,沒有任何文字或標籤資料。dGSLM能夠在兩個通道中同時產生語音、笑聲和其他副語言訊號,讓談話的轉折非常自然。

Meta AI連發三篇Textless NLP論文:語音生成的終極答案?

顛覆傳統NLP

在不久的將來,基於Textless NLP技術構建的下游應用將會呈井噴之勢,由於模型訓練既不需要資源密集型的文字標籤,也不需要自動語音識別系統(ASR),模型可以直接透過音訊訊號進行問答。Meta AI的研究人員認為語音中的親和力可以幫助更好地解析一個句子,這反過來又促進了對意圖的理解,能夠提高問題回答的效能。

其中一個應用場景是語音到語音的翻譯,也可以叫做AI翻譯配音(dubbing)。傳統的流暢通常是基於文字來完成的,需要先將音訊轉換為文字,執行翻譯,再將文字轉換為音訊訊號。

比如大火的「魷魚遊戲」多語言版本就用到了這一技術。

Meta AI連發三篇Textless NLP論文:語音生成的終極答案?

但流程太複雜會使得整個系統變得難以訓練,也會丟掉一些口頭語言的表現力,不僅是因為語調和非語言表達在文字中丟失,還因為語言模型在文字中的訓練缺少了這些訊號處理模組。

而自監督的語音表示方法能夠從原始音訊中學習離散的單元,可以消除對文字的依賴,研究人員認為Textless NLP可以勝過傳統的複合系統(ASR+NLP),也有可能整合非語言發聲和聲調資訊,在音素之上傳達豐富的語義和語用資訊,而這些資訊通常在文字中無法獲得。

隨著世界變得更加數字化,元宇宙中也包含越來越多由人工智慧驅動的應用程式,這些NPC可以創造新的體驗。而這種全新體驗不止侷限於文字的交流,未來將會走向更流暢的互動方式,如語音和手勢等。

Meta AI連發三篇Textless NLP論文:語音生成的終極答案?

所有這些使用表徵和自我監督學習的進步都有可能幫助研究人員擺脫傳統的基於文字的模型,建立更自然、更有吸引力的未來人工智慧系統。

除了缺乏表現力之外,傳統的NLP應用,依靠大量的文字資源,但在世界上只有少數幾種語言有如此大規模的標註資料。

從長遠來看,相信Textless NLP系統的進步也將有助於使人工智慧對更多人具有包容性,特別是對於那些講沒有標準化書寫系統的語言和方言的人,如方言阿拉伯語或瑞士德語。

Meta AI連發三篇Textless NLP論文:語音生成的終極答案?

參考資料:

https://ai.facebook.com/blog/generating-chit-chat-including-laughs-yawns-ums-and-other-nonverbal-cues-from-raw-audio

分類: 情感
時間: 2022-04-09

相關文章

澳反對黨領袖黃英賢質疑政府外交政策:有澳大利亞這樣的朋友,誰還需要敵人?

澳反對黨領袖黃英賢質疑政府外交政策:有澳大利亞這樣的朋友,誰還需要敵人?
[文/觀察者網 熊超然]美英澳三國組建全新印太安全聯盟"AUKUS"並達成"核潛艇建造協議",讓法國感覺被"背後插刀",也讓亞太多國擔心核擴 ...

58歲單身老漢求親被拒,轉而向對方女兒求婚,女方竟然還同意了

58歲單身老漢求親被拒,轉而向對方女兒求婚,女方竟然還同意了
在印度尼西亞,一對夫妻的愛情故事引發了極大的爭議.因為在這段關係中,男方比女方大了39歲,但女方卻絲毫不介意,還稱年齡差距並不妨礙他們的幸福生活. 這名女子名為艾拉·法齊拉(Ira Fazillah) ...

把對方誇成花,你就會獲得對方的好感,這是溝通得以順暢的第一步

把對方誇成花,你就會獲得對方的好感,這是溝通得以順暢的第一步
接9月10日發的<如何與人溝通?> 一.學會讚美. 在講述這個問題之前,我們先做一個遊戲:有5種動物:老虎.大象.猴子.狗.孔雀,你到一個從未去過的原始森林探險,帶著這5種動物,四周環境很 ...

加更繼續,小八卦
1 楊紫現在學乖了,合作男演員之前都會提前問清楚對方的背景,以免連累她的劇沒辦法播出,現在她也不太敢和流量小生合作. 2 張譯經常跟女演員說一些顏色笑話,曾公開在劇組議論某個女藝人胸部有沒有隆過這類的 ...

民間故事:樵夫找朋友討債,發現對方已死,到墳頭燒欠條遇到驚喜

民間故事:樵夫找朋友討債,發現對方已死,到墳頭燒欠條遇到驚喜
故事發生在明朝萬曆年間,有個樵夫去找朋友討債,發現朋友已死,到朋友墳頭燒欠條時遇到驚喜. 大同府西邊三十里處有一個無名的小山村,村裡民風淳樸,生活安定,村民們靠山吃山,大多做了藥農獵戶和樵夫,日子雖然 ...

陶瓷大板爆火朋友圈,你還不知道它是什麼?6大優勢足以代替瓷磚

陶瓷大板爆火朋友圈,你還不知道它是什麼?6大優勢足以代替瓷磚
陶瓷大板這種新型的裝修材料,從去年在我朋友圈裡火到了今年,好多朋友曬自家新房裝修,用的就是陶瓷大板,可還是有人會問,陶瓷大板是什麼?陶瓷大板最亮眼的優點就是"大",不僅用於牆地面的 ...

阿司匹林防血栓,70歲以上還能吃嗎?這部分朋友,不吃或有大風險

阿司匹林防血栓,70歲以上還能吃嗎?這部分朋友,不吃或有大風險
阿司匹林雖然是一個上市百年的老牌藥物,但由於其臨床應用範圍的不斷擴充套件,到現在為止,特別是在心血管疾病預防領域,阿司匹林仍然是一個重要的基礎藥物.對於抵抗血小板聚集,預防動脈粥樣硬化性心血管疾病風險 ...

原來華為手機長按2秒,還能開啟5個實用功能,幾千塊手機沒白買

原來華為手機長按2秒,還能開啟5個實用功能,幾千塊手機沒白買
原來華為手機長按2秒,還能開啟5個實用功能,幾千塊手機沒白買 手機上有很多好用的功能,華為手機也不例外. 這裡就來分享下,華為手機長按2秒,可以開啟的5個實用功能,看完之後,讓你深刻地感受到,幾千塊錢 ...

水滸傳高俅發跡隨筆 | 高俅太尉路上的朋友圈

水滸傳高俅發跡隨筆 | 高俅太尉路上的朋友圈
我們知道<水滸傳>裡的高俅是一個主要人物,我們在看這部書或影視作品的時候不免對高俅是恨之入骨,真的想捶爆他. 高俅:就想看你那捶不著我,還跳腳的樣子-- 我們先看看高俅的身世是怎麼樣的-- ...

養生專家:50歲後,做到三不要,三不急,三不宜,開啟健康養生

養生專家:50歲後,做到三不要,三不急,三不宜,開啟健康養生
50歲後,如何避免衰老?做好三不要,三不急,三不宜,開啟健康養生 人過50歲,就是"年過半百",步入老年人的行列了,但是按照醫學上的人群劃分,50歲頂多算是中年人階段.但是這個階段 ...

張靈甫開槍射殺二太,還曾2次對妻動殺心,四太卻為他守寡70餘年

張靈甫開槍射殺二太,還曾2次對妻動殺心,四太卻為他守寡70餘年
1936年的一天,張靈甫和二太太吳海蘭從西安城回老家大東村,傭人王生文拿著臉盆去門口的大缸打水給兩人洗臉,王生文正舀著水,突然聽到後院傳來一聲巨響,但她沒有停下手中的動作. 隨後,王生文端著一盆水往後 ...

“鬼腳七”熊欣欣:一個月掙10年薪資,娶小3歲嬌妻,還進好萊塢

“鬼腳七”熊欣欣:一個月掙10年薪資,娶小3歲嬌妻,還進好萊塢
說到熊欣欣,可能大家不一定熟知,但是在上個世紀90年代,他是許多港圈明星拍動作片必不可少的替身. 但相信大家看過1993年的<黃飛鴻之獅王爭霸>這部電影,一定會想起他. 熊欣欣在這部電影裡 ...

我借錢不還的親戚給我上了一課,借不借的難題,怎麼攻破?

我借錢不還的親戚給我上了一課,借不借的難題,怎麼攻破?
借錢的都是大爺 因自小是家中目前為止唯一的大學生,在農村老家人的眼裡大學生意味著可以在大城市混得如魚得水,在做一些事情起來也會相當容易,比如他們認為在大城市裡工作的人就是在城裡撿錢,熟不知實際的真相是 ...

幸好,一切都還來得及

幸好,一切都還來得及
01 吳玲無意間發現關山出軌了. 那天,她去看望鄉下的姨媽,車路過安貞醫院時,發現前方一個東張西望的男人看起來很像是關山. 吳玲再定睛一看,確認無疑,他來這幹嘛來了? 納悶間,只見他反過頭牽著身邊一個 ...

12星座誰最有可能挖好朋友的牆角

12星座誰最有可能挖好朋友的牆角
俗話說得好"兔子不吃窩邊草",可是有些星座,就是忍不住想試試"窩邊草"的味道,對挖好朋友的"牆腳"情有獨鍾!人以類聚,好友的口味大多相同,被 ...

借錢給好朋友後,我徹底把她得罪了

借錢給好朋友後,我徹底把她得罪了
李開復在他的書中寫過他的一個好朋友,他們是大學室友,有一年兩個人放假留在學校,為了節約開支和時間,他們買來了一桶乳酪和麵粉做了一堆蛋糕. 他們很高興想出了節省的妙招,結果吃了一週兩人一提到蛋糕就想吐. ...

請問朋友去世了,微信要刪嗎?

請問朋友去世了,微信要刪嗎?
(網友問題1)請問朋友去世了,微信要刪嗎? 不會刪除,活著是我的朋友,死了也是我的朋友,雖然以後不能聊天了,但是想他的時候可以看看微信,不能忘記他. 我會陪他聊啊!不就是鬼嗎?有什麼好怕的,不但要聊, ...

中國乒乓球全運會正式開始 廣東隊可能要翻車 劉詩雯竟然還沒退役?

中國乒乓球全運會正式開始 廣東隊可能要翻車 劉詩雯竟然還沒退役?
北京時間9月17日,全運會女團小組賽,老將劉詩雯迎來首秀,面對小將孫嘉藝,劉詩雯還是以3:0北京時間9月17日,全運會女團小組賽,老將劉詩雯迎來首秀,面對小將孫嘉藝,劉詩雯還是以3:0輕鬆獲勝,儘管手 ...

未來10天,人緣不錯的4個星座,朋友越來越多,用真誠贏得信賴

未來10天,人緣不錯的4個星座,朋友越來越多,用真誠贏得信賴
未來10天,人緣不錯的4個星座,朋友越來越多,用真誠贏得信賴 文/無計聊星座 人的生命是有限的,可是為人民服務是無限的,我要把有限的生命投入到無限的為人民服務之中去! --雷鋒 這4個星座的人緣一直都 ...

幫女友養7年孩子並還1900房貸,大叔被甩後要退錢遭拒:你情我願

幫女友養7年孩子並還1900房貸,大叔被甩後要退錢遭拒:你情我願
在感情中,"付出"二字似乎成了男人的專有標籤,男人必須要對女人有多少付出才能證明一個男人,可是當我們形成這種定勢思維後,卻忘了感情並非這麼簡單,因為感情是一場互動的遊戲,缺了誰的付 ...