sponsored links

騰訊QQ團隊AI音影片降噪演算法揭秘:說什麼都“好聽”

當6億使用者習慣每天透過QQ傳送語音和進行視訊通話,或者在群裡與網友語音接龍完成一場Pia戲,又或是與好友一起派對語音答題的時候,大家可曾想過,在不同場景下始終清晰、流暢的QQ音影片體驗背後,到底是什麼黑科技在支撐這些場景中“聲”與“話”的美好?

今年11月16日召開的谷歌2021開發者大會期間,大會官網更新了一則案例——《TensorFlow助力:AI語音降噪打造QQ音視訊通話新體驗》,作者正是QQ音視訊通話技術團隊。作為谷歌TensorFlow的優秀應用案例,騰訊QQ團隊在該文中詳細揭秘了語音增強技術在QQ音影片功能中的研發與應用。

騰訊QQ團隊AI音影片降噪演算法揭秘:說什麼都“好聽”

藉助TensorFlow,QQ搭建AI降噪模型訓練框架

在如今的應用市場中,音視訊通話功能幾乎已成為APP的標配。2021年10月份AppStore中國區下載榜前100名中,超過70%的APP配備音視訊通話功能。音影片功能的體驗,是衡量一款APP體驗是否優秀的重要指標。

而最佳化音視訊通話質量,降噪演算法是核心技術之一。

目前,主流降噪方案主要有傳統降噪和AI降噪兩種。傳統降噪方法計算量低,具有實時進行語音降噪的優勢,但與此同時,因其基於數學和物理原理進行推導,過程中難免基於人認知的理想先驗假設,這使得傳統降噪對實際場景中頻發的多種類、非平穩噪聲表現不佳。

AI 降噪是最近興起的基於資料驅動的降噪方法,能夠有效的應對各種突發的非平穩噪聲,但前期需要經過大量的資料訓練,以及搭建合適的資料模型作為基礎。而模型在移動端的部署,需要權衡模型大小、降噪效果、CPU 佔用率和記憶體佔用率等多個因素,由此給降噪技術的實現帶來了一定的挑戰。

為解決6億使用者對QQ音影片的龐大需求,騰訊QQ 團隊基於開源TensorFlow機器學習平臺,搭建了 AI 降噪與噪聲場景分類的並行訓練框架,並設計了音訊降噪、音質提升和模型最佳化演算法。

噪聲資料的多樣性是提高降噪模型泛化性的關鍵,因此,在訓練模型時,騰訊QQ團隊透過若干等時長音訊資料的“投餵”和場景訓練,結合合適的資料擴充,進一步提升了模型泛化能力,結合精細化設計的網路結構,能夠讓 AI 降噪模型適應生活中常見的幾百種噪聲,為使用者提供具有 AI 加持的智慧通訊體驗。

同時,騰訊QQ團隊還藉助 TensorFlow Lite 的量化功能減小模型尺寸,在模型的降噪效果基本不受影響的前提下,極大提升了效能優勢併成功部署到產品功能中。

AI 降噪演算法+蒸餾技術模型最佳化,打造實時、高質量的清晰通話體驗

在案例中,騰訊QQ團隊指出,AI降噪演算法包括音訊降噪模組和音質提升模組兩大方面。

騰訊QQ團隊AI音影片降噪演算法揭秘:說什麼都“好聽”

音訊降噪模組主要是透過針對帶噪聲音訊中的乾淨人聲進行建模,再提取出帶噪音頻的頻域特徵,將帶噪聲音訊與乾淨音訊的的頻域特徵進行對比和計算,從而使AI對人聲之外常見的開門聲、鍵盤聲、走路聲等音訊具備更精準的識別能力和降噪處理,從嘈雜環境中剝離出乾淨語音。

騰訊QQ團隊AI音影片降噪演算法揭秘:說什麼都“好聽”

在此基礎上,騰訊QQ團隊又加入了音質提升模組,以平衡降噪幅度,確保噪聲去除的更加乾淨,同時避免導致其它有用的音訊被消音,確保實時降噪過程中“有用的資訊都進來,無用的噪音都隔離”。

當代人生活更加多元,餐廳、咖啡館、車廂、影院以及街道、小區等不同場景,晴天、雨天、颱風天等不同天氣,也都伴生著不同種類的噪聲,也都有可能對使用者的音影片體驗帶來干擾。

為測試AI降噪面向不同場景的深度最佳化能力,騰訊QQ團隊還選取了辦公場景下常見的百種噪聲:鍵盤聲、關門聲、風扇聲等噪音,結合乾淨人聲按照 0dB、5dB、10dB 和 15dB 信噪比製作混合音訊,分別測試原始降噪模型以及採用蒸餾技術提升後的AI-Denoise-student模型的表現。

騰訊QQ團隊AI音影片降噪演算法揭秘:說什麼都“好聽”

測試結果顯示,短時目標清晰度(STOI)與語音質量的感知評估(PESQ)均有所提升,並且隨著降噪量的提升,AI降噪效果的優勢還能進一步凸顯。

騰訊QQ團隊AI音影片降噪演算法揭秘:說什麼都“好聽”

優質的社交功能體驗,往往藏在使用者“看不見”的地方

社交軟體幾乎佔據了當代人使用手機的大半時間,它不僅是人們日常交往中至關重要的工具,同時也緊密關係著使用者體驗與社交質量。

而在每一條文字或語音資訊的背後,在每一通音訊或視訊通話的背後,都有來自無數環節的技術支援,每一個環節的優劣,也都關係著使用者體驗的好壞——用一句比較流行的話來說,就是“用盡了全身力氣,才能顯得毫不費力”。

騰訊QQ團隊基於TensorFlow研發的降噪技術,能夠透過AI演算法帶來智慧的降噪功能和清晰、乾淨的音影片體驗,對於行業難點之一的音訊降噪同時保證音質效果,也有了針對性的最佳化方案,對語音質量和視訊通話帶來更好的技術保障。

騰訊QQ一直專注社交與溝通,致力於提供優質的社交體驗。許多音影片相關的功能如趣味變聲、語音暫停等功能都率先出現在QQ中。這些功能也受到了年輕人的普遍喜愛。據悉,騰訊QQ未來還將在AI基礎演算法、模型方面加強研究,拓展更多元的社交應用場景。

附錄:

TensorFlow 助力:AI 語音降噪打造 QQ 音視訊通話新體驗

https://mp.weixin.qq.com/s/F_QrRFPiEzG3rdyxU_nK2w

分類: 軍事
時間: 2021-11-16

相關文章

賈平凹《暫坐》:在利益面前,再好的姐妹關係也猶如塑膠,很現實
眾所周知,路遙.陳忠實以及賈平凹被稱為陝西作家"三駕馬車",在80年代,陝西文學在文壇上就佔據了一席之地,路遙寫出了<平凡的世界>,陳忠實寫出一部洋洋灑灑近50萬字的& ...

農村土地真的就比親情重要嗎,在利益面前真的就沒有情字可言嗎?
由於我家住在靠近城市的不遠地段,後來有開發商就看上了我們這條村,但是家裡人也正是因為這些開發商的到來,而全部鬧掰了,甚至不惜當著爺爺的面,大打出手,完全沒有所謂的情親可言. 那時候我還小,但是我都看在 ...

明明是同一個人,演完《玉樓春》又演《周生如故》,簡直天壤之別

明明是同一個人,演完《玉樓春》又演《周生如故》,簡直天壤之別
最近,只要有人問我,有沒有好看的電視劇推薦時,我都會脫口而出:<周生如故>和<一生一世>很值得一看. 是啊,這種潤物細無聲的悲劇總會一點一點侵蝕你的內心,總有一刻,會打破你所有 ...

《進擊的巨人》:現實是一場無法從中醒來的噩夢

《進擊的巨人》:現實是一場無法從中醒來的噩夢
(<進擊的巨人>海報 圖片源於網路) 英麻/文 無論在未來你以何種方式談起<進擊的巨人>,這部動漫都難逃在"神作"與"爛尾"這兩個極端評 ...

二十八宿與上古姓氏----星姓

二十八宿與上古姓氏----星姓
歷史歲月荏苒,八千年以來,有多少歷史故事湮沒在歲月的長河中,留給人們諸多疑問.一些生活中司空見慣的存在的事實,現今也依然如同謎境一樣,仍舊或眾說紛紜,或以訛傳訛,或疑惑重重.今天我們就說一說上古姓氏的 ...

1990年張學良恢復自由,記者問他最佩服誰,他不假思索說出3個人

1990年張學良恢復自由,記者問他最佩服誰,他不假思索說出3個人
提到張學良,很多人可能都並不陌生.他是歷史課本上風度翩翩的黑白老照片,也是眾多人心裡偉大的愛國民族英雄. 毛主席評價他:令中共抱憾的民族功臣.周總理提起他:不論張學良將軍如何,我們中國共產黨評張學良將 ...

一個黑人士兵舉著白旗朝志願軍走來,突然黑人身後的美軍開火了

一個黑人士兵舉著白旗朝志願軍走來,突然黑人身後的美軍開火了
在朝鮮戰爭中,有一支完全由黑人組成的黑人團,就是美軍第二十五師二十四團,這是支很有歷史的一支部隊,卻在朝鮮戰爭中被取消了番號,但是這支部隊背後卻有著很多有意思的故事. 黑人團隸屬的二十五師,是最先入朝 ...

美國能打敗德國和日本,為啥拿不下朝鮮和越南?

美國能打敗德國和日本,為啥拿不下朝鮮和越南?
說美軍是目前世界上最為強大的武裝力量應該沒有人會懷疑.今天的人們對美軍的印象大多源自於上個世紀末的海灣戰爭與科索沃戰爭,以及本世紀初的伊拉克戰爭.在這些區域性戰爭中,美軍憑藉手中的尖端武器和先進戰法, ...

深度分析,美國人口結構已出現大幅變化,亨廷頓分裂預言或要成真

深度分析,美國人口結構已出現大幅變化,亨廷頓分裂預言或要成真
美國每年都會搞人口普查,2021年的人口普查已於8月份結束,美國媒體也及時向外界透露了普查相關資料,但這次資料足夠讓人大跌眼鏡,美國最擔心的問題或許就要實現. 從這次人口普查的結果來看,美國的人口結構 ...

抗戰勝利76週年丨烽火盧溝橋:永遠不能忘卻的炮聲

抗戰勝利76週年丨烽火盧溝橋:永遠不能忘卻的炮聲
腳下是歷經風雨的凹凸石塊,身旁是目睹歷史風雲的獅雕石刻--站在盧溝橋中央,遠望宛平城.近看曉月湖,84年前的槍炮聲響起之前,一切彷彿如現在這般安靜. 1937年7月7日深夜,日本侵略軍在星光黯淡.萬籟 ...

兒行千里,母擔憂

兒行千里,母擔憂
記得曾經在網上看到過一個段子: 一位百歲老母親顫顫巍巍地掏出糖果,給到自己已經70多歲的女兒.女兒拿到糖果的那一刻,開心得也跟個小孩一樣. 此時,網友紛紛留下了感人的評論: "有媽媽的感覺真 ...

元春挺釵有太多不合理,背後藏著紅樓夢最大的政治秘密

元春挺釵有太多不合理,背後藏著紅樓夢最大的政治秘密
在木石前盟和金玉良緣之間,元春毫無疑問選擇後者.為了挺釵,甚至不惜違背身份,違背禮教,違背孝道. 看似冠冕堂皇的賢德妃,辦起事來卻處處都是禮教漏洞.政治bug.而這一切,都是為了薛寶釵. 元春戲份原本 ...

薩達姆最後6個小時,美國大兵輪番戲謔,對鏡頭留下臨終遺言

薩達姆最後6個小時,美國大兵輪番戲謔,對鏡頭留下臨終遺言
身為一國總統,家財萬貫,為何人生的最後八個月藏身狗洞,最後還被保鏢出賣?被美國宣傳為恐怖分子.世界公敵,為何薩達姆至死堅信自己所為皆是出於正義,甚至懷揣經書趕赴刑場? 離世後伊拉克內戰連連,難民無數, ...

李銀橋離開中南海時,毛主席因不捨淚流滿面,主席為何非要調走他

李銀橋離開中南海時,毛主席因不捨淚流滿面,主席為何非要調走他
"給我支菸!" 1947年,一直凝望著黃河的毛澤東突然伸出兩根指頭,做了要煙的的動作.素來煙癮就比較大的毛澤東,在這緊要關頭,接連抽掉了好幾包. "煙!德勝同志要煙!&q ...

金鑲玉騙局

金鑲玉騙局
金鑲玉,一箇中國人基本都知道的名詞,它的名氣堪比羊脂玉.然而羊脂玉被玩壞了,金鑲玉也好不到那兒去. 如今再看金鑲玉,它有了很多的原罪,對市場來說,它很知名,但對消費者來說,上當的可能更多. 假金鑲玉的 ...

1938年劉湘病逝,妻兒過得如何?兩兒子授銜少將,妻子靠本錢發財

1938年劉湘病逝,妻兒過得如何?兩兒子授銜少將,妻子靠本錢發財
劉湘作為民國時期軍閥,曾一度與閻錫山.李宗仁等人齊名,在亂世裡可謂闖出了自己名堂. 劉湘在前線病逝後,劉家雖然大權旁落,但劉湘的兒女們不僅在兵荒馬亂的歲月生存下來,而且還在海外安居樂業. 而劉家能夠保 ...

聶榮臻向毛主席狀告奸商,52年中央開始徹查,數十萬人被處分

聶榮臻向毛主席狀告奸商,52年中央開始徹查,數十萬人被處分
1951年12月,全國上下浩浩蕩蕩展開了一場運動,在這場運動中,我國不少黨政機關幹部得到了大範圍的清理,幾乎將僅四十萬人被得到了應有的懲治. 全國百姓歡呼雀躍,為這場運動的勝利紛紛拍手稱讚,他們大多揮 ...

《性格論》(74)
第三種性格,也就是常見的自卑的虛榮.我們在前面講過,缺乏整體自信的自卑也只能剩下虛,所以從他們行為的表象上講很難說還有榮的存在,這就是典型的對追求的執行力不自信的虛榮(具體可分為對自我能力條件的不自信 ...

慎獨,你就贏了

慎獨,你就贏了
01 有一個讓人啼笑皆非的故事. 古時候,有一個老人帶著孫子去趕集.老人心疼孫子走路辛苦,就把家裡的驢牽出來,讓孫子騎驢,自己走路. 路人甲說:"這個孫子,真的不孝順.爺爺一大把年紀了,還要 ...

十年中越戰爭:擊斃、俘虜、投誠的越軍最高職軍官都是誰

十年中越戰爭:擊斃、俘虜、投誠的越軍最高職軍官都是誰
十年中越戰爭,炮火和傷亡一直存在,所幸,這場戰爭的最後,以中方的勝利告終. 那麼,在這場戰爭最後的戰績清算中,被中方擊斃.俘虜甚至是自己投誠的越軍最高職軍官都有誰? 在討論這個話題之前,首先我們需要了 ...