近日,全球頂級音訊技術會議 ICASSP 2022 公佈了論文入選名單。網易雲信音訊實驗室論文——《一種針對實時通訊的基於神經網路的嘯叫檢測方法》(A Neural Network-based Howling Detection Method for Real-time Communication Applications)被大會接收,並受邀於今年5月在會議上向學術和工業界做研究報告。
這是網易雲信音訊實驗室創新成果連續兩年受到世界頂級學術會議認可。
ICASSP(International Conference on Acoustics, Speech and Signal Processing)即國際聲學、語音與訊號處理會議,是IEEE訊號處理協會主辦的全球最大、最全面的音訊領域頂級會議,具有權威、廣泛的學界及工業界影響力,在國際上享有盛譽。
隨著AI的迅速發展,深度神經網路在聲音場景分類(ASC, Acoustic Scene Classification)和聲音事件檢測(AED, Acoustic Event Detection)任務中的應用已越來越多,並且明顯優於傳統的訊號處理方法。網易雲信音訊實驗室本次研究則是將AI技術應用於嘯叫檢測中,該論文為AI嘯叫檢測領域在全球範圍內首個公開發表的研究成果。
當揚聲器和話筒之間的聲學耦合產生正反饋時,嘯叫便會產生。傳統的公共廣播系統和助聽器裝置利用傳統的嘯叫功能檢測和抑制嘯叫。然而,實時通訊(RTC)中的傳統嘯叫功能會受到非線性和不確定性的影響,如各種揚聲器/麥克風響應、多種非線性音訊處理、不穩定的網路傳輸抖動、聲學路徑變化和環境影響等。在嘯叫檢測中,使用特定時間-頻率特徵的訊號處理方法對RTC場景是無效的。
雲信音訊實驗室提出了一種基於卷積遞迴神經網路(CRNN)的方法,用於RTC應用中的嘯叫檢測,實現了出色的準確性和低誤報率。該篇文章使用不同的移動裝置收集和標記嘯叫資料集用於模型訓練,並選擇對數梅爾譜作為輸入特徵,實現了 89.46% 的檢測率和 0.40% 的誤報率。 此外,所提出方法的模型大小僅為 121kB,並且已在實時執行的移動裝置中實現。
作為行業內首批音影片 AI 實驗室之一,網易雲信音訊實驗室不斷探索“AI+音訊”前沿技術方向,連續取得業界權威認可。2021年,實驗室在 AI 音訊降噪和 AI 音樂檢測的研究成果被第 50 屆國際噪聲控制工程會議(INTER-NOISE 2021)收錄,自建的國內行業中首個 AI 音樂檢測模型受到了高度關注。本次AI嘯叫檢測成果被 ICASSP 2022接收,再次證明了網易雲信在音訊技術領域的頂尖研究實力。
未來,網易雲信音訊實驗室將持續引領新技術發展方向,並將先進的演算法模型應用於產品和場景中,為全球使用者打造極致聽覺體驗。
-------------------------------------------
(市場有風險,投資交易需謹慎。所涉標的不做任何推薦,據此投資交易,風險自負。)