近日,內蒙古自治區蒙古文資訊處理技術重點實驗室(內蒙古大學蒙古文智慧資訊處理技術國家地方聯合工程研究中心)有6篇論文被2022年IEEE音訊、語音與訊號處理國際會議(2022 IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2022)接收錄用。此次被錄用的論文涉及智慧語音互動領域的語音增強、語音鑑偽、語音識別等研究領域。
ICASSP是由IEEE電氣電子工程師學會主辦的訊號處理領域的頂級國際會議,是IEEE下語音方向最具代表性、最高榮譽的會議,在國際上享有盛譽並具有廣泛的學術影響力。
內蒙古自治區蒙古文資訊處理技術重點實驗室(以下簡稱重點實驗室)高光來教授、張學良教授、飛龍教授帶領團隊多年來針對語音識別、語音合成、語音增強與分離等領域進行了深入的研究,提出了一系列創新性方法,在TASLP、ICASSP等語音訊號處理領域國際頂級期刊和會議發表論文二十多篇,並且研發的蒙古語語音識別、蒙古語語音合成和語音增強等智慧系統已實際落地應用,對國家和自治區智慧語音產業發展起到了積極推動作用。
近幾年,該重點實驗室不斷強化能力建設,在科技創新、產學研結合和人才培養方面取得了一系列可喜的成績,為我區乃至全國多語言智慧資訊處理、大資料雲計算服務提供了技術支撐。該科研團隊引進和培養了張懷文研究員(駿馬計劃B1崗)、劉瑞研究員(駿馬計劃B1崗)、張暉副教授等一批優秀的年輕教師,併成為了重點實驗室核心骨幹力量。目前,重點實驗室專業技術人員29人,其中教授10人、研究員2人,副教授7人、副研究員1人、博士生導師7人,27人具有博士學位,具有層次高、國際化和年輕化的特點。
附
論文名稱及摘要
01 《基於對齊學習單步解碼的非自迴歸準確快速語音識別方法》
本文提出一種基於對齊學習的非自迴歸Transformer(AL-NAT)語音識別方法。受端到端模型中編碼器CTC的輸出和目標序列具有單調相關性這一事實的啟發。我們將編碼器CTC的輸出作為解碼器的輸入,並定義了一種對齊損失函式用於最小化該輸入和目標序列之間的對齊成本矩陣。我們的方法不需要長度預測機制,在識別準確率和解碼速度方面相比已有的NAT模型取得了顯著提升。此外,為了學習上下文知識以提高識別準確率,我們進一步在編碼器和解碼器端分別增加了輕量級3-gram語言模型。實驗結果表明,分別在編碼器和解碼器端增加語言模型對識別效能有很大提升。
02 《 一種基於原地卷積神經網路的複數頻譜對映聲學回聲消除方法》
近年來,深度學習技術被引入到聲學回聲消除(AEC)中,並取得了顯著的效果。然而對於基於深度學習方法的AEC來說,最重要的問題是在多樣性場景下模型的泛化能力。與大多數處理整個頻段的方法不同,本文提出了用於端到端AEC的原地卷積遞迴神經網路(ICRN),它利用原地卷積和通道級的時間建模來確保近端訊號資訊得到保留。此外,本文采用複數頻譜對映與多工學習策略,獲得更好的泛化能力。在多個不匹配的場景下進行的實驗表明,所提出的方法優於以前的方法。
03 《DRC-NET:用於語音去混響的密集連線迴圈卷積神經網路》
基於作者之前在時頻域上使用Inplace CRN模型對每個頻率點進行單獨處理得到的顯著效能提升。在本文中,該方法將單頻點特徵作為基本的處理單元,這使得模型可以統一RNN在時頻域中對頻率維度和時間維度的處理方式。在此基礎上,該方法將卷積神經網路(CNN)和RNN緊密結合起來作為一種基本的時頻域處理單元,最終得到了密連迴圈卷積神經網路(DRC-NET)。DRC-NET有效融合了RNN的無限衝擊響應特性和CNN的有限衝擊響應特性,使得效能得到了顯著提升。實驗結果表明,無論是非因果版本的DRC-NET還是因果版本的DRC-NET,語音去混響的效能都優於SOTA基線模型。
04 《使用奇異點檢測特徵的深度音訊(拼接)偽造檢測》
本文針對偽造語音中的半真半假音訊鑑別提出了一種利用高頻奇異性檢測特徵和序列資訊進行音訊鑑偽的方法,以彌補對於半真半假音訊檢測方法的缺失。給定當前待檢測的音訊,該方法首先對音訊進行小波分解,並提取分解後的高頻分量進行重構,提取出音訊中的高頻奇異點以及突變特徵。然後利用長短時記憶模組(LSTM)進行序列建模,進行初步的奇異點上下文建模以及定位。為了消除音訊本身存在的固有奇異點干擾,該方法組合了線性頻率倒譜系數(LFCC)作為補充。該方法不僅實現了對於半真半假音訊資料的鑑別,同時也對偽造的音訊片段進行定位。所提方法為一種新型的攻擊方式——半真半假音訊提供了一種有效方法,且實驗結果表明,相對於已有鑑偽方法,該方法在精度和魯棒性方面都有了很大的提高。
05 《一種緩解有監督單通道語音增強系統中損失-度量不匹配問題的演算法》
在本文中,作者研究了有監督的單通道語音增強系統的損失-度量不匹配問題。大多數現有的語音增強系統的效能並不令人滿意,因為它們根據經驗選擇的損失函式與不可微的評估指標存在語義上的差距,又稱損失-度量不匹配問題。在這項工作中,作者提出了一種簡單而有效的方法,為真實的前端語音增強場景生成合適的損失函式,以緩解損失-度量不匹配的問題。具體來說,該方法採用了函式平滑技術,透過一組基函式及其線性組合來逼近不可微的評價指標。實驗結果表明,由該方法生成的損失函式能夠幫助語音增強系統在大多數評價指標上取得更顯著的效能。
06 《基於注意力融合的複數域骨傳導和空氣傳導語音增強方法》
骨傳導(BC)麥克風透過將人類頭骨的振動轉換為電訊號來捕獲語音訊號。BC感測器對噪聲不敏感,但頻寬有限。另一方面,傳統或空氣傳導 (AC)麥克風能夠捕獲全頻帶語音,但容易受到背景噪音。我們透過使用執行復雜頻譜對映的卷積迴圈網路結合AC和BC麥克風的優勢。為了更好地利用來自兩種麥克風的訊號,我們採用了基於注意力的融合以及早期融合和晚期融合策略。實驗證明了所提出的方法優於其他最近結合BC和AC訊號的語音增強方法。此外,我們的增強效能明顯優於傳統的語音增強對應物,尤其是在低信噪比場景中。
(來源:自治區科技廳基礎研究處)