機器之心專欄
機器之心編輯部
QQ 瀏覽器「聽書」背後的 StyleTTS 讓合成語音有了情感的溫度。
今年 4 月,QQ 瀏覽器宣佈 「小說頻道」正式變更為 「免費小說」頻道,這意味著閱文平臺旗下的萬千小說將免費供使用者閱讀。網路文學已浮浮沉沉二十餘載,其閱讀方式也隨之幾經改變。
與此同時,科技的發展也在革新著閱讀方式,例如語音合成技術的成熟讓越來越多的讀者選擇聽小說。語音合成技術中,讓聲音富有情感和表現力,一直是一大難點。而 QQ 瀏覽器最近上線的「聽書」功能中,應用騰訊 PCG AI 互動部 StyleTTS 端到端合成框架業內創新技術讓合成語音有了情感的溫度,高保真音色可與真人媲美。
QQ 瀏覽器使用的 StyleTTS 利用精心設計的語音語料庫進行聲學模型和文字處理模型的訓練,得到的模型深度挖掘了語音語言特性,合成的語音清晰、自然、親切、具有高表現力。現階段 QQ 瀏覽器「聽書」功能已上線多種音色,每個音色都有自己的風格,滿足不同人群的閱讀喜好。在最新的一次更新中,QQ 瀏覽器上線了三名作家 AI 音色包,不同尋常的玩法背後是 QQ 瀏覽器為 AI 合成聲音進一步應用落地的嘗試。
端到端聲學模型,實現跨發音人的風格控制合成
其實,語音合成技術一直伴隨著網文的發展,因為它的歷史更加久遠。1939 年貝爾實驗室利用共振峰原理製作的歷史上第一臺電子合成器屬於語音合成的一個重要開端,直到上世紀 90 年代基於大語料庫的單元挑選與波形拼接合成方法出現,可以合成高質量的自然人語音。在神經網路出現之前,波形拼接一直是語音合成的主要方式。波形拼接的基本原理就是根據輸入文字的資訊,從人工錄製與標註的語料庫中挑選合適的基元(通常為音素或音節),進行少量的調整,然後採用波形拼接的方式得到與待合成文字相對應的語音序列。但是波形拼接合成方法需要準備海量的高質量語料,而且拼出來的語音雖然能讓人聽懂,但很難做到自然流暢。當波形拼接合成應用在朗讀小說時,其合成語音比較僵硬,機械化的電子聲音並不能給聽眾帶來良好的聽覺體驗。而人類讀文章時有自然的換氣和停頓,韻律自然,聽起來才不會累。
深度神經網路克服傳統的文字到語音轉換系統的侷限性,匹配口語中的語音頓挫和語調模式和韻律,並將語音單元合成為計算機語音。透過聲學建模,即將文字特徵轉換為聲學特徵,利用半監督機器學習技術,實現了高精度、自動化的字音判別和貼近真人的語音生成效果。由此合成的語音在節奏、語調和頓挫感上都幾乎和真人一樣,具備人類語音一樣的自然韻律和詞彙清晰度。
StyleTTS 結構圖
端到端語音合成系統,由前端、聲學模型和聲碼器三部分組成。前端主要解決基於語義理解的文字發音問題,主要包含文字正則、分詞、字轉音、停頓預測等;聲學模型負責為語音賦予韻律,比如語速、語調、停頓、重音和情緒變化等;最後一部分聲碼器負責還原語音的聲學特徵,也就是一般所說的嗓音或聲線,如振幅、頻率、波長等。
為了更貼近朗讀者的聲音特點,QQ 瀏覽器此次用到的 StyleTTS 的端到端語音合成更加重視個性化與情感共鳴,合成效果也具有更高的自然度、辨識度,同時還能實現對語音轉換的風格、口音、情感等進行靈活選擇與控制,從而滿足不同場景的需求。在前期上線的 6 個音色是精心挑選的具有小說風格同時有一定特點的聲音,其中還包括東北女聲。
騰訊 PCG AI 互動部相關負責人向機器之心表示,在錄製音庫時,會專門加入一些東北方言文字,發音人按照方言朗讀。訓練 StyleTTS 聲學模型時使用無監督學習幀級 VAE 對韻律進行幀級表徵,實現說話人音色與韻律解耦,而與口音相關資訊主要保留在韻律模型部分。在東北女聲上,使用方言、普通話不同資料對韻律部分進行對抗訓練,加強韻律模型對口音的學習。
除了不同風格的音色以及方言,QQ 瀏覽器運用的 StyleTTS 端到端合成框架支援透過不同人 (聲) 的韻律模型和音色模型重組搭配,能夠實現跨發音人的風格控制合成,並擁有抑揚頓挫的韻律節奏和豐富立體的情感表達,這對於語音合成來說是非常大的突破。此外,模型還加入說話人特徵編碼、語種特徵編碼等經典方法,進一步提升建模能力。未來,利用 StyleTTS 框架優勢,可以讓同一人學習並具備多種風格和語種,就能給使用者帶來更多選擇。
生成語音中的韻律、表現力等由聲學模型決定,而清晰度則由聲碼器決定,聲碼器限制了最終合成語音的音質,同時也是整個語音合成模型的計算瓶頸。語音閱讀主要在移動端,不僅對音質有高要求,同時也對效能提出很大挑戰。StyleTTS 端到端合成框架採用 Multi-band MelGAN 分頻帶建模,可以在較短時間內合成較好的音訊。針對移動端做了定製最佳化,在保證音訊質量沒有明顯下降的情況下,實現合成速度數倍提升。
關於語音合成在情感表達準確度的分辨,目前業內主要還是靠人工主觀測聽,透過 MOS 評分來判斷。為此,QQ 瀏覽器正在聯合騰訊 PCG AI 互動部等多方建立一套更加細緻的音色生產和評分機制,從場景、風格、語速、年齡、語調、音質等多個維度進行詳細評分,綜合評價每一個音色的品質。
QQ 瀏覽器的月活躍使用者如今達到 4.45 億,並且將免費小說作為一級入口放在了底部選單欄,讓使用者開啟瀏覽器就能夠找到小說閱讀的介面,足可見小說在其 “內容 + 服務的綜合資訊平臺” 定位中的重要性。免費小說為 QQ 瀏覽器帶來增量的同時,也讓更多的優質 IP 得到了更大範圍的推廣。而 “聽書” 為讀者提供了另一種閱讀方式,在增加了使用者粘性的同時,也將吸引全新的讀者。為此,QQ 瀏覽器也在 “聽書” 模式上進行不斷地嘗試,從而為讀者提供更好的閱讀體驗,StyleTTS 的應用則進一步滿足了 “聽書” 的個性化需求。
語音合成成本降低,探索閱讀新玩法
在剛剛過去的國際盲人節,QQ 瀏覽器免費小說 “聽書” 功能更新,推出葉非夜、公子衍、青衫取醉三位閱文作家的 AI 音色包,並上線 “朗讀官” 頻道。名人更具有影響力和號召力,因此容易被選擇錄製音色包,而 QQ 瀏覽器選擇了三位作者,可以看出 QQ 瀏覽器在數字閱讀方面積極探索玩法持續創新的決心,聽作者讀自己寫的小說確實別有一番感受。
QQ 瀏覽器免費小說頻道擁有閱文集團上千萬本小說以及上百萬作者資源,這意味著在閱讀上有足夠的空間去做創新。如此一來,讀者的體驗感和大眾化的預設語音會呈現巨大的不同。
傳統語音合成定製需要 10 小時以上的資料錄製和標註,對錄音人和錄音環境要求很高,從啟動定製到最終交付,製作週期長且成本高昂。而如今 QQ 瀏覽器運用的 StyleTTS 透過海量高質量錄音資料構建了一個穩定的基礎模型,只需要每種情感少量資料,就能很好的還原該發音人不同情緒效果,節省了大量的人力、物力及時間成本,且得到的效果幾乎與真人朗誦別無二致。
在中國主流音訊平臺上,有聲書受歡迎度以 66.3% 高居榜首。而相關研究資料顯示,中國現在已經成為全世界第二大有聲閱讀市場,2020 年中國的有聲閱讀市場規模已經超過 80 億元。預計到 2022 年,有望超過美國,成為全球第一大有聲閱讀市場。可以想象,隨著 StyleTTS 這一技術的應用普及,有聲書行業也將隨之發生巨大的改變。
如何讓人工智慧具有人類的特質和技能?答案是不斷吸收和學習。谷歌曾讓它的 AI 讀 2000 多本言情小說,只為它能像真人和人類對話,而且對話內容有更多的風格。而對於 StyleTTS 來說,為了能像真人一樣說話,同樣需要海量的錄音資料供其分析、歸納從而吸收。在 QQ 瀏覽器「聽書」功能中落地為 StyleTTS 提供了豐富的實踐反饋,而 AI 朗讀技術也將逐漸成熟、音色選擇多、豐富流暢,將讓聽書成為常態。
騰訊 PCG AI 互動部相關負責人表示,「聽書」是 StyleTTS 現在重要發展的領域,後續會在使用者個性化、多角色、情緒、情感等分析識別,甚至自動配樂、音效等更多嘗試,逼近真人配音製作的水平。此外,在短影片、AI 互動、社交、實時通訊等領域會有更多的應用探索。透過打造高品質、高效率的音影片內容創作工具,幫助創作者們進行更好的創作。
體驗連結:https://novel.html5.qq.com/qbread/reader?csr=1&ch=009241