合成非特定目標語音的應用有很多,但是要精準模仿(克隆)某人的聲音的技術源頭似乎都來自谷歌2017年釋出的論文Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS),大概說的意思就是把克隆工作分成三個模組(Encoder、Synthesizer、Vocoder),先提取說話者的聲音提取音色向量(Speaker Encoder部分),然後用這部分內容加上Synthesizer和Vocoder一起完成語音合成。整個技術細節又涉及Tacotron、WaveNet.
基於SV2TTS的專案Real Time Voice Cloning已在Github上開源 ,號稱只需要你的5秒種音訊就能克隆你的聲音 ,Python開發,提取、錄製、除錯、訓練一體化GUI操作,這種“talk is cheap,show me the code”的方式得到大家一致好評。
看起來演算法和語音是不分語種的,但是Real Time Voice Cloning的模型是用英語訓練的,對中文支援不好。現在支援中文的分支也有了,叫MockingBird
Deepfakes(“深度學習”和“假”的混合體)是合成媒體,其中真人的圖片、影片或語音被轉換成其他人(通常是名人)的人工智慧生成的人工肖像。您之前可能在網際網路上遇到過一些,例如Tik Tok 上的Tom Cruise deepfakes或Joe Rogan 語音克隆。
雖然影象和影片種類更具說服力,但給人的印象是音訊深度偽造已經落後了——至少不是沒有大量的訓練音訊。但一項新研究敲響了警鐘,表明在網際網路上很容易找到的語音複製演算法已經很不錯了。事實上,研究人員發現,透過最少的訓練,這些演算法可以欺騙語音識別裝置,例如亞馬遜的 Alexa。
芝加哥大學安全、演算法、網路和資料 (SAND) 實驗室的研究人員測試了兩種最流行的 Deepfake 語音合成演算法——SV2TTS 和 AutoVC——這兩種演算法都是開源的,可在 Github 上免費獲得。
這兩個程式被稱為“實時語音克隆工具箱”。SV2TTS 的開發者誇口說,只要 5 秒的訓練錄音就足以產生一個合格的模仿。
研究人員透過向兩個系統提供相同的 90 個不同人談話的 5 分鐘錄音,對這兩個系統進行了測試。他們還記錄了 14 名志願者的樣本,這些志願者被要求檢視計算機生成的聲音是否可以解鎖他們的語音識別裝置,例如 Microsoft Azure、微信和亞馬遜 Alexa。
SV2TTS 能夠在大約 30% 的時間裡欺騙 Microsoft Azure,但在近三分之二或 63% 的時間裡都成功地利用了微信和亞馬遜 Alexa。可以使用它透過模模擬實使用者的合成語音訊息登入微信,或者訪問一個人的 Alexa 以向第三方應用程式付款。
AutoVC 的表現相當糟糕,只能在 15% 的時間內欺騙 Microsoft Azure。由於它沒有達到預期,研究人員並沒有費心對微信和 Alexa 語音識別安全性進行測試。
在另一項實驗中,研究人員招募了 200 名志願者,他們被要求聽成對的錄音,並確定他們認為哪兩個是假的。志願者有將近一半的時間都被騙了,這使得他們的判斷無異於拋硬幣。
最有說服力的 deepfake 音訊是模仿女性和非英語母語者的聲音。這是研究人員目前正在研究的問題。