聲音克隆是一種深度學習演算法,可以對目標聲音的未排序資料進行訓練,最終以簡單快速、容易的方式,生成一段完整的音訊。人們將克隆的音訊從裝置中匯出時,音色和音質幾乎不會受到壓縮和影響。主流的聲音克隆演算法只需要幾十秒清晰錄音,就可以克隆出你的聲音。
聲音克隆過程:首先提取待克隆的聲音特徵資料和待合成的文字向量資料,進行語音合成,同時透過神經網路演算法進行訓練,進而輸出需要的聲音。
這種聲音克隆技術使用起來並不複雜,人們只需要對著麥克風仔細錄製幾分鐘,就完成了克隆的第一步,錄製的過程中不好時只要多錄製些即可。
任何人都可以自主且簡單地克隆自己的聲音,而克隆出來的聲音近乎逼真。在語音合成領域,人工智慧克隆技術的應用,昔日繁瑣且枯燥的配音工作有望被取代。
錄製後,將生成的音訊檔案匯出並做一定的處理,克隆的聲音就完成了。人工智慧克隆技術就可以在較短的時間內生成專屬你自己的“逼真聲音”。
Veritone 公司執行副總裁肖恩·金表示:“將一個人的聲音克隆得形象逼真,以及如何對其應用場景進行擴充套件只是時間的問題,我們對很多不同行業帶來的新機會,感到非常興奮。”
聲音克隆技術可能是未來幾年最為明顯的商業化應用。隨著克隆技術的成熟,且技術難度相對較低,將會有許多初創公司提供相關技術服務。經紀公司可以透過克隆和出租公司旗下藝人的聲音,以最小的努力輕鬆獲得不菲的收入。
參考資料
https://zhuanlan.zhihu.com/p/99895222?from_voters_page=true
https://www.theverge.com/22672123/ai-voice-clone-synthesis-deepfake-applications-vergecast