一起了解下人工智慧聲音克隆技術和應用前景

聲音克隆是一種深度學習演算法，可以對目標聲音的未排序資料進行訓練，最終以簡單快速、容易的方式，生成一段完整的音訊。人們將克隆的音訊從裝置中匯出時，音色和音質幾乎不會受到壓縮和影響。主流的聲音克隆演算法只需要幾十秒清晰錄音，就可以克隆出你的聲音。

人工智慧

聲音克隆過程：首先提取待克隆的聲音特徵資料和待合成的文字向量資料，進行語音合成，同時透過神經網路演算法進行訓練，進而輸出需要的聲音。

演算法流程

這種聲音克隆技術使用起來並不複雜，人們只需要對著麥克風仔細錄製幾分鐘，就完成了克隆的第一步，錄製的過程中不好時只要多錄製些即可。

任何人都可以自主且簡單地克隆自己的聲音，而克隆出來的聲音近乎逼真。在語音合成領域，人工智慧克隆技術的應用，昔日繁瑣且枯燥的配音工作有望被取代。

錄製後，將生成的音訊檔案匯出並做一定的處理，克隆的聲音就完成了。人工智慧克隆技術就可以在較短的時間內生成專屬你自己的“逼真聲音”。

Veritone 公司執行副總裁肖恩·金表示：“將一個人的聲音克隆得形象逼真，以及如何對其應用場景進行擴充套件只是時間的問題，我們對很多不同行業帶來的新機會，感到非常興奮。”

聲音克隆技術可能是未來幾年最為明顯的商業化應用。隨著克隆技術的成熟，且技術難度相對較低，將會有許多初創公司提供相關技術服務。經紀公司可以透過克隆和出租公司旗下藝人的聲音，以最小的努力輕鬆獲得不菲的收入。

參考資料

https://zhuanlan.zhihu.com/p/99895222?from_voters_page=true

https://www.theverge.com/22672123/ai-voice-clone-synthesis-deepfake-applications-vergecast

分類： 科技

時間： 2021-09-20