兩年前的經歷讓孫濤至今難以忘懷。“有一位抗美援朝的老戰士,很懷念已經過世的老排長。” 語音合成架構師孫濤就和同事錄製了一些老排長在世時的聲音,並透過語音合成技術把老排長留給老戰士的信讀給他聽,老人頓時淚流滿面。
語音合成廣泛應用於播報、客服、導航、虛擬主播、虛擬主持人等等。語音合成有三大關鍵因素:文字內容、發音人音色和說話的韻律節奏。發音人音色的不同在於喉嚨。每個人的喉嚨結構比較固定,如果把它比喻成一個樂器,文字內容和韻律節奏更像是樂譜。語音合成相當於只要掌握了樂器(喉嚨)的基本結構,想要合成什麼樣的語句,只要提供樂譜(文字內容和韻律節奏)就可以了。
“只要收集你說的9句話,就能復刻你的聲音”。語音合成架構師孫濤自信地對中工網記者說。每天,孫濤要處理大量採集來的聲音。看著高低不平的聲波,就像看著即將亮相的樂譜,人工智慧是“演奏家”,而他,就是那個“作曲家”。
語音合成需要很多環節,比如聲音的質量、錄製時的環境、資料規整等等,最關鍵的還是如何讓機器透過學習獲得聲音與文字的匹配關係,這是語音架構師花費時間最多的地方。並且,語音跟影象、文字不一樣,它具有時序性和互動性特點,要求系統具有快速響應使用者的能力,這樣,如何更好地完成時序模型系統的設計是考驗一名語音架構師是否合格的因素之一。
“以前客戶服務電話的拒接率很高,大家一聽就知道這不是真人,從情感上就不想交流。” 人工智慧的快速發展,語音合成也搭上了這趟順風車。“語音合成的效果提升以後,已經無法分辨接客服電話的是真人還是機器,與客戶溝通的效率也提升了。”孫濤對中工網記者說,語音合成發展到現在已經進步為個性化的合成,會帶上情感表現,甚至還有一些人文關懷的成分。“語音合成發展的大方向是互動,讓人與人工智慧自如地對話。不僅能傳遞資訊,也能傳遞情感。”孫濤滿懷憧憬地說。
來源:中工網