最近發現一個有意思的事情,就是用AI合成的虛擬主播,開始慢慢走入人們的視線。早在去年兩會期間,新華社就嘗試了用3D AI合成主播“新小微”來進行新聞報道。
之後陸陸續續出現一些AI主播的嘗試,今年12月20日,《每日經濟新聞》報社宣佈上線 7x24 小時不間斷播出的“每經 AI 電視”,用AI主播來進行24小時不間斷直播。
我們知道,這次的人工智慧浪潮,最顯著的成就就是模式識別在圖片、語音領域的應用。AI系統可以自動識別圖片,最典型的就是人臉識別。
近兩年,AI領域有兩個重要的發展,一個是多領域的融合,比如一個模型既可以用到圖片領域,也可以用到聲音領域,甚至還可以用到自然語言領域;另一個就是從內容識別開始走向內容生產。以上兩個方向的發展,將極大的拓寬AI的應用價值。
無論是人臉識別、車輛識別還是語音識別,都是屬於內容的識別,也就是內容本身是已經存在了,AI系統只是把這些內容識別出來。而內容的生產,是AI系統自己依據一定規則“創造”人們需要的內容,這些內容可以是文字、圖片、語音,也可以是影片、3D模型。
不同的內容形式,其資料量不同,AI創造內容的難度也不同。目前來看,AI系統生產文字、圖片、語音已經比較成熟了,影片和3D模型的生產還欠點火候,但也勉強過關。相信隨著技術的發展,要不了幾年就會很成熟了。
人類的生產力主要來自於創造,也就是人會創造一些東西出來。同樣的道理,要想AI系統提供“生產力”,其創造內容的能力是關鍵。一旦AI系統具備創造內容的能力,就可以做很多有趣的事情了。
我們以AI主播為例,來進行討論和暢想。
AI主播要能夠用起來,核心是要足夠“人性化”,也就是足夠像真人,最好是那種真假難辨的程度。最關鍵的是要做到:
第一,畫素要足夠高,要高畫質複製人物。越高畫質,資料量就越大,需要的算力也越高。AI虛擬人的一顰一笑,背後都是伺服器的CPU、GPU在“燃燒”。
第二,對人物“性格”的刻畫要足夠生動細緻。每個人都有自己的特點,都有不同的性格,AI虛擬人也要有性格“引數”,才能更加人性化。
在很多領域,AI系統都會面臨一個應用拐點,一旦跨過這個拐點,其應用價值就會指數級提升。比如,在人臉識別領域,一旦AI系統的識別準確率超過人眼,立馬就會大面積的推廣普及。同樣的,只要AI虛擬人能夠做到以假亂真,普通人很難區別自己看到的是真人還是AI虛擬人,那AI虛擬人就會在很短時間內實現大規模的應用普及。
屆時,各個電視臺、直播平臺,將充斥著大量的AI虛擬人,真人主播們將面臨嚴重的衝擊。真人主播們最大的競爭對手,將不再是其他真人主播,而是AI虛擬主播。