■譚平
◎編者按:
元宇宙——這個由“meta”(元)與“universe”(宇宙)組合而成的Metaverse,成為時下網際網路新寵。近日美國社交媒體巨頭臉書(Facebook)宣佈更名為“元”(Meta),其高調入局,更是給元宇宙添了一把火。然而,如何支撐或構建元宇宙,目前還是未知。
近日,阿里達摩院在雲棲大會上宣佈成立XR實驗室作為元宇宙等虛擬世界“真實化”的手段。虛擬現實(VR)、增強現實(AR)、混合現實(MR)等技術未來將如何發展?且看阿里達摩院XR實驗室負責人如何解讀。
當談論虛擬現實(VR)、增強現實(AR)的時候,我們到底在談什麼?新風口?新概念?新技術?新名詞?從技術人的視角來看,這是技術累積的量變引發的。沉浸感體驗的一個技術基礎是對海量場景、物體、人物進行三維建模並渲染,屬於計算機視覺和計算機圖形學的交叉領域,曾經是一個相當小眾的領域。
二十年前,我在選擇這一研究方向時,這個領域並不像今天這般吸引眼球,入門非常辛苦,不但要學很複雜的數學、物理,發表一篇論文都要寫上萬行程式碼,甚至還需要在實驗室的暗室裡面動手搭裝置、拍資料,出成果的週期很長。
二十年過去,技術已進步太多:三維模型資料比過去豐富得多,渲染效果也更逼真、更快速。三維模型可以由藝術家手工設計出來,也可以透過對真實物體、場景進行三維重建得到。並且,重建結果的細節更豐富,超過了手工設計。
得益於這些技術進步,VR/AR、“數字孿生”等虛擬世界有了實現的基礎條件。
現如今,國內在這一領域已進入世界的前列,微軟亞洲研究院的童欣、浙江大學的周昆等都是這個領域全球知名的學者。阿里達摩院也調集全球上百位科學家,成立了“XR實驗室”。
“照片般的真實感”
我曾經擔任國際計算機視覺與模式識別會議、計算機視覺會議和SIGGRAPH的領域主席,也擔任兩本學術雜誌TPAMI和IJCV的副主編。回顧三維重建和渲染方向的進展,很多研究都是尋求“照片般的真實感”。
真實感渲染中的一個基本問題,就是研究光線在物體表面的反射現象。這是人類視覺感知的基礎,也是我在博士生階段的第一個課題。在學術界,有各種各樣的反射模型來描述光的反射現象。但有個問題一直沒解決:在不同尺度上,物體的反射特性是不一樣的。
比如,從10釐米左右的距離觀察,一顆沙粒表面的石英片是像玻璃一般的高反射表面,對應的反射函式是一個狄拉克函式;而從100米外看,一大片沙則是啞光、蓬鬆的,接近於朗伯表面,對應的反射函式是一個常數函式。
我的導師曾希望我能夠建立一個統一的反射模型,把不同尺度的反射現象都統一起來。這是一個極其困難的問題。我花了幾乎兩年時間,才在這個問題上獲得突破,並在歐洲圖形學會的渲染分會上發表了博士階段的第一篇論文。
反射模型是偏光學領域的問題,此後大家開始研究幾何層面的問題。當時幾何建模技術主要侷限在對簡單規則物體的建模,如汽車、傢俱等。如何對自然界的複雜物體建模依然未知。自然界物體的幾何形狀非常複雜,但往往又遵從簡單的數學規則,比如斐波那契數列、分形等。數學家們很早就注意到了這些現象,加拿大一位科學家寫過一本書叫《植物的演算法之美》,專門研究這一問題。
在這個問題上,我與合作者用了三年時間,提出了第一個從照片構建植物三角網格模型的方法,在圖形學領域最重要的學術會議SIGGRAPH上發表了一系列基於影象三維建模的論文。建模物件也從樹木、盆栽擴大到建築、街道,甚至整個城市。這獲得了當時評委的稱讚,“真是電影特效級的質量”。今天許多從航拍影象構建城市三維地圖的工作就是基於類似的技術框架。
這些研究本質上都是為了提升虛擬世界的真實感,稱得上是三維重建、渲染領域的根本問題,後期的技術發展也大多沿襲了這條道路。
下一代網際網路
如今,遊戲、影視和VR/AR等數字產業,在不斷消化吸收關於“真實感”的研究成果,將其產品化、商業化。美國一家頭部科技投資基金甚至預測,未來10年,VR/AR眼鏡的出貨量將大大超過智慧手機。
未來虛擬世界到底怎樣?我認為,可能是“VR/AR眼鏡上的網際網路”。
VR/AR眼鏡將會推動網際網路更新換代,現在的網際網路應用都會在VR/AR眼鏡上有新的呈現形式。從這個角度來看,過去受網際網路影響非常深的通訊、社交、媒體、零售,甚至支付,都很可能會迎來一場革命。這場技術革命,可以類比歷史上的計算平臺遷移帶來的鉅變。
從PC到手機,媒體、零售發生了很大的變化,因為螢幕變小了,過去入口網站那樣分門別類的羅列方式被徹底淘汰了,取而代之的是智慧推薦。甚至,電商出現了新的形態——本地生活。得益於手機定位功能,本地生活類應用可以推薦附近三公里內的餐館和服務,完全重塑了零售服務業。
VR/AR時代,我們可能都會有自己的虛擬形象,在一個虛擬空間裡“面對面”交流。同時,類似的微妙而又深刻的變革將再次發生,VR/AR將會革新顯示和互動的底層基礎。過去PC端、手機上顯示互動的介面是二維的,是一個個的“視窗”,而在VR/AR眼鏡上,顯示互動的介面是三維的,是立體空間。在三維空間,人們可以有更直觀、更沉浸式的顯示,使用者和內容的互動方式也會從文字、圖片進化到影片、互動,發生根本性改變。
顯示和互動是所有網際網路應用的底層基礎,它們的改變會帶來上層應用脫胎換骨般的革命,整個網際網路行業將會重新洗牌。
遠不止於遊戲
在這場技術革命中,最敏感的是影視與遊戲公司。它們建立了非常豐富的虛擬IP和虛擬場景,讓使用者沉浸在各種數字內容之中。工業製造、生物醫藥等行業則在設計階段大量應用虛擬數字孿生模擬技術。
但這不是想象力的全部。透過虛實結合,有更多現實問題可以嘗試解決。我們目前也在探索一種更高效的三維重建體系,它已經應用在我們對外貿工廠、城市街道的空間重建中。
調研顯示,當前70%~80%的B2B交易都要透過遠端互動,最好能直接看到工廠和樣品的三維實景。但這面臨硬體裝置的困局——一直以來,空間三維模型需要依託專業掃描裝置、專業操作人員,投入極大的成本才可構建。
為了解決這個問題,XR實驗室自研掃描機器,配合雲端三維重建演算法,快速、便捷地構建VR內容;而軟硬一體的裝置,普通攝影師即可操作。不久,這套技術將用於杭州文三路上部署的街景增強現實裝置。
虛擬世界技術的另一個落地案例,是摘蘋果。我國年產4000多萬噸蘋果,需要超過100萬採摘工人,密集採摘期有2周左右。疫情當前,熟練工人無法區域流動,有些果園因為找不到足夠人手,蘋果直接爛在果園裡。
達摩院XR實驗室與行業生態夥伴合作,嘗試結合虛擬建模與機器人技術解決這一問題。技術團隊採集了大量圖片,透過三維重建技術構建果園環境和植物的三維地圖,訓練蘋果識別演算法,並研製高效自動採收機器人系統。今年9月,系統開始在陝西的千陽和洛川蘋果基地進行試驗測試,取得了初步成效。
未來,隨著這一模擬數字模型不斷完善,機器人數字孿生體在模擬環境中不斷最佳化作業技能,就可遷移到實體機器人進行作業。機器人在果園作業過程中也會不停地採集資料反饋給果園模型,用於實現自我更新和最佳化。如此一來,也許能最佳化一套標準化、數字化、自動化的蘋果生產方式,幫助果農降本增效。
終局是什麼?
不管是場景展示,還是結合機器人進行實地勞作,都只是虛擬世界技術的一種形式。XR的終局是什麼?
筆者認為,可以把未來“虛擬世界”的技術分為四個層次。
第一層是全息構建,就是用三角形網格建立整個世界的外表,並在終端上顯示,製造一種沉浸式的體驗。當前,VR看房、看店,就是這類技術的應用。但全息構建技術深入發展,還需要對物體的內部精細結構建模,同時場景中的物體要可以被操作,結構要可以重新組合。比如,一些室內裝修設計平臺可以讓使用者隨意搭配不同的傢俱,提前體驗裝修的效果。
第二層是全息模擬,要讓虛擬世界無限逼近真實世界。虛擬世界裡,水要往低處流、扔一塊石頭能打碎玻璃、虛擬角色對外界能作出合理反應。電影《頭號玩家》展現了這一場景。這一層的技術在遊戲、電影中已經有過比較多的應用,但還可以應用到更廣泛的領域,如工業設計、模擬模擬等。
前兩層的技術結合起來就能實現VR眼鏡中的虛擬世界。但還有第三層、第四層。
第三層是虛實融合,讓虛擬世界和真實世界融合起來。技術上要實現這一點就要能建立真實世界的高精三維地圖,並在地圖中實現釐米級精準定位、定姿,準確疊加相關資訊。千人千面的基於釐米級精準定位的資訊推送將無時不在、無所不在。這就能實現AR眼鏡中的虛擬世界,虛擬世界和真實世界的邊界從此被打破。
第四層是虛實聯動,虛擬世界的改變能夠對應到真實世界。要做到這一層需要解決機器人的問題。技術問題解決後,就可以透過第二層的全息模擬尋求問題的最優解決方案,然後透過第三層的虛實融合把方案對映到真實世界,再透過第四層的機器人技術實現在真實世界執行。
關於未來,人們總是有各種暢想。未來達摩院XR實驗室也會在這個方向深耕,努力打破技術和想象力的邊界。
(作者系阿里達摩院XR實驗室負責人,記者趙廣立整理)
來源: 《中國科學報》