不知道大家有沒有遇到過這樣的事情,就是在要出門的時候,突然忘記了鑰匙在哪兒了。或者當你需要某一件物品的時候,卻突然找不到這件物品到底在哪兒了,可能在找這件物品的時候,就需要花費很久的時間,甚至還會影響到你的情緒。如果家裡人在的話,你可以喊一聲媽或者媳婦,讓她們幫忙找一下。如果旁邊沒人的話,你可能也會想過,如果有一個叮噹貓或者能記錄自己生活的人工智慧就好了。
而現在,這項技術出現了。
就在上個月,Facebook 的首席研究科學家 Kristen Grauman 曾說過這樣的一段話:“在未來,我們將透過可穿戴裝置可以在某些的時間段幫助我們大腦來提供資訊和獲取記憶,這些裝置將在未來幫助到我們方方面面。”
可能大家不理解 Kristen Grauman 在說的是什麼,實際上目前 Facebook 正在做一項研究,這項研究可以用來分析我們的活動,幫助我們找到一些忘記的物品,所以說,如果以後我們再忘記鑰匙丟在哪兒的話, AR 眼鏡就會告訴我們鑰匙在哪兒。
這種技術剛好也跟前不久 Facebook 與雷朋合作推出的眼鏡對應上了,不過當時推出的眼鏡只有藍芽和拍照功能,並沒有 AR 基本功能,所以只能叫做拍照眼鏡。目前 Facebook(現更名 Meta)已經與 13 所大學的實驗室合作,總共招募了 750 人來做這項研究,目前他們在兩年內總共拍攝超過 2200 小時的第一人稱的影片。這些參與者大多居住於英國、義大利、印度、日本、沙烏地阿拉伯、新加坡、美國、盧安達和哥倫比亞,拍攝的主要內容是一些日常活動的影片。他們使用了各種可穿戴裝置,而拍攝的裝置比較隨意,包括 GoPro 相機、Vuzix Blade 智慧眼鏡和 ZShades 影片錄製太陽鏡。
此舉的目的主要是為了訓練人工智慧系統去理解人們拍攝的照片和影片,當然這方面的主要工作室為了培訓 AI 系統,讓他們更好地去理解影片當中的內容,從而讓 AI 能夠幫助人們記住重要資訊。
1)AI 是如何幫助人類理解世界的?
AR 識別與處理作為 Facebook 其中的專案之一,其本身理解非常的簡單,就是構建一個系統的框架來對影片識別的內容進行資料的評估,並且為了幫助 AI 更好的去了解第一人稱的影片,AI 人工智慧還會從觀眾的第三人稱視角拍攝的影象中學習。比如當你記錄自己踢足球或坐過山車時,諸如動作模糊和不同角度的鏡頭等 AI 自我學習就會發揮作用。
並且在上個月的時間段裡, Texas 大學和 Facebook AI 研究所做了一篇《Anticipative Video Transformer》的論文,裡面就提出了一種讓 AR 去理解真實世界的 AVT 攝像淮安預測架構。
簡單來說,就是透過 AI 之前觀察到的影片預測未來的行為。讓 AI 訓練模型來預測影片當中的下一個動作,同時學習其影片幀的特徵。
論文當中提到,觀察和預測人類行為將是 AI 未來發展所必須經過的一條路。其實現在很多技術都在應用 AI 來輔助人類,比如一輛自動駕駛汽車停在停車標誌前 ,它需要預測行人是否會穿過馬路,而這個決定的預判需要去對複雜的視覺訊號進行建模,從而去判斷這個行為的動作、行走速度和方向。這需要大量的計算。
另外,一臺完整的 AR 裝置還需要去觀察使用者的活動以及情緒,例如行走的速度和方向,比如當用戶做菜或者裝傢俱的時候,AI 需要預測使用者的行為,並提供響應的幫助。但人類可以做的事情實在是太多了,如果真的想要全部讓 AI 去做預判,一方面需要大量的計算量,另一方面也需要更多的基準來進行設定,而這一點更像是網際網路初期的時候。
在《Anticipative Video Transformer》這篇論文裡面提到的預測的難度是要遠遠大於識別和理解的,這就好比當你丟了一把鑰匙,普通的 AI 會提醒你鑰匙在哪兒,而預測行為不僅會告訴你鑰匙在哪兒,還會告訴你如何用鑰匙開門,以及如何做菜。
論文裡主要介紹了一種替代的影片建模架構 Predictive Video Transformer(AVT)。它用預測架構來取代基於“聚合”的時間建模。與週期性模型類似,AVT 可以無限期預測未來,它利用了流行的 transformer 架構,每個輸入幀只關注它前面的幀。從而訓練模型來共同預測下一個動作,同時學習預測與真實未來特徵及其中間動作標籤相匹配的未來特徵。
AVT 的 attention 還做了如何在兩個先前觀察到的幀傳播的示例(上圖)。目前 AVT 不僅能夠處理特定的幀,而且能夠在一個統一的框架中處理幀內的空間特徵。
當 AI 進行影片訓練時,模型會自發地學習與此物件相對應的空間特徵。
2)未來人類科技保姆概念會成為現實嗎?
其實目前有關 AI 的應用已經很多了,但大多都是針對於企業端的產品,比如三一將AR運用到了三一樁機燈塔工廠,美國空軍正在用 AR 訓練士兵等等,針對於消費級別的裝置很少,但這也至少說明了一點,技術目前還是有的,只是時機還並沒有成熟。
但未來人類科技保姆概念確實是有一定的說法的,比如上述技術一旦真正實現以後,或許人們真的就可以像很多科幻電影一樣,把更多的精力用在真正的事情上面,從而讓 AI 來處理這種瑣事。
關於用 AI 來訓練 AR 或許真的是未來科技發展的畢竟之路,蘋果的 CEO 庫克曾經表達過類似的觀點,“AI 將會解決或代勞許多繁瑣而重複的工作,從而大幅釋放使用者的時間,以便人們可以做更多自己喜歡的事情,我非常相信增強現實(AR),它可以增強並真正放大技術與人的價值,而不是圍住或關閉現實世界。”。
3)AR 消費級眼鏡的未來還有多遠?
不管是雷朋和 Facebook 共同推出的眼鏡,還是之前國內小米推出的小米智慧眼鏡探索版,或者是蘋果明年將要上線的 AR 眼鏡,無不都在證明著資本的流動正在超我們嚮往的方向上進行,但可惜的是,未來三年以內所有有關 AR 或者 AI 級別的眼鏡都將成為概念級的,也就是說這些眼鏡的出現只是為了證明技術的進步,實際上並不會像上文所提到的技術一樣,可以讓成為人類的“第二大腦”來起到幫助的作用。
並且一旦 AR 消費級眼鏡出現以後,還會涉及到更多的問題,比如使用者個人隱私和保密問題、資料儲存問題、算力問題等等。如何更好的保護使用者的隱私、以及如何證明企業可以做到不侵犯使用者的隱私、資料儲存在雲端還是儲存卡里,如何讓儲存卡可以儲存更多的資料量、如何在肖肖的眼鏡裡面放置更多的計算單元,這些都會成為大大小小的問題,而且這裡面的每一項拿出來都會讓企業的研究人員忙上很久。
不過關於 AR 消費級眼鏡我們仍然可以進行期待。AR 真正消費級的眼鏡不是一家媒體侃侃而談就可以做到的,他所需要的是整個行業不斷的研究與發展,需要供應鏈不斷努力不斷進步才能夠真正實現。