編輯:LRS
【新智元導讀】人的適應能力是很可怕的!盲人儘管無法用眼睛看到世界,但透過練習,盲杖就是他的眼睛。那神經網路的眼睛如果只能看到混亂的世界,那它會習慣嗎?Google Brain在NeurIPS 2021的spotlight paper最近就研究了這個問題,將輸入影象隨機打亂,發現強化學習得到的agent仍然能夠正確決策!
人類的感官能力實際上是非常驚人的。
著名的神經科學家Paul Bach-y-Rita曾對使用盲杖的盲人進行了細緻的觀察和研究。
他發現,盲人在行走時會前後掃動盲杖,盲杖的尖端經由面板上的觸覺感受體來告訴盲人路況資訊。
Bach-y-Rita從而備受啟發。
他認為盲杖可以看作是盲人和物體之間的「介面」,透過盲杖在手上的壓力觸感,能夠反饋給盲人形成諸如房間擺設這樣的空間資訊。
因此,手上的面板及其觸覺感受體,就像一個資訊收集站,可以替代視網膜在大腦中形成影象。
你無需用眼睛看,也無需用耳朵聽,真正的看和聽都在大腦裡!
這種適應性也被稱為感官替代(sensory substitution),也是神經科學中非常著名的一個現象。
但一些困難的適應性也需要幾周、幾個月甚至幾年的練習才能做到,例如調整習慣看東西的角度,學習騎反向(backwards)的腳踏車等等。
相比之下,大多數神經網路根本無法產生感官替代的現象。
例如,大多數強化學習(RL)模型要求模型的輸入必須採用預先指定好的格式。這些格式限制了輸入向量的長度是固定的,並已經事先確定好輸入的每個元素的精確含義,例如指定位置的畫素強度,狀態資訊,位置或速度等。
在一些流行的RL基準任務(如Ant或Cart-Pole)中,如果模型的輸入發生變化,或者如果向模型提供了與手頭任務無關的額外噪聲輸入,那麼使用當前RL演算法訓練的agent 將無法繼續使用。
針對這個問題,Google在NeurIPS 2021上發表了一篇焦點論文,探索了具有排列不變性(permutation invariant)的神經網路模型。
這種神經網路要求每個感覺神經元(接收來自環境的感官輸入的神經元)必須能夠根據輸入訊號的上下文來找到訊號的真正含義,而非明確地指定一個固定的含義。實驗結果表明,這些沒有預先指定的agent有能力對含有額外冗餘或噪聲資訊以及損壞的、不完整的觀察輸入進行處理。
https://arxiv.org/abs/2109.02869
Permutation Invariant指的是特徵之間沒有空間位置關係,即使輸入的順序發生變化也不會影響輸出結果。如在多層感知機中,改變畫素的位置對最後的結果沒有影響,但對卷積網路而言,特徵之間則有空間位置關係。
除了適應狀態觀測環境中的感官替代,研究還表明,這些agent還可以適應複雜視覺觀測環境中的感官替代。
例如在CarRacing遊戲,當輸入影象的流不斷地被reshuffle時,儘管人眼已經看不出來畫面,但AI仍然可以做出正確的行動。
論文的作者Yujin Tang於2007年獲得上海交通大學計算機專業學士學位,後於2010年獲得早稻田大學碩士學位,主要專注於強化學習和機器人學的研究,並熱衷於將相關技術應用於現實世界的問題。
文中提出的研究方法在每個時間步中從環境中進行觀察,並將觀察的每個元素饋送成明確(distinct)但相同的(identiccal)神經網路,也稱為感覺神經元(sensory neurons),網路之間彼此沒有固定的關係。
每個感覺神經元僅透過其特定的感覺輸入通道與時間資訊進行整合。因為每個感覺神經元只能接收整個圖片的一小部分,所以他們需要透過互相通訊來自組織(self-organize)資訊結構以便進行全域性且連貫(coherent)的決策行為。
在實驗中,研究人員也透過訓練的方式促使神經元使用廣播訊息(broadcast messages)來互相溝通。
在接收區域性資訊時,每個感覺神經元在每個時間步驟中也需要連續廣播輸出訊息。使用類似於在Transformer 架構中用到的注意力機制,就能夠將這些訊息整合並組合到輸出向量中,並稱之為全域性潛碼。
然後,策略網路使用全域性潛碼來生成agent 的下一步與環境互動的行動(action)。行動結束後,通訊迴圈將關閉。
你可能還有一個問題,為什麼這個系統的輸入排列變化對模型輸出沒有影響?
因為每個感覺神經元都是同一個(identical)神經網路,它們並不侷限於處理來自某一特定感覺輸入的資訊,實際上每個感覺神經元的輸入都沒有定義。
相反,每個神經元必須透過關注其他感覺神經元接收到的輸入來找到自己輸入訊號的含義。
這個操作也會促進agent將整個輸入作為一個未排序的集合進行處理,從而使系統對其輸入保持不變。
此外,訓練後的agent可以根據實際需要,使用多個感覺神經元來處理任意長度的輸入。
實驗結果上,研究人員在簡單的狀態觀測環境中證明了這種方法的魯棒性和靈活性。
在常見的Ant locomotion任務中的agent總共需要接收28個輸入,其中包含位置和速度資訊等。研究人員多次打亂輸入向量的順序,實驗仍然表明訓練後的agent能夠快速適應不同排列的輸入,並且仍然能夠在遊戲中始終保持向前移動。
在cart-pole實驗中,agent的目標是擺動安裝在手推車中心的手推車杆,並使其保持向上平衡。
通常情況下,agent只能看到五個輸入,但研究人員修改了實驗環境來提供15個混合輸入訊號,其中10個是純噪聲,剩下的是環境的實際觀察結果。
結果表明,agent仍然能夠高效地執行任務,這也展現了該系統處理大量帶噪聲輸入的能力,並且agent可以只使用它認為有用的資訊通道。
研究人員還將這種方法應用於高維視覺環境,其中模型輸入是影象的畫素流。實驗主要研究了基於視覺的RL環境的screen-shuffled版本,其中每個觀察幀被劃分為一個patch網格,看起來就像一個迷宮一樣,agent必須以shuffed order的方式處理patch以確定要下一步要採取的動作。
實驗中,研究人員給agent一個隨機的螢幕上的patch樣本,然後遊戲的其餘部分保持不變。
結果發現模型仍然可以在這些固定的隨機位置分辨出70%的patch,並且仍然能夠在對陣內建的Atari對手時不落下風。
有趣的是,如果研究人員隨後向agent 透露額外的資訊,即允許它獲取更多的影象patch,即使沒有額外的訓練,它的效能也會提高。
當agent接收到所有patch時,即便按隨機順序,它也能100%對陣內建AI時獲得勝利。
並且這些操作雖然在訓練過程中增加了一些學習難度,但也會有帶來額外的好處,例如提高了模型的泛化性,即便更換了新的影象取代了訓練時的環境背景,agent依然可以正常執行。
作者認為,由於不限制輸入並且能過濾大量噪聲,這種permutation invariant 神經網路將會極大促進強化學習的發展。
參考資料:
https://ai.googleblog.com/2021/11/permutation-invariant-neural-networks.html