以感官神經元為轉換器：用於強化學習的置換不變神經網路

與處理人眼傳來的資訊類似，大腦同樣可以處理來自面板的資訊。而我們的雙眼雙耳只是資訊的受體，“看見”和“聽見”實際是在大腦中進行的。

- Paul Bach-y-Rita，引用自Livewired

人類有一種神奇的能力，可以用一種感官方式（如觸覺）為另一種感官（如視覺）收集通常由後者提供的環境資訊。這種適應能力被稱作是“感官替代”，是神經學中的常見現象。更加困難的感官替代則需要學習幾周、幾個月甚至幾年的時間才能掌握，比如閱讀上下顛倒的文字、學習倒著騎腳踏車，或者是透過分析放在舌頭上的一根電極網格釋放出的視覺資訊來“看”東西。

相比人類，大多數的神經網路完全無法適應感官的替換。

舉例來說，多數強化學習（RL）代理需要特定的輸入格式，否則將無法進行學習。它們需要特定大小的輸入，並假定輸入中的每一個元素都準確包含特定含義，比如指定位置的畫素數、位置或速率的狀態資訊。

在常見的 RL 基準任務中（比如螞蟻或倒立擺），如果感官的輸入發生變化，或者使用與目前任務無關的額外噪音輸入，那麼使用當前RL演算法訓練的代理將會失敗。

在NeurIPS於2021年釋出的一篇重點論文，《以感官神經元為轉換器：用於強化學習的無空間相關性的神經網路》中，作者探討了無空間相關性的神經網路代理是如何不再假定含義固定不變的輸入，而是要求其每一個感官神經元（從環境中接受感官輸入的感受器）來判斷輸入訊號的含義和語境。實驗證明，這類代理對包含噪音或多餘且重複的，缺失不完整的的觀測輸入具有魯棒性。

除了在狀態觀測環境中適應感官替代（如前文中提到的螞蟻和倒立擺），這些代理還可以在複雜的視覺觀測環境（如只使用畫素觀測的賽車遊戲）中適應感官替代，並在輸入影象流不斷變化時，依舊可以執行。

方法

作者採用的方法是，在每個 time-step 時從環境中獲取觀測結果，並將觀測到的每個元素輸入不同但又相同的神經網路（感覺神經元）中，每個神經元之間沒有固定關係。而隨著時間的推移，每個感覺神經元只會接受它們特定的感覺輸入通道的資訊。而因為每個感覺神經元只會接受全部輸入中的一小部分，它們需要透過交流並進行自我的調整，以保證全域性行為的一致性。

觀測分割的圖示。作者將每個輸入都分割為元素，並輸入到各個獨立的感覺神經元中。對於非視覺的任務，輸入通常為 1D 向量，每個元素都是一個標量。而對於視覺任務，作者則將所有輸入圖片切割為不重疊的小塊。

作者訓練神經元透過廣播傳遞資訊，激勵其進行互相之間的交流。在接受本地資訊的同時，每個感覺神經元會同時在每個 time-step 不斷廣播一個輸出資訊。這些資訊會被整理併合併為一個輸入向量，作者稱之為全域性隱程式碼（global latent code），使用的方法類似轉換器架構中應用的注意力機制。隨後，作者使用一個策略網路將這些全域性隱程式碼所生成的動作應用於代理與環境間的互動。這個生成的動作也會在下一個 time-step 中反饋給各個感覺神經元，從而結束通訊的迴圈。

無空間關聯的 RL 方法概況。作者首先將每個單獨的觀測（o）輸入到一個特定的感覺神經元中（同時輸入的還有代理的前一步動作，a）。然後，每個神經元會獨立生成並廣播一個訊息，注意力機制將這些訊息整理為一個全域性隱程式碼（m）並傳遞到代理的下游策略網路（），以生成代理的行動 a。

為什麼說這個系統是無空間關聯的呢？因為所有的感覺神經元都是一模一樣的神經網路，而這些神經元所處理的資訊並不侷限於一個特定的感覺輸入。事實上，在實驗的設定中，每個感覺神經元的輸入都是沒有定義的。每個神經元必須對其收到的輸入訊號進行判斷，不能直接假設某個固定的含義，而是要透過對比其他感覺神經元所接收的訊息才能夠確定。這種設定鼓勵代理將完整的輸入當作是一個無序集合來處理，讓系統與其輸入之間無空間關聯。此外，代理原則上可以根據需要接觸儘可能多的感覺神經元，從而可以處理無固定長度的觀測。這兩個特性都對代理適應感官替換起到了協助的作用。

結果

作者在簡單的狀態觀測環境中的測試展示了該方法的魯棒性與靈活性。在這些測試中，代理所接收的觀測輸入都是低維度向量，其中包含了代理的諸如元件位置或速率之類的狀態資訊。在常用的螞蟻運動任務中，代理使用了總共 28 個包含位置和速率資訊的輸入。在測試中，作者多次打亂輸入向量的排列順序，每次代理都能夠迅速適應，並繼續向前行走。

在倒立擺的實驗中，代理的目標是將小車中心底部固定的杆保持垂直向上的平衡狀態。通常情況下，代理只會只能接受到五個輸入，但作者調整了倒立擺的環境，並提供了 15 個打亂後的輸入訊號，其中有 10 個是純噪音，剩下的則是實際來自環境的觀測。這種情況下，代理依舊可以正常執行，證明了系統有能力在大量訊號輸入的情況下工作，並可以做到只關注它認為有效的頻道。這種靈活性在處理含有大量不確定訊號、其中多數都是來自未明確系統的噪音訊號這類應用時，會有大作用。

作者還將這種方法應用在了一個於基於視覺的高維環境中，其中的觀測物件是畫素影象流。作者研究的是影象打亂後的、基於視覺的 RL 環境，每個觀測幀都被分割為一個網格塊。而就像是解密卡一樣，代理需要首先將打亂後的小塊全部處理完，才能確定要採取的行動方案。為證明該方法在基於視覺的任務上的可行性，作者建立了一個打亂順序的 Atari Pong 遊戲。

在這個實驗案例中，代理面對的輸入是一個長度可變的影象塊列表，它只能“看見”畫面中的一部分影象塊。在亂碼後乒乓實驗中，作者將畫面中的隨機影象塊樣本作為輸入傳遞給了代理，而被選擇傳遞的影象塊位置在整場遊戲中保持不變。

實驗證明，在扔掉 70%的影象塊（都是固定位置的隨機塊）後訓練出的代理仍然可以在和內建 Atari 對手比賽時表現良好。有趣的是，如果向代理傳遞更多的資訊（如，允許它訪問更多的影象塊），無需更多訓練，代理的效能就可以得到提高。如果代理可以接收到所有的影象塊，那麼即使輸入是亂序的，它也可以做到百分百的勝率，這點與觀測到全部螢幕的代理訓練結果相同。

作者發現，使用無序的觀測來增加訓練難度會有額外的收穫；比如提高對未見過變種任務的一般概括性，或者適應賽車訓練環境的背景被替換成全新影象的情況。

結論

文中提出的無空間關聯的神經網路代理可以處理未明確的或不斷變化的觀測空間。作者訓練的代理在面對包含冗餘或嘈雜資訊的，或者是缺失不完整的觀測時具有魯棒性。作者相信，這種無空間關聯的系統將會為強化學習提供更多的可能性。

分類： 科技

時間： 2022-01-11

以感官神經元為轉換器：用於強化學習的置換不變神經網路

方法

結果

結論

相關文章

未來十年足壇新王懸念
2021年以過半,未來十年,足球未來的十年,等著新星去探索,去書寫. 梅西C羅之後,誰將成為足壇主宰? 絕代雙驕在統治足壇已到末期,英雄遲暮.C羅還可起飛暴扣,梅西還可以過人如麻,我們可以看到他們老去 ...

“未來十年一定是中國消費品出海的十年”
近年來,國貨被越來越多的年輕人"翻牌子",成為Z世代(1995-2012年出生的人)"買買買"的首選.由冷到熱,新國貨如何走得更遠?投資者又是如何看待新國貨的? ...

未來十年應該持有的一隻成長股
關鍵點儘管要與一年前的艱難業績比較,但Snap正在指導第三季度更強勁的增長. 該公司的利潤率指標正朝著正確的方向發展. Facebook 展示了Snap 的盈利潛力. 即使Snap股價最近升至高位, ...

當科學家獲獎後，未來十年會發生什麼？
撰文:吳婷婷編審:寇建超排版:李雪薇前幾天,諾貝爾獎各個獎項塵埃落定,當我們在關注它們最終"花落誰家"時,也需要注意到科學獎項背後凸顯的一些問題: 比如,獎項的設立與頒佈是否 ...

以感官神經元為轉換器：用於強化學習的置換不變神經網路

方法

結果

結論

相關文章

未來十年足壇新王懸念 2021年以過半,未來十年,足球未來的十年,等著新星去探索,去書寫. 梅西C羅之後,誰將成為足壇主宰? 絕代雙驕在統治足壇已到末期,英雄遲暮.C羅還可起飛暴扣,梅西還可以過人如麻,我們可以看到他們老去 ...

“未來十年一定是中國消費品出海的十年” 近年來,國貨被越來越多的年輕人"翻牌子",成為Z世代(1995-2012年出生的人)"買買買"的首選.由冷到熱,新國貨如何走得更遠?投資者又是如何看待新國貨的? ...

未來十年應該持有的一隻成長股 關鍵點 儘管要與一年前的艱難業績比較,但Snap正在指導第三季度更強勁的增長. 該公司的利潤率指標正朝著正確的方向發展. Facebook 展示了Snap 的盈利潛力. 即使Snap股價最近升至高位, ...

未來十年足壇新王懸念
2021年以過半,未來十年,足球未來的十年,等著新星去探索,去書寫. 梅西C羅之後,誰將成為足壇主宰? 絕代雙驕在統治足壇已到末期,英雄遲暮.C羅還可起飛暴扣,梅西還可以過人如麻,我們可以看到他們老去 ...

“未來十年一定是中國消費品出海的十年”
近年來,國貨被越來越多的年輕人"翻牌子",成為Z世代(1995-2012年出生的人)"買買買"的首選.由冷到熱,新國貨如何走得更遠?投資者又是如何看待新國貨的? ...

未來十年應該持有的一隻成長股
關鍵點儘管要與一年前的艱難業績比較,但Snap正在指導第三季度更強勁的增長. 該公司的利潤率指標正朝著正確的方向發展. Facebook 展示了Snap 的盈利潛力. 即使Snap股價最近升至高位, ...