sponsored links

以感官神經元為轉換器:用於強化學習的置換不變神經網路

與處理人眼傳來的資訊類似,大腦同樣可以處理來自面板的資訊。而我們的雙眼雙耳只是資訊的受體,“看見”和“聽見”實際是在大腦中進行的。

- Paul Bach-y-Rita,引用自Livewired

人類有一種神奇的能力,可以用一種感官方式(如觸覺)為另一種感官(如視覺)收集通常由後者提供的環境資訊。這種適應能力被稱作是“感官替代”,是神經學中的常見現象。更加困難的感官替代則需要學習幾周、幾個月甚至幾年的時間才能掌握,比如閱讀上下顛倒的文字、學習倒著騎腳踏車,或者是透過分析放在舌頭上的一根電極網格釋放出的視覺資訊來“看”東西。

相比人類,大多數的神經網路完全無法適應感官的替換。

舉例來說,多數強化學習(RL)代理需要特定的輸入格式,否則將無法進行學習。它們需要特定大小的輸入,並假定輸入中的每一個元素都準確包含特定含義,比如指定位置的畫素數、位置或速率的狀態資訊。

在常見的 RL 基準任務中(比如螞蟻或倒立擺),如果感官的輸入發生變化,或者使用與目前任務無關的額外噪音輸入,那麼使用當前RL演算法訓練的代理將會失敗。

在NeurIPS於2021年釋出的一篇重點論文,《以感官神經元為轉換器:用於強化學習的無空間相關性的神經網路》中,作者探討了無空間相關性的神經網路代理是如何不再假定含義固定不變的輸入,而是要求其每一個感官神經元(從環境中接受感官輸入的感受器)來判斷輸入訊號的含義和語境。實驗證明,這類代理對包含噪音或多餘且重複的,缺失不完整的的觀測輸入具有魯棒性。

除了在狀態觀測環境中適應感官替代(如前文中提到的螞蟻和倒立擺),這些代理還可以在複雜的視覺觀測環境(如只使用畫素觀測的賽車遊戲)中適應感官替代,並在輸入影象流不斷變化時,依舊可以執行。

方法

作者採用的方法是,在每個 time-step 時從環境中獲取觀測結果,並將觀測到的每個元素輸入不同但又相同的神經網路(感覺神經元)中,每個神經元之間沒有固定關係。而隨著時間的推移,每個感覺神經元只會接受它們特定的感覺輸入通道的資訊。而因為每個感覺神經元只會接受全部輸入中的一小部分,它們需要透過交流並進行自我的調整,以保證全域性行為的一致性。

觀測分割的圖示。作者將每個輸入都分割為元素,並輸入到各個獨立的感覺神經元中。對於非視覺的任務,輸入通常為 1D 向量,每個元素都是一個標量。而對於視覺任務,作者則將所有輸入圖片切割為不重疊的小塊。

作者訓練神經元透過廣播傳遞資訊,激勵其進行互相之間的交流。在接受本地資訊的同時,每個感覺神經元會同時在每個 time-step 不斷廣播一個輸出資訊。這些資訊會被整理併合併為一個輸入向量,作者稱之為全域性隱程式碼(global latent code),使用的方法類似轉換器架構中應用的注意力機制。隨後,作者使用一個策略網路將這些全域性隱程式碼所生成的動作應用於代理與環境間的互動。這個生成的動作也會在下一個 time-step 中反饋給各個感覺神經元,從而結束通訊的迴圈。

無空間關聯的 RL 方法概況。作者首先將每個單獨的觀測(o)輸入到一個特定的感覺神經元中(同時輸入的還有代理的前一步動作,a)。然後,每個神經元會獨立生成並廣播一個訊息,注意力機制將這些訊息整理為一個全域性隱程式碼(m)並傳遞到代理的下游策略網路(),以生成代理的行動 a。

為什麼說這個系統是無空間關聯的呢?因為所有的感覺神經元都是一模一樣的神經網路,而這些神經元所處理的資訊並不侷限於一個特定的感覺輸入。事實上,在實驗的設定中,每個感覺神經元的輸入都是沒有定義的。每個神經元必須對其收到的輸入訊號進行判斷,不能直接假設某個固定的含義,而是要透過對比其他感覺神經元所接收的訊息才能夠確定。這種設定鼓勵代理將完整的輸入當作是一個無序集合來處理,讓系統與其輸入之間無空間關聯。此外,代理原則上可以根據需要接觸儘可能多的感覺神經元,從而可以處理無固定長度的觀測。這兩個特性都對代理適應感官替換起到了協助的作用。

結果

作者在簡單的狀態觀測環境中的測試展示了該方法的魯棒性與靈活性。在這些測試中,代理所接收的觀測輸入都是低維度向量,其中包含了代理的諸如元件位置或速率之類的狀態資訊。在常用的螞蟻運動任務中,代理使用了總共 28 個包含位置和速率資訊的輸入。在測試中,作者多次打亂輸入向量的排列順序,每次代理都能夠迅速適應,並繼續向前行走。

在倒立擺的實驗中,代理的目標是將小車中心底部固定的杆保持垂直向上的平衡狀態。通常情況下,代理只會只能接受到五個輸入,但作者調整了倒立擺的環境,並提供了 15 個打亂後的輸入訊號,其中有 10 個是純噪音,剩下的則是實際來自環境的觀測。這種情況下,代理依舊可以正常執行,證明了系統有能力在大量 訊號輸入的情況下工作,並可以做到只關注它認為有效的頻道。這種靈活性在處理含有大量不確定訊號、其中多數都是來自未明確系統的噪音訊號這類應用時,會有大作用。

作者還將這種方法應用在了一個於基於視覺的高維環境中,其中的觀測物件是畫素影象流。作者研究的是影象打亂後的、基於視覺的 RL 環境,每個觀測幀都被分割為一個網格塊。而就像是解密卡一樣,代理需要首先將打亂後的小塊全部處理完,才能確定要採取的行動方案。為證明該方法在基於視覺的任務上的可行性,作者建立了一個打亂順序的 Atari Pong 遊戲。

以感官神經元為轉換器:用於強化學習的置換不變神經網路

在這個實驗案例中,代理面對的輸入是一個長度可變的影象塊列表,它只能“看見”畫面中的一部分影象塊。在亂碼後乒乓實驗中,作者將畫面中的隨機影象塊樣本作為輸入傳遞給了代理,而被選擇傳遞的影象塊位置在整場遊戲中保持不變。

實驗證明,在扔掉 70%的影象塊(都是固定位置的隨機塊)後訓練出的代理仍然可以在和內建 Atari 對手比賽時表現良好。有趣的是,如果向代理傳遞更多的資訊(如,允許它訪問更多的影象塊),無需更多訓練,代理的效能就可以得到提高。如果代理可以接收到所有的影象塊,那麼即使輸入是亂序的,它也可以做到百分百的勝率,這點與觀測到全部螢幕的代理訓練結果相同。

作者發現,使用無序的觀測來增加訓練難度會有額外的收穫;比如提高對未見過變種任務的一般概括性,或者適應賽車訓練環境的背景被替換成全新影象的情況。

結論

文中提出的無空間關聯的神經網路代理可以處理未明確的或不斷變化的觀測空間。作者訓練的代理在面對包含冗餘或嘈雜資訊的,或者是缺失不完整的觀測時具有魯棒性。作者相信,這種無空間關聯的系統將會為強化學習提供更多的可能性。

分類: 科技
時間: 2022-01-11

相關文章

未來十年:房子終將會,價格迴歸價值,價值迴歸地段

未來十年:房子終將會,價格迴歸價值,價值迴歸地段
當前階段,乃至未來一段時間,樓市都將會急劇分化.最開始源於資本的逐利炒作,慢慢地終將會價格迴歸價值,價值迴歸地段. -- 成都樓市觀察員 NO1 中國樓市,是一個神奇的所在 簡單說就是,房子這個東西, ...

中國未來十年的十大賺錢機會
現在可能是最好的時代,也可能是最壞的時代.對於看壞的人,覺得現在是一個大變局,優勢無法穩定持續:對於看好的人,這是個你想可以任意顛覆的時代,當然是最好的時代.我談十二點未來的機會: 一.機會在於中國消 ...

如果你買了這7類房子,那麼未來十年,升值潛力將非常大

如果你買了這7類房子,那麼未來十年,升值潛力將非常大
對於絕大多數家庭來說,買房就是為了給自己和家人提供一個舒適的居所,更好的改善自己的生活品質,然而隨著房價的高漲,越來越多人開始重視起房子的保值力和升值力,那麼今天我就來和大家分享一下,未來十年最具升值 ...

未來十年足壇新王懸念

未來十年足壇新王懸念
2021年以過半,未來十年,足球未來的十年,等著新星去探索,去書寫. 梅西C羅之後,誰將成為足壇主宰? 絕代雙驕在統治足壇已到末期,英雄遲暮.C羅還可起飛暴扣,梅西還可以過人如麻,我們可以看到他們老去 ...

天諭塔羅:巨蟹座未來十五天運勢,柳暗花明又一村,轉機將會出現

天諭塔羅:巨蟹座未來十五天運勢,柳暗花明又一村,轉機將會出現
大家好,我是天諭老師,也是你們的情感療愈師,今天老師要和大家講的是巨蟹座在未來十五天的運勢走向了.下面請大家放鬆身心,調整呼吸,靜下心來和我們的桌面產生連線.好了,我們來看看巨蟹座會是一個什麼情況. ...

天諭塔羅:水瓶座未來十五天運勢,處在停滯期,雙方都互相僵持著

天諭塔羅:水瓶座未來十五天運勢,處在停滯期,雙方都互相僵持著
大家好,我是天諭老師,也是你們的情感療愈師,今天老師要和大家講的是水瓶座在未來十五天的運勢走向了.下面請大家放鬆身心,調整呼吸,靜下心來和我們的桌面產生連線.好了,我們來看看水瓶座會是一個什麼情況. ...

“未來十年一定是中國消費品出海的十年”
近年來,國貨被越來越多的年輕人"翻牌子",成為Z世代(1995-2012年出生的人)"買買買"的首選.由冷到熱,新國貨如何走得更遠?投資者又是如何看待新國貨的? ...

容百科技佘聖賢:高鎳三元、磷酸鐵鋰是未來十年增長最快的兩條路線

容百科技佘聖賢:高鎳三元、磷酸鐵鋰是未來十年增長最快的兩條路線
本報記者 郭陽琛 石英婧 南京報道 "今年1~8月,全球動力電池有兩個細分市場值得關注,一是磷酸鐵鋰增長了160%,二是三元材料領域的811材料,增速甚至達到250%以上,這一高一低兩端市場 ...

一文帶你看懂未來十年房地產發展趨勢,掌握財富密碼,未來不迷茫

一文帶你看懂未來十年房地產發展趨勢,掌握財富密碼,未來不迷茫
房子建造出來是為了讓人們可以有居住的地方,只是未來幾十年裡,人們也見證了它的商品屬性,隨著人們對房屋的需求,經濟增長,購買土地,周邊環境等要求都會或多或少影響一個地區房價的走勢. 如今國家把" ...

2021樓市“金九銀十”的魔幻一幕:火爆銷售未至,集體退房先行?

2021樓市“金九銀十”的魔幻一幕:火爆銷售未至,集體退房先行?
這是熊貓貝貝的第669篇原創文章: #深圳龍華豪宅業主集體請願退房# #金九銀十探房季# 中國樓市中的逐利風氣,利益之下的人性本質,最模範,最生動的範本,放眼全國,深圳敢說第二,沒有城市能拔頭籌. 作 ...

高中生提前瞭解:未來十年最有可能消失的十二大職業

高中生提前瞭解:未來十年最有可能消失的十二大職業
隨著當今科學技術的飛速發展,除了給人們生活帶來便利外,也使不少人生活受到威脅,就好比人工智慧的異軍突起,在其高效完成任務的同時,一些職業也因人工智慧的發展而逐漸退出歷史舞臺. 雖然對於備戰高考的同學們 ...

首發丨「Yesoul野小獸」完成過億元A輪融資,小米領投佈局未來十年新賽道
創業邦獲悉,家庭健身科技品牌Yesoul野小獸近日已完成過億元人民幣A輪融資,由小米集團領投,順為資本與清科創投跟投,TEM資本與青桐資本擔任本輪財務顧問.隨著小米集團的投資,野小獸也正式成為小米生態 ...

未來十五年,還有人買房嗎?未來人口結構對房子有哪些影響?

未來十五年,還有人買房嗎?未來人口結構對房子有哪些影響?
本次人口普查出了幾百個的資料,但是網友們最關心的一個數據沒有公佈,國家這種不公佈本身也能說明一些問題,本次人口普查的資料,把每個年齡段的人都都列出來了,0到14歲是17.95%,60歲以上老人18.7 ...

中國的無印良品,能否成為未來十年的“國貨之光”?

中國的無印良品,能否成為未來十年的“國貨之光”?
今年3月的"新疆棉"事件,想必很多人仍記憶猶新.事情的起因可以簡單歸納為:一個總部位於瑞士日內瓦的國際非政府組織BCI,發表了一份宣告,聲稱新疆地區"持續存在強迫勞動和其 ...

後浪崛起!青春風暴席捲未來十年國際足壇,新絕代雙驕引關注

後浪崛起!青春風暴席捲未來十年國際足壇,新絕代雙驕引關注
我們正在一個飛速發展的時代,國際足壇亦是如此,轉眼間,那些被我們稱之為希望之星的95後乃至00後小將們均已紛紛嶄露頭角,更有甚者已經成長為了隊內主力! 隨著林加德.斯特林.哈蘭德等一批95後球員開始成 ...

未來十年應該持有的一隻成長股
關鍵點 儘管要與一年前的艱難業績比較,但Snap正在指導第三季度更強勁的增長. 該公司的利潤率指標正朝著正確的方向發展. Facebook 展示了Snap 的盈利潛力. 即使Snap股價最近升至高位, ...

當科學家獲獎後,未來十年會發生什麼?
撰文:吳婷婷 編審:寇建超 排版:李雪薇 前幾天,諾貝爾獎各個獎項塵埃落定,當我們在關注它們最終"花落誰家"時,也需要注意到科學獎項背後凸顯的一些問題: 比如,獎項的設立與頒佈是否 ...

數以百萬計的電動汽車電池將在未來十年內退役,但它們能去哪兒?

數以百萬計的電動汽車電池將在未來十年內退役,但它們能去哪兒?
▲位於中國東部江蘇省南京市的一家工廠的電池,該工廠生產電動汽車的鋰電池. 隨著汽車公司和政府承諾增加電動汽車的數量,在發達國家將出現電動汽車海嘯--預計到2030年,道路上將有1.45億輛電動汽車行駛 ...

在平凡的世界中走出不平凡的路

在平凡的世界中走出不平凡的路
編者按 1978年底召開的黨的十一屆三中全會開啟了中國改革開放的歷史新時期,與此同時,許多作家一邊關注著現實中的改革發展,一邊在文學中發表自己關於祖國發展的種種思考和設想,形成了"改革文學& ...

未來5年“很適合”女生的專業,薪資可觀又穩定,家有女兒可收藏

未來5年“很適合”女生的專業,薪資可觀又穩定,家有女兒可收藏
"男怕入錯行,女怕嫁錯郎",對於專業和就業的選擇來說,女生同樣適用. 大家都知道,男生的邏輯思維比較靈活,更加擅長理科,在填報志願的環節,基本上都偏向於理科的專業.而女生相對比較細 ...