sponsored links

模型輸入不靠眼睛看!華人一作:強化學習和人類有相同的感知能力

編輯:LRS

【新智元導讀】人的適應能力是很可怕的!盲人儘管無法用眼睛看到世界,但透過練習,盲杖就是他的眼睛。那神經網路的眼睛如果只能看到混亂的世界,那它會習慣嗎?Google Brain在NeurIPS 2021的spotlight paper最近就研究了這個問題,將輸入影象隨機打亂,發現強化學習得到的agent仍然能夠正確決策!

人類的感官能力實際上是非常驚人的。

著名的神經科學家Paul Bach-y-Rita曾對使用盲杖的盲人進行了細緻的觀察和研究。

他發現,盲人在行走時會前後掃動盲杖,盲杖的尖端經由面板上的觸覺感受體來告訴盲人路況資訊。

Bach-y-Rita從而備受啟發。

他認為盲杖可以看作是盲人和物體之間的「介面」,透過盲杖在手上的壓力觸感,能夠反饋給盲人形成諸如房間擺設這樣的空間資訊。

模型輸入不靠眼睛看!華人一作:強化學習和人類有相同的感知能力

因此,手上的面板及其觸覺感受體,就像一個資訊收集站,可以替代視網膜在大腦中形成影象。

你無需用眼睛看,也無需用耳朵聽,真正的看和聽都在大腦裡!

這種適應性也被稱為感官替代(sensory substitution),也是神經科學中非常著名的一個現象。

但一些困難的適應性也需要幾周、幾個月甚至幾年的練習才能做到,例如調整習慣看東西的角度,學習騎反向(backwards)的腳踏車等等。

相比之下,大多數神經網路根本無法產生感官替代的現象。

例如,大多數強化學習(RL)模型要求模型的輸入必須採用預先指定好的格式。這些格式限制了輸入向量的長度是固定的,並已經事先確定好輸入的每個元素的精確含義,例如指定位置的畫素強度,狀態資訊,位置或速度等。

在一些流行的RL基準任務(如Ant或Cart-Pole)中,如果模型的輸入發生變化,或者如果向模型提供了與手頭任務無關的額外噪聲輸入,那麼使用當前RL演算法訓練的agent 將無法繼續使用。

針對這個問題,Google在NeurIPS 2021上發表了一篇焦點論文,探索了具有排列不變性(permutation invariant)的神經網路模型。

這種神經網路要求每個感覺神經元(接收來自環境的感官輸入的神經元)必須能夠根據輸入訊號的上下文來找到訊號的真正含義,而非明確地指定一個固定的含義。實驗結果表明,這些沒有預先指定的agent有能力對含有額外冗餘或噪聲資訊以及損壞的、不完整的觀察輸入進行處理。

模型輸入不靠眼睛看!華人一作:強化學習和人類有相同的感知能力

https://arxiv.org/abs/2109.02869

Permutation Invariant指的是特徵之間沒有空間位置關係,即使輸入的順序發生變化也不會影響輸出結果。如在多層感知機中,改變畫素的位置對最後的結果沒有影響,但對卷積網路而言,特徵之間則有空間位置關係。

除了適應狀態觀測環境中的感官替代,研究還表明,這些agent還可以適應複雜視覺觀測環境中的感官替代。

例如在CarRacing遊戲,當輸入影象的流不斷地被reshuffle時,儘管人眼已經看不出來畫面,但AI仍然可以做出正確的行動。

論文的作者Yujin Tang於2007年獲得上海交通大學計算機專業學士學位,後於2010年獲得早稻田大學碩士學位,主要專注於強化學習和機器人學的研究,並熱衷於將相關技術應用於現實世界的問題。

模型輸入不靠眼睛看!華人一作:強化學習和人類有相同的感知能力

文中提出的研究方法在每個時間步中從環境中進行觀察,並將觀察的每個元素饋送成明確(distinct)但相同的(identiccal)神經網路,也稱為感覺神經元(sensory neurons),網路之間彼此沒有固定的關係。

每個感覺神經元僅透過其特定的感覺輸入通道與時間資訊進行整合。因為每個感覺神經元只能接收整個圖片的一小部分,所以他們需要透過互相通訊來自組織(self-organize)資訊結構以便進行全域性且連貫(coherent)的決策行為。

在實驗中,研究人員也透過訓練的方式促使神經元使用廣播訊息(broadcast messages)來互相溝通。

在接收區域性資訊時,每個感覺神經元在每個時間步驟中也需要連續廣播輸出訊息。使用類似於在Transformer 架構中用到的注意力機制,就能夠將這些訊息整合並組合到輸出向量中,並稱之為全域性潛碼。

然後,策略網路使用全域性潛碼來生成agent 的下一步與環境互動的行動(action)。行動結束後,通訊迴圈將關閉。

你可能還有一個問題,為什麼這個系統的輸入排列變化對模型輸出沒有影響?

因為每個感覺神經元都是同一個(identical)神經網路,它們並不侷限於處理來自某一特定感覺輸入的資訊,實際上每個感覺神經元的輸入都沒有定義。

相反,每個神經元必須透過關注其他感覺神經元接收到的輸入來找到自己輸入訊號的含義。

這個操作也會促進agent將整個輸入作為一個未排序的集合進行處理,從而使系統對其輸入保持不變。

此外,訓練後的agent可以根據實際需要,使用多個感覺神經元來處理任意長度的輸入。

實驗結果上,研究人員在簡單的狀態觀測環境中證明了這種方法的魯棒性和靈活性。

在常見的Ant locomotion任務中的agent總共需要接收28個輸入,其中包含位置和速度資訊等。研究人員多次打亂輸入向量的順序,實驗仍然表明訓練後的agent能夠快速適應不同排列的輸入,並且仍然能夠在遊戲中始終保持向前移動。

在cart-pole實驗中,agent的目標是擺動安裝在手推車中心的手推車杆,並使其保持向上平衡。

通常情況下,agent只能看到五個輸入,但研究人員修改了實驗環境來提供15個混合輸入訊號,其中10個是純噪聲,剩下的是環境的實際觀察結果。

結果表明,agent仍然能夠高效地執行任務,這也展現了該系統處理大量帶噪聲輸入的能力,並且agent可以只使用它認為有用的資訊通道。

研究人員還將這種方法應用於高維視覺環境,其中模型輸入是影象的畫素流。實驗主要研究了基於視覺的RL環境的screen-shuffled版本,其中每個觀察幀被劃分為一個patch網格,看起來就像一個迷宮一樣,agent必須以shuffed order的方式處理patch以確定要下一步要採取的動作。

實驗中,研究人員給agent一個隨機的螢幕上的patch樣本,然後遊戲的其餘部分保持不變。

結果發現模型仍然可以在這些固定的隨機位置分辨出70%的patch,並且仍然能夠在對陣內建的Atari對手時不落下風。

有趣的是,如果研究人員隨後向agent 透露額外的資訊,即允許它獲取更多的影象patch,即使沒有額外的訓練,它的效能也會提高。

當agent接收到所有patch時,即便按隨機順序,它也能100%對陣內建AI時獲得勝利。

並且這些操作雖然在訓練過程中增加了一些學習難度,但也會有帶來額外的好處,例如提高了模型的泛化性,即便更換了新的影象取代了訓練時的環境背景,agent依然可以正常執行。

作者認為,由於不限制輸入並且能過濾大量噪聲,這種permutation invariant 神經網路將會極大促進強化學習的發展。

參考資料:

https://ai.googleblog.com/2021/11/permutation-invariant-neural-networks.html

分類: 歷史
時間: 2021-12-07

相關文章

“雙減”之下,2022屆師範畢業生的就業新抉擇
中國商報(記者 王彤旭)隨著"雙減"政策的出臺,學科類培訓機構陷入風雨飄搖之中.此前,教培行業一度成為吸納師範畢業生就業的蓄水池,更因不菲的薪酬獲得了許多名校畢業生的青睞.對於當下 ...

1956年,陳賡帶一少年來中南海,周總理看到他痛哭不已,這是為何

1956年,陳賡帶一少年來中南海,周總理看到他痛哭不已,這是為何
1956年夏季的一天,陳賡手握紅色電話,用他地道的湖南口音開心地說:"小超,我是陳賡!"對方接電話的是周恩來的夫人鄧穎超.人們通常都叫她"鄧大姐",可是陳賡同周 ...

少年想當俠客卻成了土匪,十年後立了大功,“錯”出來的緣分

少年想當俠客卻成了土匪,十年後立了大功,“錯”出來的緣分
大家好,我是"王叔講故事",點選關注,為您分享精彩故事! 男孩一心想當俠客,卻陰差陽錯進入了土匪窩,雙胞胎兄弟就此分離.他們各自遭遇了什麼?他們還能見面嗎? (一)二寶不見了 明朝 ...

你只知道羅盛教是救人犧牲的,但獲救的少年後來咋樣了,你知道嗎

你只知道羅盛教是救人犧牲的,但獲救的少年後來咋樣了,你知道嗎
似乎不論是哪個國家,又或者是在哪個年代,都從來不缺乏英雄,特別是在戰爭時期,英雄人物和事蹟不勝列舉.在中國從古至今更是英雄輩出,不論是七戰匈奴保家衛國的衛青,還是匈奴末滅,何以家為的霍去病,亦或是留取 ...

18年前老劇《少年王》:衛斯理走進世外桃源,尋找歸家之路(二)

18年前老劇《少年王》:衛斯理走進世外桃源,尋找歸家之路(二)
2003年,由吳奇隆.陽光.于波等領銜主演的<少年王>一經播放,便掀起一輪科幻狂潮,至今仍不遜色於任何國產同類題材作品,上期我回顧了<少年王>的第一個單元<古墓魅影> ...

1956年陳賡帶一少年走進中南海,碰見周總理,陳賡:你看他像誰?

1956年陳賡帶一少年走進中南海,碰見周總理,陳賡:你看他像誰?
1956年的5月份,忙於籌建哈軍工學校的陳賡大將接到黨中央的指示,要求他迅速動身前往北京開會,陳賡收拾好行李後登車出發,他的警衛員發現這次和陳賡大將一起前往北京的還有一位少年,警衛員上前打聽這位少年的 ...

民間故事:男子做買賣回家,發現妻兒亡故,乞丐冒險告訴他真相

民間故事:男子做買賣回家,發現妻兒亡故,乞丐冒險告訴他真相
明朝嘉靖年間,有許多商販跑到廣州做生意,其中有一個綢緞莊的老闆叫張興,常年在外,許久沒有回家.趕上廣州鬧臺風沒法做生意,於是關了鋪子,回松江府看望出生後,一直沒有見過的兒子. 張興是庶子,在家排行老二 ...

農村“化糞池”的使用壽命是多少年?聽完專業人士的分析,有了數

農村“化糞池”的使用壽命是多少年?聽完專業人士的分析,有了數
導讀:農村"化糞池"的使用壽命是多少年?聽完專業人士的分析,有了數 農村的下水.排汙一直是個很令人頭疼的問題,所以農村廁所和化糞池的改造也得到了重視,這樣使得農民在建房對於化糞池的 ...

18年前老劇《少年王》:宇宙浪子衛斯理,深藍姐妹大小喬(終)

18年前老劇《少年王》:宇宙浪子衛斯理,深藍姐妹大小喬(終)
今天繼續更新2003年的科幻大劇<少年王>.這部劇的更新已經到了最後一期,想重溫前三個單元<古墓魅影>.<百里杜鵑>.<紅巖天書>的朋友,歡迎移步我的個 ...

“眼技”不行就別尬演,這5位演員告訴你什麼才是眼神戲

“眼技”不行就別尬演,這5位演員告訴你什麼才是眼神戲
(原創不易 抄襲必究) 演技好不好,眼神騙不了. 演員們的眼神戲很大程度上能夠與觀眾產生共鳴,調動觀眾的情緒,讓觀眾陷入同樣的情境之中. "眼技"好,能夠給演技增加更多的張力,但通 ...

特價二手車能不能買?這輛瑪莎拉蒂告訴你:商家利潤拿捏得死死的

特價二手車能不能買?這輛瑪莎拉蒂告訴你:商家利潤拿捏得死死的
哈嘍!大家好,檢車家老司機又和大家見面啦,我是一名二手車檢測技師,因為打麻將喜歡槓牌,又排行老三,所以人送外號三槓!我有著多年的汽車維修經驗,工作中遇到事故車會選擇槓到底,所以檢測找我沒錯的! 這次給 ...

梅西,一個純真少年,在這個夏天與理想訣別

梅西,一個純真少年,在這個夏天與理想訣別
不用等待多長時間,他的塑像會在諾坎普樹立,會有無數的巴薩球迷.非巴薩球迷.甚至非足球球迷,來此致敬.崇拜. 然而當巴薩俱樂部用35座獎盃,去點綴梅西離去的告別儀式時,這卻是梅西生命中最痛苦的時刻. 他 ...

矯揉造作就別演軍旅劇了,這8位女星告訴你,什麼叫颯爽軍人氣質

矯揉造作就別演軍旅劇了,這8位女星告訴你,什麼叫颯爽軍人氣質
很長一段時間我們一些神劇將軍人形象娛樂化,男愛豆染著披肩黃髮演軍人,女流量踩著高跟鞋,化著大濃妝演女兵,甚至上了戰場開槍前還要塗一塗口紅. 演技也很浮誇,各種嬌滴滴.矯揉造作,讓觀眾愕然. 熒幕上的女 ...

江一燕:支教10年,被各種質疑?那些山區孩子的現狀,告訴你答案

江一燕:支教10年,被各種質疑?那些山區孩子的現狀,告訴你答案
2019年11月,江一燕因獲美國建築大獎一事引發熱議. 在網友深挖.官方實錘的情況下,江一燕趕忙在社交平臺致歉.然而"蹭獎"."違建"兩詞或將成為她往後很難抹去 ...

出走半生,歸來仍是少年
少年的故事 少年向來不識天高地厚,放眼處皆自負才高八斗,雖是自命風流,倒也坦誠無憂,我愛這樣的少年,謙和而狂妄,驕傲又坦然. 1. 有一座村子,不知已經坐落了多少年.村子外有可怕的惡龍,惡龍的身邊有著 ...

湖南一少年通曉鳥語,能引導鳥兒做事,傳聞中的“鳥神”被找到?

湖南一少年通曉鳥語,能引導鳥兒做事,傳聞中的“鳥神”被找到?
古人云"技多不壓身",是以從古至今,有技術傍身的人都能把日子過得紅紅火火.不過有些技術並不是想學就能學會的,至少也要有些天賦才可以,比如"語言". 說到語言涉及 ...

從窮小子到企業老總,我用親身經歷,告訴你最掙錢的方法

從窮小子到企業老總,我用親身經歷,告訴你最掙錢的方法
我是小芒故事,點選上方"關注",每天給你帶來新鮮故事. 1 殷茉認識於顏時,二十四歲的於顏,水靈的像朵花. 兩人熟悉以後,殷茉問:"和我這樣的姐姐在一起,你不會覺得彆扭? ...

許巍:一首《執著》藏盡了不甘,52歲的他為何被稱為許少年?

許巍:一首《執著》藏盡了不甘,52歲的他為何被稱為許少年?
2018年7月,在豐寧壩舉行的草原音樂節上,數萬名觀眾正在為一個年過半百的男人唱生日祝福歌.舞臺上的男人滿眼淚光,因為他大半輩子都在流浪,看遍了人間滄桑. 在他早期的歌曲中,充滿了對社會的抨擊和頹廢. ...

今晚又雙叒叕被肖戰鯊瘋了海外粉絲沸騰了!“你要什麼,告訴我

今晚又雙叒叕被肖戰鯊瘋了海外粉絲沸騰了!“你要什麼,告訴我
#肖戰天橋故事# 今晚又雙叒叕被肖戰鯊瘋了#小飛俠# 海外粉絲沸騰了!"你要什麼,告訴我,幾家麵包店?我想成為那個欄杆!泰國的橋上肯定找不到他好帥,忘記呼吸了"#日常見肖戰#@X玖 ...

“雙減”後,足球少年參加新民晚報杯的快樂“加倍”了

“雙減”後,足球少年參加新民晚報杯的快樂“加倍”了
昨天下午,T98綠洲足球基地熱鬧非凡,2021第36屆"海港-上汽"杯新民晚報暑期中學生足球賽決賽在這裡決出優勝隊伍.球場上歡呼雀躍的孩子,是全市千餘支參賽球隊近萬名參賽學生中的幸 ...