sponsored links

強化學習AI能帶你1打5嗎?MIT新研究:AI並不是人類的最佳隊友

編輯:LRS

【新智元導讀】強化學習的AI在對抗遊戲中表現十分強力,但被虐的只有人類玩家。如果這麼強的AI做了隊友又該怎麼樣?MIT最近研究表明,AI和人類玩家之間的配合可以說是沒有配合了,根本看不懂隊友給的各種暗示資訊!

強化學習的AI在圍棋、星際爭霸、王者榮耀等遊戲以絕對的優勢碾壓了人類玩家,也證明了思維能力可以透過模擬來得到。

但如果這麼強的AI成為了你的隊友,能被帶飛嗎?

MIT林肯實驗室的研究人員最近的在紙牌遊戲Hanabi(花火)中人類和AI agenet之間的合作研究結果表明,儘管RL agent的個人表現能力十分出色,但當跟人類玩家一起匹配的時候,卻只會讓人直呼太坑。

強化學習AI能帶你1打5嗎?MIT新研究:AI並不是人類的最佳隊友

https://arxiv.org/pdf/2107.07630.pdf

Hanabi是一個需要玩家之間互相溝通合作取勝的遊戲,在這個遊戲中,人類玩家更喜歡可預測的基於規則的AI系統,而非黑盒的神經網路模型。

強化學習AI能帶你1打5嗎?MIT新研究:AI並不是人類的最佳隊友

一般來說,最先進的遊戲機器人使用的演算法都是深度強化學習(deep reinforcement learning)。首先透過在遊戲中提供一個agent和一組可能的候選action集合,透過來自環境的反饋機制來進行學習。在訓練過程中,還會採用隨機的探索action來最大化目標,從而獲得最優的action序列。

深增強學習的早期研究依靠人類玩家提供的遊戲資料進行學習。最近研究人員已經能夠在沒有人類資料的情況下,純粹依靠自我博弈來開發RL agent。

MIT 林肯實驗室的研究人員更關注讓如此強大的AI 如何成為隊友,這項工作也能讓我們進一步瞭解是什麼阻礙了強化學習的應用只能侷限於電子遊戲,而無法擴大到現實應用中。

強化學習AI能帶你1打5嗎?MIT新研究:AI並不是人類的最佳隊友

最近的強化學習研究大多應用於單人遊戲(Atari Breakout 打磚塊)或者對抗性遊戲(星際爭霸,圍棋),其中AI 主要的對手是人類玩家或者是其他的AI 機器人。

在這些對抗中,強化學習取得了空前的成功,因為機器人對這些遊戲並沒有一些先入為主的偏見和假設,而是從零開始學習打遊戲,並以最好的玩家資料進行訓練。

事實上,AI學會打遊戲以後,甚至還會自己創造一些技巧。一個有名的例子是DeepMind的alphago在它的比賽中下了一步棋,但分析師當時認為這一步棋是一個錯誤,因為它違背了人類專家的直覺。

但同樣的舉動卻帶來了不一樣的結果,AI最後憑藉這手成功擊敗了人類。所以當RL agent與人類合作時,研究人員認為同樣的聰明才智也可以發揮作用。

強化學習AI能帶你1打5嗎?MIT新研究:AI並不是人類的最佳隊友

在MIT研究人員的實驗中選擇了紙牌遊戲Hanabi,其中包括兩到五名玩家,他們必須合作以特定的順序出牌。Hanabi 很簡單,但它也是一個需要合作和有限的資訊的遊戲。

Hanabi遊戲發明於2010年,由二到五個玩家參與,玩家需以正確的順序一起打出五種不同顏色的牌。遊戲特點:所有玩家都可以看到對方的牌,但卻看不到自己的牌。

根據遊戲規則,玩家可以互相提示自己手裡的牌(但僅限於牌的顏色或數字),讓其他玩家可以推斷他們應該出什麼牌,但提示的次數是有限制的。

正是這種高效溝通的行為使Hanabi具備了一種科學魅力。例如,人類可以很自然地理解其他玩家的提示,哪張卡片是可出的,但是機器本質上無法理解這些提示。

到目前為止人工智慧程式已經可以在玩Hanabi花火遊戲時贏得很高分數,但只限於與其他類似的智慧機器人一起玩。在不熟悉其他玩家的遊戲風格或者有「臨時」(從未一起玩過的)玩家的情況下,對程式的挑戰最大,也更接近真實情況。

近年來,幾個研究團隊探討了可以玩Hanabi的AI機器人的發展,其中一些強化學習agent使用符號AI。

AI的評估主要採用他們的效能,包括self-play(和自己玩),cross-play(和其他型別的agent一起玩),Human-play(和人類合作)。

強化學習AI能帶你1打5嗎?MIT新研究:AI並不是人類的最佳隊友

和人類玩家之間的cross-play,對於衡量人與機器之間的合作尤為重要,也是論文實驗的基礎。

為了檢驗人工智慧協作的有效性,研究人員使用了SmartBot,這是一種基於規則的self-play人工智慧系統,還有一種在跨遊戲和RL演算法中排名最高的模型Hanabi機器人Other-Play。

強化學習AI能帶你1打5嗎?MIT新研究:AI並不是人類的最佳隊友

在實驗中,人類參與者與AI agent一起玩了幾次Hanabi遊戲,每次隊友的AI都不相同,實驗人員並不知道在和哪個模型一起玩。

研究人員根據客觀和主觀指標評估了人類AI合作的水平。客觀指標包括分數、錯誤率等。主觀指標包括人類玩家的經驗,包括他們對AI團隊成員的信任和舒適程度,以及他們理解AI動機和預測其行為的能力。

兩種人工智慧模型的客觀表現無顯著差異。但研究人員預計,人類玩家對Other-Play有更積極的主觀體驗,因為他們接受過與其他玩家合作的訓練。

根據對參與者的調查,與基於規則的SmartBot Agent相比,經驗豐富的Hanabi玩家在其他遊戲RL演算法方面的經驗較少,成功的一個關鍵點是為其他玩家提供偽裝線索的技能。

例如,說「一個方塊」卡放在桌子上,你的隊友手裡拿著兩個方塊。當你指著卡片說「這是兩張」或「這是一個正方形」時,你暗地裡告訴你的隊友玩這張卡片,而不告訴他關於卡片的全部資訊。一個經驗豐富的玩家會立刻就能夠領會這個提示。但向AI 隊友提供相同型別的資訊證明要困難得多。

一個參與者表示,我已經給了隊友很明顯的提示了,但他根本就沒用,我不知道為什麼。

一個有趣的現實是,Other-play一直在避免建立「秘密」的約定,他們只是在執行self-play時開發的這些預定規則。這使得Other-play成為其他AI演算法的最佳隊友,儘管AI演算法並不是其訓練計劃的一部分。但研究人員認為,這是他在訓練過程中已經假設了會遇到哪些型別的隊友。

值得注意的是,Other-play假設隊友也針對zero-shot 協調進行了最佳化。相比之下,人類Hanabi玩家通常不會使用這種假設進行學習。

遊戲前常規設定和遊戲後覆盤是人類Hanabi玩家的常見做法,使人類學習更容易獲得few-shot協調的能力。

研究人員表示,目前的研究結果表明,人工智慧的客觀任務表現(self-play和cross-play)在與其他AI模型合作時,可能與人類的信任和偏好無關。

這就產生了一個問題:哪些客觀指標與主觀的人類偏好相關?

強化學習AI能帶你1打5嗎?MIT新研究:AI並不是人類的最佳隊友

鑑於訓練基於RL的agent所需的資料量巨大,訓練環中的人是不可行的。因此,如果我們想訓練被人類合作者接受和評估的AI agent,我們需要找到可訓練的,可以替代或與人類偏好密切相關的目標函式。

同時,研究人員也說明,不要將Hanabi實驗的結果外推到他們無法測試的其他環境、遊戲或領域。

論文還承認了實驗中的一些侷限性,研究人員正在努力解決這些侷限性。例如,受試者群體很小(只有29名參與者),並且偏向於精通Hanabi的人,這意味著他們已經預先定義了AI團隊成員的行為期望,並且更有可能對RL agent有負面體驗。

然而,研究結果對未來加強學習研究具有重要意義。

如果最先進的RL agent甚至不能在一個限制性和窄範圍的遊戲中成為一個可以接受的合作者,那麼我們真的應該期待同樣的RL技術在應用於更復雜、更微妙、更具後果性的遊戲和現實世界的情況時只是可以用。

在技術和學術領域,關於強化學習的爭論很多,而且確實如此,研究結果也表明不應將RL系統的顯著效能視為在所有可能的應用中都能獲得相同的高效能。

在學習型智慧體在複雜的人類機器人互動等情況下成為有效的合作者之前,需要更多的理論和應用工作。

參考資料:

https://arxiv.org/pdf/2107.07630.pdf

分類: 親子
時間: 2021-11-04

相關文章

看見可愛的小動物就想一屁股坐死,我怕不是個變態?

看見可愛的小動物就想一屁股坐死,我怕不是個變態?
你有沒有過這樣一種衝動: 看見肉嘟嘟的小嬰兒,忍不住想在ta臉上狠狠地嘬上一口 好可愛的小奶貓!真想一屁股坐死它 這隻毛茸茸的小奶狗萌到我噴鼻血,好想rua爆它的頭 等到蹂躪眼前這個萌物的衝動褪去後, ...

有趣的綠植,像是長了滿盆小動物,超可愛

有趣的綠植,像是長了滿盆小動物,超可愛
有些植物天生非常可愛,長得就像小動物一樣, 爆盆之後簡直超可愛,很多人都超級喜歡這種非常可愛的小盆栽,今天咱們就來一塊看看這些非常像小動物的植物吧~ 一.金魚吊蘭 金魚吊蘭生長起來也是十分可愛的,因為 ...

二胎生活(9)聊聊孩子與小動物

二胎生活(9)聊聊孩子與小動物
如果有可能,我強烈推薦大家給孩子們養點小動物.因為孩子們對小動物的愛,是那麼純粹和天真.他們照顧小動物,付出自己的耐心和愛心,也學會尊重和熱愛自然界每一個小小的生命. 我家大寶哥哥養過烏龜,取名叫&q ...

屈老師小班語言公開課教案《小動物的雨傘》含PPT課件

屈老師小班語言公開課教案《小動物的雨傘》含PPT課件
活動目標: 1.初步學會兒歌,會用"-是-的傘"的句式來創編兒歌. 2.學會疊詞"高高的"."圓圓的"."綠綠的".&q ...

虐殺小動物“血色交易鏈”:使用手段極其殘忍,販賣影片牟利
來源:"法治日報"微信公眾號 伴隨著打賞者提出的"摔五次打五次"要求,一隻橘白色相間的小貓被人狠狠地摔在地上.與此同時,影片留言區,還有人不斷刷著"用 ...

蠟筆小新:一個喜歡小動物的男孩
相信每個成年人看到小新和小白一起的日子都會發自內心的喜愛.一起玩耍,一起成長.小白也作為這個五口之家最成熟的存在.幫買東西,看門,帶娃,還有鎖門.每每看到這些,我都有給我家小孩子養條狗狗的衝動.希望喜 ...

帶快充合資小SUV,續航480km空間不小,用車養車成本低,本田M-NV

帶快充合資小SUV,續航480km空間不小,用車養車成本低,本田M-NV
#本田M-NV#時過境遷,燃油車到新能源汽車,成為了汽車行業要走的必選項,隨著新能源汽車技術的成熟和穩定,相信在未來的不久,新能源汽車就會成為當代主流.我們也從當下的汽車市場去看,越來越多的車企都在爭 ...

零下61度!2021年南極遭遇史上最冷的冬天,地球步入小冰河了?

零下61度!2021年南極遭遇史上最冷的冬天,地球步入小冰河了?
南極遭遇最冷寒冬 前段時間,大家還處在秋老虎遲遲不來的狀態中,這幾日又氣溫驟降,讓人直接從夏天過渡到冬天.但可能很多沒注意到,南極剛遭遇有記錄以來最冷的一個冬天,在4月到9月這段時間,南極洲高原的研究 ...

十月啦還不知道入手種什麼花嗎?快來看看小編推薦

十月啦還不知道入手種什麼花嗎?快來看看小編推薦
十月種花推薦 自然界的植物,隨著季節的變換,也在不斷的生長.休眠.再生長,如此更迭.隨著天氣的轉涼,一些夏季開花植物,開始逐漸進入生長緩慢狀態,隨之"登場"的是一些喜冷涼,怕酷熱的 ...

遠古發現丨這種史前小動物,滅絕與“臉短”有關嗎?

遠古發現丨這種史前小動物,滅絕與“臉短”有關嗎?
記者從中科院古脊椎動物與古人類研究所獲悉,科學家在內蒙古中部發現了一批約2000萬年前的短面蝟化石.經研究發現,這種在地質歷史上只"短暫"存在過的蝟科動物,可能與現生的多種刺蝟一樣 ...

更快,更小,更安全-臺電飛豹固態隨身碟

更快,更小,更安全-臺電飛豹固態隨身碟
隨著固態硬碟的高速發展,隨身碟可以被做得儲存空間越來越大,價格越來越親民,現在已經基本淘汰了傳統的行動硬碟,傳統行動硬碟受本身產品特性限制,已經不適合現在人們的需求了,速度遠遠跟不上固態硬碟,而且還非 ...

紀錄動物:消失三千年的“小惡魔”,回來了

紀錄動物:消失三千年的“小惡魔”,回來了
來自澳大利亞的"塔斯馬尼亞惡魔"袋獾(dài huān),亦被稱作塔斯馬尼亞惡魔,身形與小狗相似,食肉動物,全身黑色,胸部和臀部往往帶有一些白毛,整體看上去像是一隻萌萌的大老鼠,分 ...

想要噪音小、換氣快,車窗應該怎麼開?

想要噪音小、換氣快,車窗應該怎麼開?
想要換氣快,噪音小,開啟後排的2個窗戶和前排的1個窗戶,效果是比較好的.如果只想開啟1扇窗戶吹吹風,開一半還不如全部開啟. 如果是開超跑的朋友,只有2扇窗戶,建議平時都開啟,畢竟關了就不方便和路上的小 ...

最小食肉動物伶鼬重3兩,年滅鼠3500只,何不用來防治澳洲鼠災?

最小食肉動物伶鼬重3兩,年滅鼠3500只,何不用來防治澳洲鼠災?
剛剛進入十月底,阿拉斯加迪納利國家公園的冬季已然來臨.這是大自然的獵殺季節,氣溫下降至零下攝氏40,甚至是50度.大地已經被冰凍結實,許多小動物都逃進地下,尋找躲避嚴酷環境的庇護所.這片凍土只是一個臨 ...

一件極普通的小事兒,畫出了一本極好的繪本

一件極普通的小事兒,畫出了一本極好的繪本
媽媽在廚房收拾家務的時候,阿立正把一隻腳抬起來,試著自己穿小內褲.阿立還不會自己穿褲子,因為穿的時候,需要把一條腿抬起來.可把一條腿抬起來,身體就會搖搖晃晃站不穩的啊. 每次阿立試著穿褲子的時候,都會 ...

青海1只50斤小雪豹,與母豹走散後潛入牧場,咬死1頭200斤小牛犢

青海1只50斤小雪豹,與母豹走散後潛入牧場,咬死1頭200斤小牛犢
雪豹號稱"雪山之王",自古以來就生活在人跡罕至的雪線之上.近年來,由於氣候環境的變暖以及人為破壞,野生食草動物大量減少,雪豹開始下山,來到人類放牧的山谷乃至草原上,大肆捕食羊牛. ...

世界上飛行最快的鳥,連高鐵也追不上

世界上飛行最快的鳥,連高鐵也追不上
世界上飛行速度最快的動物,連高鐵都追不上它,肉眼捕捉不到 要說世界上速度最快的動物,很多人都會想起草原上的獵豹,其實獵豹作為陸地上奔跑最快的一種動物,相比起飛行速度最快的鳥類來說,還是有一定差距的.世 ...

最快後年搬新家!西城這處棚改如今到哪步了?

最快後年搬新家!西城這處棚改如今到哪步了?
各位親: 近日,光源裡棚改的回遷房建設 又有了新的動靜 從公告上來看 目前光源裡的住宅地庫和幼兒園等 已經紛紛中標 居民們的新家已經越來越觸手可及啦 而且從外立面上看 不少回遷房都能看出已經封頂了 西 ...

中秋遊玩寶典來襲!快來體驗園博園的中秋假日範兒

中秋遊玩寶典來襲!快來體驗園博園的中秋假日範兒
明.後兩天天氣放晴,終於可以開啟戶外模式,大家的快樂又回來啦,突然間有點小躁動了呢.去哪兒玩?玩什麼?怎麼玩?小園已經給你們安排妥當了,近距離,多福利!讓你在園博園過一個圓圓滿滿的中秋! 遊在園博 中 ...