導語
我們都知道大腦是控制身體的中樞,或者誇張點說,身體只是大腦的傀儡。然而事實果真如此嗎?認知科學指出,人類並不總是“先知後行”,很多時候也會“先行後知”,身體在塑造精神方面也有著強大的能力。但是人工智慧的研究常過於關注“軟體”上的智慧,透過各種演算法模擬神經網路,卻忽略了生命的具身智慧。斯坦福人工智慧研究所聯席主任李飛飛近日在Nature Communications 上以“進化和學習產生的具身智慧”一文,在模擬環境中證明了人工生命的具身智慧,為複雜環境下機器人的設計提供了啟發。
研究領域:人工生命,進化演算法,具身認知
論文題目:
Embodied intelligence via learning and evolution
論文連結:
https://www.nature.com/articles/s41467-021-25874-z
1. 智慧和身體形態有關
動物能夠完成適合其物理形態的特定任務,這被稱為具身智慧( embodied smarts)。每個動物的智力在與環境相互作用的過程中,都是與其物理形態協同進化的。因此,蜘蛛用它們細長的腿編織網,海狸拍打它們寬闊的尾巴發出警報,獵豹飛快地跑去抓斑馬,而人類有手指去抓握工具。
雖然人工智慧也很聰明,但它的智慧與動物不同。人工智慧通常是無實體的,如自然語言處理等機器學習,通常是在計算機內部的矽基晶片上完成的,在真實世界中沒有物理實體。雖然計算機視覺需要攝像機或感測器,但它通常獨立於任何物理形態。
斯坦福大學李飛飛等研究人員想知道:物理形態對智力的進化有影響嗎?如果是這樣的話,計算機科學家應該如何利用物理形態來創造更聰明的人工智慧呢?
為了回答這些問題,它們建立了一個計算機模擬的遊樂場。在那裡,被稱為“ unimals”的節肢動物主體可以在突變和自然選擇的約束下學習。隨後,研究人員開始觀察unimals的虛擬身體是如何影響其智力進化的。
研究發現,虛擬生命的身體形態影響了它們學習新任務的能力。在更具挑戰性的環境中或在執行更復雜的任務時進化出的生命形態,比那些在簡單環境中進化出的生命形態,能夠更快更好地學習。在這項研究中,具有最成功形態特徵的人工生命,相比其前幾代祖先能更快地完成任務ーー儘管它們在學習開始時的智力水平與其前幾代祖先相同。
圖1.研究中建立的 Unimal,即通用動物(universal animal),能透過進化產生胳膊,以在模擬環境中生存下來。
2. 人工生命的角鬥場
在模擬中,研究者不僅改變了人工生命的身體形態,還改變了它們的訓練環境和執行的任務,使得實驗的複雜度遠高於之前的同類研究。透過錦標賽式的達爾文進化方案,該模擬能夠確保每一種人工生命的形態都不會被一票否決,就算在不利的環境下依然有機會將形態傳遞給下一代。該方法既保持了種群的多樣性,又降低了模擬的計算量。
深度進化強化學習框架(Deep Evolutionary Reinforcement Learning),綠框標出的強化學習發生在個體層面,而紅框的突變改變身體形態,是該框架中進化演算法的體現。
每次模擬開始於576個獨特的人工生命,包括一個“球體”(頭部)和一個由不同數量的圓柱形節肢以不同方式排列而成的“身體”。每個人工生命都以相同的方式感知世界,並以相同的神經結構和學習演算法開始模擬。換句話說,所有的人工生命在開始它們的虛擬生活時,都擁有相同程度的智慧,只是身體形狀不同。
然後,每一個人工生命都要經過一個學習階段。在這個階段中,它要麼穿越平坦的地形,要麼穿越包括塊狀山脊、階梯和平滑山丘等更具挑戰性的地形。還有一些人工生命必須移動箱子到目標位置,才可以跨越複雜的地形。
圖4. 人工生命分別透過平坦、需要繞障和需要將箱子推至指定位置的環境。
訓練結束後,每個人工生命與其它三個在相同的環境/任務組合下訓練的人工生命參加錦標賽,獲勝者能夠產生後代。後代在面臨與其父母相同的任務之前,經歷了四肢或關節的微小突變。所有的人工生命(包括獲勝者)都參加了多項錦標賽,只有當新的後代出現時才會開始衰老。
3. 身體進化,使得習得有利的行為更快
在每個環境完成三次進化迭代(每次迭代產生4000種形態)後,倖存下來的人工生命平均經歷了10代的進化,其形態十分多樣,包括兩足動物、三足動物以及有或沒有手臂的四足動物(見圖5)。
圖5. 在平坦(a)、需要繞障(b)和需要將箱子推至指定位置(c)的三種環境下,進化得出的最佳形態十分多樣
研究人員從每個環境中挑選出了10種表現最好的人工生命,並從頭開始訓練它們完成繞過障礙物、推球或者把箱子推上斜坡等全新的八個任務(見圖6)。
圖6. 人工生命需要完成的8種新任務,包括巡邏、越障、探索和逃離等。
結果是:在需要繞障的環境中進化的人工生命,比在平坦環境中進化的人工生命表現更好,而當在需要將箱子推至指定位置的環境下進化出的人工生命表現最好。表現好的人工生命,無論是單獨學習(透過較少的訓練獲得更好的表現)還是跨代學習都更快。事實上,經過10代進化後,表現好的人工生命已經十分適應環境,以至於它們學習相同任務的時間只需要它們最早祖先的一半。
(a)在三種環境下,使種群中表現前100名的主體適應度達到種群初始值的75%所需的平均迭代次數(縱軸);(b)三種環境中穩定形態的比例,該值在平坦、需繞障和需要推箱子至指定位置的環境中依次增加,說明覆雜的環境對穩定性的選擇壓較高;(c)平均工作成本(縱軸)隨進化代數(橫軸)的變化;(d)在平坦環境下,不同代人工生命的學習曲線,表明後代不僅表現好,而且學習的更快。
這與19世紀美國心理學家鮑德溫(Baldwin)提出的一個假說是一致的,他推測在進化的早期,祖先習得的行為將逐漸成為本能,甚至可能在後代中遺傳。鮑德溫效應指出:學習適應性優勢的能力,可以透過達爾文的自然選擇遺傳給後代,即“大自然選擇的身體形態變化,使得後代能更快學習有利的行為。例如,如果一種動物在生命早期不能學會走路,可能更容易死亡,從而對基因型產生直接的選擇壓力,選出能更快學會走路的動物。該效應描述的從表型到基因型的能力轉移,可能為習得更復雜的行為(如語言能力及模仿能力)騰出學習資源。
4. 總結:製造更聰明的人工智慧
該研究在人工生命的演化中結合進化演算法和強化學習,論證了以下三點:首先,環境的複雜性能夠促進具身智慧的進化,從而使後代形態有助於學習新的任務。其次,人工生命的模擬重現了鮑德溫效應,進化能夠將早期祖先學會的有利行為表達在後代的基因中。第三,學習效率和物理形態有關,某些形態更加穩定,工作效率更高,因此可以促進學習和控制。
一直以來,設計在複雜環境下完成任務的機器人都是一個難題。然而,真實世界需要機器人的場景往往又都是複雜的,比如爬過核反應堆提取核廢物,在人體血管中穿行輸送藥物,在地震後的廢墟中搜尋生命等。也許解決這一問題的唯一道路是透過進化來設計機器人。透過讓人工生命在日益複雜的模擬環境中進化,幫助開發現實世界執行復雜任務的機器人,增強其泛化能力和穩定性。
郭瑞東 | 作者
張澳 | 審校
鄧一雪 | 編輯
商務合作及投稿轉載|[email protected]
◆ ◆ ◆
搜尋公眾號:集智俱樂部
加入“沒有圍牆的研究所”
讓蘋果砸得更猛烈些吧!