來源:Stanford
編輯:好睏 瘦瘦
【新智元導讀】近日,斯坦福李飛飛教授等人的研究「深度進化強化學習」登上nature子刊,首次證明了「鮑德溫效應」。或許,機器人形態的設計也可以透過一波「進化」來搞定?
動物的智慧是在和環境互動的過程中與身體形態同步進化的。
例如,倉鼠透過「進化」出長了好多腿的倉鼠球來逃避貓的追捕(doge)。
好吧,言歸正傳,AI也相當聰明,但與動物不同的是,AI通常是在矽基的晶片上實現的,並沒有實體。
那麼,如果給AI一個「身體」,這對於智慧的進化是否重要?如果是的話,又該如何利用來創造更聰明的人工智慧?
在李飛飛的帶領下,斯坦福大學的研究小組建立了一個計算機模擬的「遊樂場」——DERL(深度進化強化學習),其中被稱為「Unimals」(通用動物)的智慧體在經歷不斷變異和自然選擇。論文刊登在《自然通訊》雜誌上。
https://www.nature.com/articles/s41467-021-25874-z
研究結果顯示,虛擬生物的身體形狀影響了它們學習新任務的能力,在更具挑戰性的環境中學習和進化的形態,或者在執行更復雜的任務時,比那些在更簡單的環境中學習和進化的形態學習進化得更快、更好。
在這項研究中,具有最成功的形態的Unimal也比前幾代更快地掌握了任務,儘管它們最初的基線智力水平與前代相同。也就是說,「具身化」是智慧進化的關鍵。
「我們通常專注於AI是如何實現人類大腦中神經元的功能,」研究小組成員、斯坦福大學HAI的聯合主任李飛飛表示,「然而將AI看作是具有物理實體的東西是一種完全不同的正規化。」
研究報告的共同作者、人文與科學學院應用物理學副教授、HAI副主任Surya Ganguli說:「據我們所知,這是第一次相關的模擬實驗,其結果表明可以透過改變形態來加快學習的速度。」
「Unimal」宇宙
團隊設定了一個虛擬空間,並將簡單的模擬生物放入其中。當然,這些生物只是一些透過「隨機方式」進行移動的「幾何圖形」(Unimal)。
在學習階段中,有平坦的地形,有更具挑戰性的地形,包括塊狀山脊、階梯和光滑的山丘。Unimal必須在多變的地形上將一個塊狀物移動到目標位置。
訓練結束後,每個Unimal與其他三個在相同環境/任務組合中訓練過的Unimal進行比賽。勝者將產生一個單一的後代,該後代在面對與父母相同的任務之前,經歷了一次涉及肢體或關節變化的突變。
最終,在訓練了4000種不同的形態後,團隊結束了模擬。此時,倖存的Unimal平均經歷了10代的進化,其形態令人驚訝地多樣化,包括兩足動物、三足動物以及有手臂和無手臂的四足動物。
而最初,「幾乎圖形」只有一個「腦袋」和發達的「四肢」,他們有許多奇形怪狀的姿勢,「有些人蹣跚前行,有些如蜥蜴般的行走姿勢。其他人揮舞著十分逗趣的行為風格,讓人聯想到「八爪魚」。
咦?看起來似乎與舊實驗沒區別,別急,進化才剛剛開始。
這些Unimal生長在不同的星球中,星球中充滿了「起伏的山丘」和「低矮的障礙物」,他們在更加激烈的環境中展開競爭。看看是否如大家所說,「逆境是成功之母」。
每個環境中的前 10 名Unimal被安排在了新任務中,從「新障礙」到將球移動到目標位置、將盒子推上山或在兩點之間巡邏。這些「角鬥士」真正展示了他們的虛擬勇氣。
最終,那些能在「複雜的地形中」行走的 Unimal 比在「平地上的表親」更快地學習新任務,並且完成的更好。
換句話說,它們透過「生存」而「進化」,但並不是「邊做邊學」。而是在複雜的環境中同時進行「進化」和「學習」,比如有臺階、丘陵、山脊和移動的地形,以便在這些複雜環境中進行操作。
在平坦的地形上,「章魚flop」可能會以相同的時間到達終點線,但「適應山丘和山脊的身體配置」往往是更快速、更穩定和能力最強的。他們多才多藝的身體能夠更好的利用他們的經驗教訓 - 很快他們就將競爭對手拋在了腦後。
都交給「進化」去做吧
通用計算框架DERL利用兩個相互作用的適應過程來製造具身的智慧體
進化的外迴圈透過變異操作最佳化智慧體的形態(b),內部強化學習迴圈優化了神經控制器的引數(c)。在可變地形的操縱中,智慧體必須從初始位置(綠色球體)開始,將一個盒子移動到目標位置(紅色方塊)。
在每個環境完成三次進化執行後(每次有4000種形態),團隊從每個環境中挑選出表現最好的10個Unimal,並從頭開始訓練它們完成8項全新的任務,如繞過障礙物、操縱一個球或將一個箱子推上斜坡。
最成功的Unimal在個體(透過較少的訓練獲得更好的表現)和跨代的學習方面也更快。團隊發現,在早期祖先生命後期習得的行為能夠在他們的後代生命早期表達出來。
此外,在10代之後,最成功的Unimal形態在學習同一任務的時間是其最早祖先的一半。
這也驗證了美國心理學家James Mark Baldwin在19世紀末提出的假設:「學習具有適應性優勢的事物的能力」可以透過達爾文的自然選擇來傳承。
人類不一定知道如何為奇怪的任務設計機器人的身體,例如爬過核反應堆提取廢物,在地震後提供救災,引導奈米機器人穿過人體,甚至做洗碗或疊衣服等家務。
或許,設計這些機器人的唯一出路就是交給「進化」去實現。
參考資料:
https://www.nature.com/articles/s41467-021-25874-z
https://hai.stanford.edu/news/how-bodies-get-smarts-simulating-evolution-embodied-intelligence
https://techcrunch.com/2021/10/06/simulated-ai-creatures-demonstrate-how-mind-and-body-evolve-and-succeed-together/