本科生就在 NeurIPS 發一作論文?麻省理工學院(MIT)的兩名學生賈格迪普·巴蒂亞(Jagdeep Bhatia)和霍利·傑克遜(Holly Jackson)做到了。
圖 | 左:霍利·傑克遜(Holly Jackson);右:賈格迪普·巴蒂亞(Jagdeep Bhatia)(來源:資料圖)
他們給機器人研發出一款“線上健身房”,一經訓練即可進化出 30 多種運動能力,堪比機器人的“小型奧運會”。
日前,相關論文以《進化健身房:軟體機器人進化的大型基準》(Evolution Gym: A Large-Scale Benchmark for Evolving Soft Robots)為題,發表在全球人工智慧頂會 NeurIPS 2021 上[1]。
擔任論文第三作者的是中國留學生田韻聲,他目前是 MIT 計算機科學與人工智慧實驗室(CSAIL)三年級在讀博士生,導師為沃伊切赫·馬圖斯克(Wojciech Matusik)教授,研究領域包括計算機圖形學、機器學習與機器人。2019 年,田韻聲本科畢業於南開大學,期間由任博教授指導,後曾在微軟亞洲研究院和香港大學擔任研究實習生。
如果想讓機器人完成一些任務,你可能會針對特定任務,設計出特定的機器人形態。比如設計一個扔東西的機器人,並且扔得越遠越好,你可能會想象出一個有胳膊有手的人形機器人,但一般很難想到這樣的機器人:
這個機器人同樣能完成扔東西的任務,並且完成得還不錯。雖然它的形狀十分怪異,像是由樂高搭起來的一樣。實際上這是因為它的形態和動作,都是由演算法在計算機裡進化出來的。
在不依賴人提供任何初始形態的前提下,演算法可以自主根據任務需要,進化出適合任務的身體結構和動作,並且不斷透過進化自己,讓任務完成得越來越好。在上面案例中,當機器人學會“進化”自己的身體之後,灰色矩形塊被扔得越來越遠。
對於設計好的機器人,以往多數研究主要集中在如何開發有效的控制演算法,比如大家熟知的波士頓動力機器狗,它的形態是由工程師根據經驗設計出來的。
研發人員把大量時間花在開發有效的控制演算法上,來讓機器狗跑得快、跑得穩定不容易摔倒等。但是,田韻聲認為這種設計好的機器人形態並非是最優的。在最佳化機器人的大腦、也就是控制演算法的同時,只有也對身體即形態結構進行最佳化,才能讓機器人的能力更上一層樓。
基於這一出發點,他和團隊開發出了大規模基準測試平臺 Evolution Gym,旨在讓更多人關注如何共同設計機器人的大腦和身體,透過演算法共同進化兩者。
據悉,Evolution Gym 專門為軟體機器人而開發,涵蓋 30 多個不同的任務環境,包括跑步、上臺階、攀爬、搬運物體等。
Evolution Gym 中的機器人看起來像是柔軟、可移動的俄羅斯方塊,整體呈網格狀結構,由許多個“細胞”作為基本單元組成,其中包括可以自由形變的軟體細胞、堅硬的剛體細胞、以及可以主動收縮或擴張的致動器細胞。這種靈活的形態,使得機器人可以自由“進化”其形狀,最終在不同地形上完成一系列運動和操縱物體等任務。
這種可同時“進化”形態與控制的演算法被稱為協同設計(co-design)。具體而言,田韻聲團隊用深度強化學習去最佳化機器人的控制,並採用遺傳演算法、貝葉斯最佳化等方法,根據控制器的表現作為反饋訊號來最佳化機器人的形態。整個進化過程是在控制最佳化和形態最佳化之間不斷迭代進行,機器人可以像人類一樣在環境中透過反覆試驗不斷理解任務,並最終進化出更適合任務的形態。
儘管機器人是從頭開始自主進化的,並且除了任務本身之外,沒有任何人類提供的先驗知識,但在“進化”的過程中,它們經常會“進化”出一些類似於現有自然生物的器官或是整體形態,同時效能優於人工設計的機器人。
如下圖所示,搬運工機器人在最佳化到第 10 代的時候,不光進化出了兩條腿,還在身體上方進化出了個凹槽用來放置物體,並能搬運物體向前移動。在最佳化到第 30 代時,在成功搬運物體的同時,它的跑速已比第 10 代快得多。
田韻聲表示,雖然學界已有團隊嘗試共同進化機器人的形態和控制,但只集中於一些較小規模的測試相對以及簡單的任務,此前尚無大規模測試平臺可涵蓋幾十種複雜多樣的任務。並且,他和團隊在 Evolution Gym 平臺上測試、評估了當前最前沿的演算法,結果發現雖然它們能對簡單任務“進化”出合理的機器人形態,但是在困難任務上比如穿越崎嶇不平且晃動的地面時,這些演算法仍然難以優化出能成功完成任務的機器人。
所以該研究的兩個最終目的是:一是希望 Evolution Gym 可作為一個初步實驗平臺,從最基本的細胞結構開始,幫助研究人員發掘出更智慧、更高效能的機器人形態,甚至是很多全新的、意想不到的形態,並且反過來“指導”人類去設計高效能機器人;二是作為一個大規模基準測試平臺,它可幫助人們開發出更強大的人工智慧演算法,以便進行高效協同設計,從而讓機器人快速進化到足以完成最具挑戰性的任務。
由兩位MIT本科生牽頭並推進專案
田韻聲表示,他們的出發點是希望透過一個標準化大規模的平臺,來對領域內最前沿的水平做出嚴謹衡量,並透過快速物理模擬、以及多樣任務設計,來給研究人員提供方便。
因此,從一開始研究目標和任務都很明確,當實驗室大多數博士生忙於自己的專案時,田韻聲所在團隊聯絡了兩位 MIT 本科生,也就是前文的賈格迪普·巴蒂亞(Jagdeep Bhatia)和霍利·傑克遜(Holly Jackson)來牽頭並推進專案。
賈格迪普花了幾個月時間從頭寫了模擬系統,霍利這邊開發出了很多有意思的環境。田韻聲則和實驗室另外一名師兄徐捷指導他們,共同實現演算法並撰寫論文。
在投稿截止日期大約半個月前,當時田韻聲剛從美國飛回國內,在隔離酒店裡跟其他在美國的合作者們一起晝夜不分地推進專案。
適逢好幾個實驗都需要在雲伺服器上跑,並且時間非常緊,由於時差的原因,一天 24 小時裡團隊裡都有人醒著,他們一刻不停地監控實驗在伺服器上的狀態,一旦舊的實驗結束,立馬續上新的實驗。而且兩位本科生剛好要準備期末考試,導致他們到考試前一天才有空複習。
如果中稿算是一種成功的話,那他覺得這份成功歸功於團隊每個人的認真負責,使得專案推進非常高效,雖然還有很多值得改進的空間,但是最終得到了審稿人的肯定。
下一步將為機器研發“形態發育“能力
未來,該研究還有很多值得探索的方向,目前的平臺只模擬了二維軟體機器人,原因在於基於強化學習的協同設計需要大量計算資源,機器人需要跟模擬環境進行上千萬次的互動,因此二維在物理模擬上比三維要快得多,可以在更少時間內收集更多的資料去學習,從而讓開發者更快地迭代演算法開發。
但對機器人來說,它最終還是要在三維世界中實際製造出來,所以如何對軟體機器人進行高效的三維模擬與最佳化,是一個必須要考慮的問題。
另外一個研究方向是如何讓機器人具有“形態發育(morphological development)“的能力,即不再侷限於單一任務,而是當機器人具備解決更復雜任務的經驗後,讓它變得更智慧。比如,讓機器人學會行走,其次是學會搬運物體、爬樓梯等。
總之,他們希望透過這一系列的學習,讓機器人的身體和大腦都“發育”得更加智慧,相比沒有經過系列學習的機器人,可以完成更多挑戰性任務。
-End-
參考:
1.Jagdeep Singh Bhatia, Holly Jackson, Yunsheng Tian, Jie Xu, Wojciech Matusik,Evolution Gym: A Large-Scale Benchmark for Evolving Soft Robots,NeurIPS 2021