編者按
2021年秋,前沿計算研究中心又迎來了一位年輕的新體制助理教授:王鶴。他於同年剛剛於斯坦福大學獲得博士學位,還未畢業即選定了回國加盟北京大學任職。
王鶴,北京大學前沿計算研究中心助理教授,博士生導師。他於2014年在清華大學微納電子學系獲得工學學士學位,於2021年在斯坦福大學電子工程系獲得博士學位,導師為美國兩院院士 Leonidas J. Guibas 教授。他於2021年9月加入北京大學,並創立具身感知與互動實驗室(Embodied Perception and InteraCtion Lab,簡稱 EPIC Lab)。他的研究圍繞三維視覺、機器人學和機器學習,在 CVPR、ICCV、ECCV、NeurIPS 等國際頂級會議上發表10餘篇論文。他的工作開闢了類別級物體六維位姿估計這一子領域,六次獲得 CVPR/ICCV oral,並獲得2019年 Eurographics 最佳論文提名獎。他目前擔任 CVPR 2022 和 WACV 2022 領域主席以及諸多頂級會議和刊物的審稿人。
問 可以談什麼是具身人工智慧?
王鶴:具身人工智慧(Embodied AI)是當前人工智慧領域裡發展的前沿方向,是一條致力於通向通用人工智慧(artificial general intelligence)的研究道路。
從語義上來說,Embodied 指具體的、具象的、有形的,而在這裡對智慧體我們翻譯為具身,更著重於身體(body)這個屬性,字面意思就是具有身體的。總的來說,Embodied AI 研究的就是可觸碰、可互動、生活在現實世界中的智慧體,很大意義上就是擁有物理身體和智慧的機器人,這也就是為什麼具身智慧是人工智慧和機器人的交叉領域。聽起來具身人工智慧是對智慧機器人取了一個新的名字,然而研究具身化的智慧其實是人工智慧研究重大的、正規化(paradigm)級別的變革,具有深遠的意義。
我們可以先看看目前主流的、在深度學習時代廣泛採用的學習正規化:先是資料採集,然後是資料標註,最後是監督性訓練。這樣的正規化嚴重依賴人類對學習資料的挑選,在資料充足、標註難度低、不需要互動的一些問題上已經取得很好的效果,比如人臉識別、機器翻譯等等,然而這樣的智慧屬於典型的弱人工智慧,目前還看不清如何通向強人工智慧或者說是通用人工智慧。
反觀具身智慧,他立足於對人類嬰兒認知的研究成果——智慧的產生源於智慧體與真實環境的感知和物理互動,從目的上就是要挑戰通用智慧。可以想見,作為典型的強人工智慧體,我們人類在成長過程中比較少的依賴當前深度學習中採用的監督學習正規化,而一些關鍵性的技能的發展,如行走、使用工具、學習新的技能,都更依賴於身體力行的嘗試。
作為身在北大前沿計算研究中心、以推進計算與智慧前沿領域發展為目標的青年學者,我的學術理想正是賦予智慧體或者機器人與環境自主地互動、從互動中學習並衍生出通用智慧的能力,以期發展出可以更好地滿足人類多種多樣需求的強人工智慧體,如家用機器人。同時,具身智慧有很強的跨學科的特點,也能發揮我本科在物理和電子工程領域的一些積累。
問 可以談談你具體的研究問題嗎?
王鶴:我當前的研究主要圍繞發展可泛化的機器人視覺(robotic vision)系統和基於視覺的機器人物體操控(object manipulation)。具體來說,通用智慧體需要感知和接觸人類日常生活中各式各樣的物體,包含大量的未見過的物體,需要很強的泛化性。在博士期間,我發表在 CVPR 2019 oral 的關於歸一化物體座標空間(Normalized Object Coordinate Space, NOCS)的工作開闢了類別級物體六維位姿估計(category-level 6D object pose estimation)的這一位姿估計的子領域,主要解決的問題就是如何把位姿估計(亦即估計物體的中心位姿和三維朝向)從只能感知幾個已知物體的例項級推廣和發展到能估計一類物體中各種各樣的、包括大量訓練中沒有見過的物體例項的類別級。作為機器人視覺中的重要課題,位姿估計與機械手抓取等有密切聯絡,而我的這項工作將位姿估計的泛化性大幅提升,向通用機器人視覺系統邁進了重要的一步。
在北大,我著力於進一步拓展機器人視覺和操控的可泛化性。舉例說明,如何學習可泛化到類別的物體操控策略,又或者如何實現超越類別級、對全新物體的感知和操控。另外,我對如何減少深度學習任務中對監督的依賴也很感興趣,我認為這也是真正加速智慧發展的一個重要手段。
問 你在教學上有什麼規劃?
王鶴:明年春季學期我將開設計算機視覺導論課程,主要面向中高年級本科生。在當今深度學習風靡的時代,如何面向本科生上好計算機視覺這門課,我有一定的思考。
計算機視覺作為人工智慧中最重要的研究和應用領域之一,具有相對久的發展歷史,有著眾多經典的方法和問題解決思路。然而,隨著近年來深度學習的興起,在很多工上深度學習都取得了更好的結果,在研究中漸漸有系統地替代傳統視覺方法的趨勢。值得注意的一點是,單純使用深度神經網路對資料進行監督性訓練帶來的紅利已經消失了,深度神經網路已經成為了常用的手段,因此進一步發展計算機視覺更依賴於對任務本身的理解,如對特徵、對約束、對各種相關變數之間相互依賴的探索,而這些在傳統計算機視覺中都有深入的研究。
因此,我認為應當平衡地介紹計算機視覺的傳統方法和基於深度學習的方法,系統地介紹計算機視覺中基本的概念,突出計算機視覺傳統方法中的精華,並輔以深度學習方法、展現效果最優的工作,以期學生們能夠紮實基礎、拓寬口徑、與前沿研究和工業實踐能夠完成對接。並且,基於我個人的科研,我將會有選擇的介紹除了對圖片以外的各種資料載體的視覺方法,希望能夠展現計算機視覺領域的全貌。
問 可以談談你到中心工作的體驗嗎?
王鶴:前沿計算研究中心給了我一個非常溫暖和自由的工作環境。這裡有豐富的學術交流活動,支援並鼓勵我們邀請國際上活躍的學者來做報告,從我個人的研究領域來講,報告的質量和數量都與美國頂尖名校相當。更加難能可貴的是,中心也是學生的家園。在科研和學術以外,中心還為圖靈班學生、中心研究生和所有在這裡做科研的學生及訪問學者提供了豐富的文娛活動,營造了其樂融融的氛圍,在我眼中甚至超越了我博士期間的體驗。很高興能在這裡和這麼多優秀和有天分的學生一起工作,並向其他傑出的學者學習。