1月9日,由中國人工智慧學會主辦,CAAI模式識別專委會和東南大學自動化學院承辦的第15期CAAI模式識別專家論壇在東南大學舉辦,同時基於騰訊會議開設線上模式。
出席本次論壇的嘉賓有CAAI模式識別專委會副主任楊健教授,上海人工智慧實驗室科學技術發展部部長喬宇研究員,中國科學技術大學張天柱教授,上海交通大學盧策吾教授,江蘇潤和軟體股份有限公司IOT&AI解決方案中心邵新慶技術總監,南京理工大學李翔博士,東南大學自動化學院執行院長魏海坤教授、楊萬扣教授、王辰星副教授、謝利萍副教授、張金霞副教授、全志斌博士,南京航空航天大學劉寧鍾教授,江蘇大學沈繼鋒副教授等。論壇由楊萬扣教授與謝利萍副教授共同主持。
楊健教授首先向大家簡要介紹了CAAI模式識別專委會的情況,指出模式識別是人工智慧領域應用最為廣泛的研究方向,並就各位老師、同學和朋友們對論壇的支援表示感謝。魏海坤教授對論壇嘉賓們的到來表示歡迎,介紹了東南大學及自動化學院的辦學概況。
隨後,中國科學技術大學張天柱教授作題為“弱監督視覺學習:目標定位及時序動作定位”的報告。他為大家分別介紹了影象目標定位和影片行為定位的弱監督學習方法。他指出了弱監督在影象目標定位領域通常使用的類啟用圖(CAM)的缺陷,並提出了一種使用前景啟用圖(FAM)的方法,用來對分類和定位進行聯合最佳化。另外,他還指出了弱監督在影片行為定位領域的方法,用來對稀疏性λ進行建模,加入了對λ的不確定性α的建模機制,還改進了CAM圖變為類啟用序列(CAS)。
江蘇潤和軟體股份有限公司的邵新慶技術總監作題為“小眾場景下視覺AI應用快速落地”的報告。在報告中,他指出了當下視覺識別任務的落地部署中,小眾場景下的大量長尾需求應用落地仍然是一個非常具有挑戰性的問題。本次報告,邵新慶技術總監從視覺演算法在小眾場景的實際落地出發,分享了在定製化嚴重、資料量不足、交付時間緊的情況下,透過構建統一異構框架的智慧視覺分析引擎、眾包資料標註平臺和流水線式模型生產能力,快速實現智慧化解決方案的實施策略,充分滿足了行業小場景人工智慧應用的快速交付需求。
上海交通大學盧策吾教授進行了關於具身智慧和機器理解等相關研究工作的報告。報告主要圍繞兩個主題展開,即如何讓機器理解人類行為和如何讓理解的人類行為能指導機器人進行工作展開。盧老師重點介紹了在海內外獲得巨大關注並已經發表到世界頂級期刊的人體行為引擎(HAKE)的工作,取得廣泛商用的人體姿態估計網路(AlphaPose)和具有革命性的效果提升的機器人通用抓取系統(GraspNet)。會議最後,盧老師提出,希望在未來的工作和人工智慧發展方向中,進一步提升機器人基於人類行為理解的以人為中心互動和服務。
南京理工大學李翔博士圍繞主幹網路以及網路表徵,分別介紹了影象識別近年來的幾個相關工作。主幹網路方面,李翔博士工作組在卷積神經網路上提出基於生物啟發的動態感受野建模機制(SKNet),在視覺transformer上提出高效的金字塔結構以適配於下游的多尺度檢測任務(PVT);網路表徵方面,針對單階段目標檢測器提出分類和定位質量的聯合表徵,對邊界框進行一般化分佈的建模(GFL),並利用可學習邊界框分佈的統計量引導更可靠的定位質量估計(GFLV2);會議的最後,李翔博士還分享了自己在科研中的經驗和感悟,鼓勵在場的科研同仁勇於嘗試,保持信心,不懼失敗。
針對當下人工智慧視覺領域中仍存在任務通用、場景泛化和資料效率等一系列瓶頸問題,中科院深圳先進技術研究院喬宇研究員詳細介紹了他們近期剛釋出的新一代通用視覺技術體系——書生(INTERN),該體系可透過持續學習,舉一反三,不斷成長,逐步實現通用視覺領域中分類、目標檢測、語義分割、深度估計等核心任務的融會貫通,最終實現靈活高效的模型部署,從而解決各種不同的下游任務,這對於解鎖實現人工智慧長尾應用,幫助業界更好地探索和應用通用視覺AI技術,促進AI規模化落地,都具有重要意義。
在問答環節,專家與現場及線上的老師和同學們進行了熱烈討論,給大家答疑解惑的同時也給一些同學指明瞭研究方向。
本文由CAAI模式識別專委會供稿