編輯:好睏
【新智元導讀】SIAM首屆資料科學青年獎於近日開獎!蘇煒傑憑藉著在機器學習演算法最佳化、資料隱私保護、深度學習理論基礎和高維統計的突出貢獻,成為本次唯一獲獎者。
近日,SIAM公佈了首屆2022年資料科學青年獎得主,北京大學數學科學學院2011屆校友、斯坦福大學博士蘇煒傑為唯一獲獎人。
https://www.siam.org/prizes-recognition/activity-group-prizes/detail/siag-data-early-career-prize
SIAM資料科學青年獎由SIAM(美國工業與應用數學學會)每兩年在全世界範圍頒發一次,旨在獎勵一名在資料科學領域做出傑出貢獻的青年學者。
今年評獎委員會包括了德國、美國、比利時和中國香港等多位在應用數學、機器學習和最佳化領域的國際著名學者。頒獎儀式將在今年9月份在美國聖地亞哥的SIAM資料科學會議上舉行。屆時蘇煒傑將在SIAM大會上作全體特邀報告。
蘇煒傑現為賓夕法尼亞大學沃頓商學院統計與資料科學系和工學院計算機系助理教授,以及Facebook訪問科學家。蘇煒傑教授同時還兼任賓大機器學習研究中心聯合主任,以及任職於應用數學和計算數學專案執行委員會。此外還供職於賓大沃頓智慧商務中心,Warren網路資料科學中心,和北京智源人工智慧研究院青源會。他曾在2019年和2020年分別獲得NSF CAREER Award和斯隆研究獎。
蘇煒傑的求學經歷亦頗為精彩。
他高中兩度代表浙江省參加中國數學奧林匹克競賽,高一即獲得清華大學預錄取資格,高三獲得全國第二名的成績。2007年至2011年就讀於北京大學數學科學學院基礎數學方向,期間連續三年獲得最高獎學金,專業成績在基礎數學專業中排名年級第一。
在北京大學求學期間,蘇煒傑獲得了首屆丘成桐大學生數學競賽全能金牌和應用數學金牌,以及代數和分析方向的兩枚銅牌。2010年蘇煒傑及隊友在美國大學生數學建模競賽中,獲得選做B題方向的中國大陸第一名。之後獲得斯坦福大學最高等級的博士獎學金,在2016年獲得博士學位,其畢業論文獲得首屆斯坦福Theodore Anderson獎。之後跳過博士後階段直接執教於賓夕法尼亞大學。
獲獎工作簡介
蘇煒傑教授獲得SIAM資料科學青年獎是基於他在機器學習的最佳化演算法、資料隱私保護、深度學習理論基礎和高維統計做出的重要貢獻。
新增動量(momentum)是最佳化機器學習模型時常用的一個技巧,比如深度學習三巨頭之一、ACM圖靈獎獲得者Yoshua Bengio一個重要工作指出新增動量可以顯著地加快最佳化深度神經網路。
凸最佳化中著名的Nesterov加速演算法,就是在普通梯度下降演算法基礎上增加了一個動量項,效果提升顯著,但其背後的機制一直有待闡明。
論文連結:https://jmlr.org/papers/volume17/15-084/15-084.pdf
蘇煒傑的一個代表性工作是對一類新增動量的最佳化演算法提供了一個分析和設計的框架,特別是對Nesterov加速演算法提供了一個非常直觀的解釋[1]。這個框架的核心是用動力系統的連續觀點看離散的演算法,充分利用「連續數學」的分析優勢。
蘇煒傑和美國工程院院士Stephen Boyd的美國科學院院士Emmanuel Candes
這個工作被眾多機器學習理論研究者使用和推廣。機器學習泰斗Michael Jordan在2018年裡約國際數學家大會1小時報告中,以很大的篇幅介紹了其團隊推廣蘇煒傑教授工作的最新成果。
Michael Jordan在2018年國際數學家大會上介紹如何推廣蘇煒傑在機器學習最佳化演算法上的工作
蘇煒傑的另一個獲獎工作是其團隊開發的高斯差分隱私(Gaussian Differential Privacy)框架[2]。
論文連結:https://rss.org.uk/RSS/media/Training-and-events/Events/2020/Dong-et-al-jrssb-final.pdf
人工智慧中的隱私問題已經被公認為是一個重要並且嚴肅的問題,2006年美國科學院和工程院兩院院士Cynthia Dwork等提出的差分隱私奠定了隱私資料分析的基礎。
蘇煒傑早年在Mountain View的微軟研究院師從Cynthia Dwork時,意識到這個框架在分析一些基本的隱私演算法時效率低下,在應用到深度學習時有很大侷限性。
高斯差分隱私在英國皇家統計學會的特邀報告
高斯差分隱私創新性地用假設檢驗的角度來精準地刻畫隱私演算法,從理論上嚴格證明了這個新框架具有多個最優性質,該論文作為Discussion Paper受邀在英國皇家統計學會上研讀。
蘇煒傑團隊還成功將高斯差分隱私應用到深度神經網路的訓練,在同等隱私保護程度的條件下取得了比Google Brain更高的預測精度。這個新的隱私資料分析框架已經納入TensorFlow,受到業界關注,並有望應用到某矽谷旗艦大廠的產品中。
蘇煒傑近期在深度學習理論上的貢獻也是其獲獎原因。深層神經網路已經在諸多科學與工程問題上取得了優良的表現,但關於其良好的泛化效能卻一直缺乏令人滿意的理論解釋。
蘇煒傑提出了深度神經網路的局域彈性(local elasticity)理論,給神經網路泛化、最佳化等性質提供了一個簡單的唯象理論[3]。
論文連結:https://openreview.net/pdf?id=HJxMYANtPH
此外,蘇煒傑團隊提出了一種層間「剝離」的分析模型,對上述問題給出了另一種新思路[4]。
論文連結:https://www.pnas.org/content/118/43/e2103091118
基於神經網路強大的表達能力,這個新模型將網路的部分層看作一個整體,將其輸出特徵看作一個可以適應網路訓練過程的最佳化變數,著重研究了特徵與後繼層引數在網路訓練中的相互作用。
蘇煒傑團隊用這個模型深入分析了深度神經網路在訓練資料不平衡時的表現,發現了一個新穎且具有重要實際意義的現象。該成果已於近期發表在頂級期刊《美國國家科學院院刊》上。
這個新模型還解釋了美國科學院院士David Donoho團隊發現的神經坍縮(neural collapse)現象。這個現象表明神經網路的優異效能很大程度來自於幾何對稱性。
層間「剝離」的分析模型表明神經坍縮來自於在一定約束條件下目標函式最小化的對稱性,這個數學上嚴謹的解釋獲得了Donoho院士的高度評價。
參考資料:
[1] W. Su, S. Boyd, and E. Candes. A differential equation for modeling Nesterov’s accelerated gradient method: Theory and insights. Journal of Machine Learning Research, 17(1):5312–5354, 2016.
[2] J. Dong, A. Roth, and W. Su. Gaussian differential privacy. Journal of the Royal Statistical Society: Series B (with discussion), 2022.
[3] H. He and W. Su. The local elasticity of neural networks. In International Conference on Learning Representa tions, 2020.
[4] C. Fang, H. He, Q. Long, and W. Su. Exploring deep neural networks via layer-peeled model: Minority collapse in imbalanced training. Proceedings of the National Academy of Sciences, 118(43), 2021.