因果學習作為人工智慧領域研究熱點之一,其研究進展與成果也引發了眾多關注。為幫助研究與工程人員瞭解該領域的相關進展和資訊,智源社群結合領域內容,撰寫了第1期《因果學習週刊》。
本期週刊將主要討論分佈外泛化相關的研究。現代機器學習技術在計算機視覺、自然語言處理和推薦系統等領域表現出了卓越的能力。儘管許多方法在實驗條件下表現出了超越人類的水準,但一些研究也揭示了機器學習模型在存在分佈偏移下的脆弱性。如此巨大的差距源自於違反了訓練和測試資料是獨立同分布的基本假設(又名i.i.d.假設),而大多數現有的學習模型都是基於這個假設設計開發的。在許多難以滿足獨立同分布假設的實際案例中,尤其是醫療、軍事和自動駕駛等高風險應用中,與訓練分佈內的泛化能力相比,分佈偏移下的泛化能力更為重要。因此,對分佈外泛化問題的研究在學術界和工業界都具有重要的現實意義。本期主要介紹了分佈外泛化問題(Out-of-Distribution Generalization)相關的一些方法,以不變學習方法為主,最後還介紹了一篇最新的分佈外泛化問題綜述文章。
本期貢獻者:劉家碩
文章來源:智源社群
論文推薦
標題:NYU & Facebook | Invariant Risk Minimization(不變性風險最小化)
論文地址:https://www.aminer.cn/pub/5d2317703a55acadc6a3032b?f=toutiao
簡介:現今的機器學習面臨著一個基本問題,雖然可以透過將訓練資料上的誤差最小化來學習複雜的預測模型,但實際中資料往往會受到樣本選擇性偏差(selection bias)、混雜因素(unobserved confounder)和其他因素的影響。因而機器也會受到這樣的資料偏差的影響,對於人工智慧的實現帶來極大的制約。更具體地說,最小化訓練誤差會導致機器不計後果地吸收訓練資料中發現的所有相關性。而我們需要知道資料中的哪些相關性是有用的,這也被稱為相關關係與因果關係的“選擇困境”,因為源自於資料偏差的虛假相關性與預測目標之間不存在因果關係,使用這樣的虛假相關來進行預測是有害的。本文利用因果關係的工具來對資料中的虛假相關性與不變性進行刻畫,並提出了不變性風險最小化演算法(Invariant Risk Minimization)來減輕模型對資料偏差的過度依賴,使它們能夠泛化到新的測試分佈。
推薦理由:本文是進來備受關注的不變學習(invariant learning)的開山之作,從因果推斷的方法逐步演變出了不變學習方法,對後續研究十分有啟發。
標題:Mila | Out-of-Distribution Generalization via Risk Extrapolation (ICML21)
論文地址:https://www.aminer.cn/pub/5e5f7c4791e011df604ec969f=toutiao
簡介:在將機器學習預測模型從實驗室轉移到真實場景時,分佈偏移(distributional shifts)是主要障礙之一。為了解決這個問題,我們假設跨訓練環境的變化可以反映測試時資料分佈的變化,但在測試時分佈的變化可能更加極端。特別地,我們提出,減少訓練環境間風險的差異可以降低模型對各種極端分佈變化的敏感性,可以解決輸入中同時包含因果變數和反因果變數的挑戰性設定。我們提出了風險外推法(Risk Extrapolation, REx),是建立在外推域擾動集(MM-REx)上的一種魯棒最佳化演算法,並提出將訓練風險方差作為懲罰項(V-REx)的變體演算法。我們證明了V-REx可以恢復目標變數的因果機制,同時也提供了對輸入分佈變化(“協變數位移”)的魯棒性。透過對因果誘發的分佈偏移和協變數偏移的魯棒性進行平衡,當這些型別的偏移同時發生的情況下,REx能夠比其他方法(如不變風險最小化, Invariant Risk Minimization)表現得更好。
推薦理由:本文提出了創新性的“負權重”來實現分佈之間的外插,從而實現更好的分佈偏移下的泛化效能,後續也有一些方法在此基礎上進行改進與拓展。
標題:IBM Research | Invariant Risk Minimization Games (ICML20)
論文地址:https://www.aminer.cn/pub/5d2317703a55acadc6a3032bf=toutiao
簡介:當機器學習的測試分佈由於虛假關聯(spurious correlation)而與訓練分佈不同時,使用經驗風險最小化方法最佳化的的機器學習模型效能會受到較大影響。利用多個環境的資料來找到不變的預測因子的方法,透過使模型僅使用與結果有因果關係的特徵,減少了虛假關聯的影響。在這篇文章中,我們提出了一個不變風險最小化方法,即在多個訓練環境中尋找集合博弈的納什均衡點。透過這樣做,我們利用最佳響應動力學設計了一種簡單的訓練演算法。在我們的實驗中,與Arjovsky等人(2019)提出的Invariant Risk Minimization(IRM)相比取得了相似或更好的平均預測效能以及更小的方差。此外,理論上證明了所提出的對策的納什均衡集等價於任何有限數量的環境的不變預測器集,即使存在非線性分類器和變換。因此,本方法保留了IRM對於分佈偏移下的泛化效能保證。本演算法是博弈論機器學習演算法的又一成功範例。
推薦理由:本文在IRM的基礎上,使用博弈論的方式來進一步進行解釋,並證明了不變預測集與納什均衡集之間的等價性,具有很好的理論價值。
標題:Preferred Networks|When is invariance useful in an Out-of-Distribution Generalization problem?
論文地址:https://www.aminer.cn/pub/5f03f3b611dc830562232055f=toutiao
簡介:分佈外泛化問題(Out-of-distribution Generalization, OOD)的目標是訓練一個能在所有環境中泛化的預測器。該領域的流行方法假設了這樣的預測器必須是一個不變的預測器,以捕獲跨環境保持不變的預測機制。雖然這些方法已經在不同的研究中取得了實驗上的成功,但對這一假設的理論驗證仍有很大的空間。本文提出了一組新的理論假設,使不變預測器可以實現OOD最優性(OOD optimality)。我們的理論不僅適用於非線性情況,而且推廣了先前工作(Invariant models for causal transfer learning)中的必要條件。我們還提出了Inter Gradient Alignment演算法,並在由MNIST派生的資料集以及三種不變性單元測試中的兩種上證明了演算法的有效性。
推薦理由:本文理論上系統地分析了現有不變學習方法的假設強度,並且從理論上放鬆了之前的不變性假設,提出了對應的方法,具有很好的理論價值。
標題:清華 | Heterogeneous Risk Minimization(異質性風險最小化, ICML21)
論文地址:https://www.aminer.cn/pub/609a1f3e91e011a44725c97ff=toutiao
簡介:使用經驗風險最小化(Empirical Risk Minimization)的機器學習演算法,由於對訓練資料之中的一切相關性的貪婪利用,在測試分佈與訓練分佈間具有分佈偏移時,通常測試資料中的泛化效能會受到較大影響。近年來,針對非獨立同分布的情況,人們提出了一些利用多種訓練環境來尋找不變數關係的不變學習方法。然而,現今的資料集經常是多個數據源的資料的混合,卻沒有顯式的資料來源標籤。由此帶來的潛在的異質性使得絕大多數的不變學習方法難以適用。在本文中,我們提出了異質性風險最小化(Heterogeneous Risk Minimization, HRM)框架,以實現對資料之間潛在異質性和不變性關係的聯合學習,從而在存在分佈偏移的情況下實現穩定的預測。我們從理論上闡明瞭環境標籤在不變學習中的作用,並證明了我們新提出框架的合理性。大量的實驗結果驗證了本演算法的有效性。
推薦理由:本文立足於一個更加具有挑戰性的問題設定,即如何使用資料中潛在而非顯式的異質性來指導不變學習,並首次理論上分析了環境標籤對於不變學習演算法的影響,所提出的異質性風險最小化框架同時實現了對於資料中潛在異質性的挖掘以及不變關係的學習。對於Out-of-distribution Generalization(OOD)問題後續的研究,以及環境對於OOD問題作用的研究有著重要的作用。
標題:北大 華為|Towards a Theoretical Framework of Out-of-Distribution Generalization
論文地址:https://www.aminer.cn/pub/60c2db2791e0117e30ca281ef=toutiao
簡介:對非獨立同分布資料的泛化問題(Out-of-distribution Generalization)是現代機器學習的核心問題之一。最近,有大量的工作提出基於提取不變特徵思想的OOD演算法。雖然直觀上是合理的,但是對於什麼樣的不變性可以保證OOD泛化的理論理解仍然是有限的,並且泛化到任意的分佈顯然是不可能的。在這項工作中,我們對於(1)什麼是OOD泛化問題(2)OOD問題什麼情況下是可學習的 給出了嚴格的定量的定義。我們還引入了一個擴充套件函式的新概念,它描述了測試域的方差在訓練域會被多大程度上放大,從而給出了不變特徵的定量含義。在此基礎上,我們證明了OOD泛化誤差界。結果表明,OOD泛化在很大程度上依賴於擴充套件函式。正如最近有文章指出的,任何沒有模型選擇模組的OOD學習演算法都是不完整的。我們的理論自然地引出了一個模型選擇標準。在基準OOD資料集上的實驗表明,我們的模型選擇標準比現有方法具有顯著的優勢。
推薦理由:本文對於OOD泛化問題提出了一個整體的分析框架,從可學習性的角度給出了OOD泛化可學習性的定義並加以分析,基於分析的結果提出了一種OOD場景下的模型選擇準則,具有很好的理論價值。
標題:Facebook | Linear unit-tests for invariance discovery(獨立性發現的線性單元測試)
論文地址:https://www.aminer.cn/pub/6034e73e91e01122c046f8b2f=toutiao
簡介:人們對跨訓練環境學習資料中不變相關性的演算法越來越感興趣。目前的大部分演算法在因果相關的文獻中找到了理論支援,但它們在實踐中有多大用處呢? 本文提出了六個線性低維問題作為“單元測試”,即以精確的方式評估不同型別的分佈外泛化(Out-of-distribution Generalization)。經過初步試驗,最近提出的三種演算法沒有一種能透過所有測試,我們希望我們提出的單元測試能夠成為研究人員在非分佈泛化方面的基準資料集。
推薦理由:該論文提出了一系列的模擬實驗設定,來評估不同演算法對於不變關係尋找的準確程度,對於OOD泛化問題的研究有著重要的作用。
研究動態
清華大學計算機系崔鵬團隊釋出首篇OOD泛化問題綜述
近日,清華大學計算機系崔鵬團隊釋出了首篇OOD泛化問題綜述:Towards Out-of-Distribution Generalization: A Survey。
簡介:經典的機器學習方法是建立在獨立同分布假設的基礎上的。然而在真實場景中,獨立同分布假設很難得到滿足,導致經典機器學習演算法在分佈偏移下的效能急劇下降,這也表明研究分佈外泛化問題的重要性。分佈外泛化(Out-of-Distribution Generalization)問題針對測試分佈未知且與訓練不同的具有挑戰性的問題設定。本文首次系統、全面地探討了分佈外泛化問題,從問題的定義、方法、評價到未來發展方向。首先,本文給出了分佈外泛化問題的形式化定義;其次,根據現有方法在整個學習流程中的位置,將其分為無監督表示學習、有監督模型學習與最佳化方法三部分,並詳細討論了每一類中的典型方法;然後,我們展示了不同類別方法間的理論聯絡,並介紹了常用的資料集和評價指標;最後,對全文文獻進行了總結,並對分佈外泛化問題提出了未來的研究方向。
推薦理由:本文首先系統、全面地探討了分佈外泛化問題,將不同流派的方法彙集到一起,介紹了其中的典型方法,並分析了之間的理論聯絡。此外,本文總結了分佈外泛化問題常用的資料集與評價指標,對於未來分佈外泛化問題的研究具有很強的啟發意義。
論文地址:https://www.aminer.cn/pub/612eef555244ab9dcbe12821f=toutiao
論文中綜述OOD泛化方法文章總結:http://out-of-distribution-generalization.com
AI賦能的科技情報挖掘系統(AMiner - AI賦能科技情報挖掘)
AMiner是一個科技情報分析與挖掘平臺,利用AI為使用者高效獲取和理解科研情報,內容囊括論文、學者、專利、報告、會議、專題集等多種形式,涵蓋計算機科學、醫學、通訊、地學、物理等40個學科,透過智慧推薦引擎、搜尋引擎、關注訂閱等獲取想要的知識。