sponsored links

乾貨!無監督學習的公平性研究

公平性學習在近些年來受到學術界和工業界的廣泛關注,其旨在於保護或隱藏某些敏感屬性(例如,性別、種族、地域)並同時保持原有的學習效用。在本次講座中,作者簡單介紹了不同公平性定義,並聚焦於群組公平性,並介紹群組公平性在聚類分析、異常點檢測和屬性選擇中的應用。

本期AI TIME 青年科學家系列,直播間邀請到了美國布蘭迪斯大學計算機系助理教授劉洪甫,帶來分享——《無監督學習的公平性研究》。

嘉賓介紹

劉洪甫:美國布蘭迪斯大學計算機系助理教授,於2011年和2014年分別獲得北京航空航大大學經濟管理學院資訊管理與資訊系統學士和管理科學與工程專業碩士學位。同年,換專業攻讀美國東北大學計算機工程專業博士。二年半完成博上學業後,加入美國布蘭迪斯大學(波士頓五大名校之一, Us News排名Top 42)計算機系。主要研究方向為人工智慧、機器學習、資料挖制。目前已經成功發表頂級會議和期刊論文60餘篇;現為人工智慧、機器學習,資料探勘等領域的頂級會議期刊常駐審稿人。



背 景

1

什麼是公平性?

在機器學習中,當資料集中包含敏感屬性集(比如性別、種族、地域等)時,不同的場景下相同演算法的預測結果可能是把不同的。公平性學習是在保護或隱藏某些敏感屬性並同時保持原有的學習效用。

舉個例子,無監督學習中的聚類分析演算法是把樣本點聚成不同的簇群(clusters),使得每個簇群的樣本點儘可能地相似,不同簇群的樣本點儘可能相異,即類內距離儘可能小,類間距離儘可能大。而公平性聚類分析中,我們希望每個簇群的敏感屬性(sensitive attributes)的分佈要儘可能均勻,比如一個簇群中男女比例儘可能均衡,這樣就可以隱藏“性別”這個敏感屬性,使得這個簇群不會受到攻擊;反之,如果一個簇群中全是男性,那就得到這個簇群的敏感屬性(性別)的分佈,那就可以在樣本點中新增基於該敏感屬性的干擾,攻擊該模型。

公平性的定義是很寬泛的,敏感屬性除了性別、種族等,還可以是一些常見的屬性。比如在交通系統的車輛識別場景下,車輛的顏色可以看作一個敏感屬性,那公平性就體現在識別時不會因為車輛顏色而使演算法的效率改變。

2

公平性分類

前面提到了一些公平性的例子,但具體公平性的定義就有很多種,包括individual fairness,group fairness,Equalized odds等等,本次分享主要是基於group fairness所定義的公平性,下面介紹一下individual fairness和group fairness的定義。

(1)individual fairness
individual fairness是基於單個樣本點而言的,公平性定義為如果樣本點a和樣本點b各項屬性都是很相近的,那這兩個樣本點的分類決策結果也需要很相近。距離就是假設舞蹈生a和舞蹈生b的舞蹈水平相近,a和b分別來自兩個不同的省份,那a和b都要被某所藝術學校錄取或者不錄取。

(2)group fairness

假設S是一個敏感屬性,基於group fairness來講,公平性就是對於S和非 S兩個群體的個體來說,被分配到各個類別的比例是一樣的。舉例就算之前的性別的例子,對於一個簇群,男女比例是均衡的,即男性或女性不會影響是否被分配到該簇群。

乾貨!無監督學習的公平性研究

公平性的定義

3

實現公平性的技術方法

實現公平性的技術可以稱為fairness/debiasing techniques。導致不公平的原因不是唯一的,資料集的不平衡(男女比例不均衡)以及演算法模型本身有偏差都會導致最終分類決策的結果不公平。解決不公平性大致有三種方式

(1) Pre-pocessing——Focus on data bias:透過加權、資料生成等進行資料預處理來生成樣本均衡的資料集。

(2) In-processing——將公平性學習於演算法結合在一起,實現一個公平性演算法模型。

(3) Post-processing——使用傳統unfair的演算法模型得到分類預測結果,然後對結果進行修正。

1、 公平性的評價指標

採用Utility和Fairness兩個評價指標,既要考慮實現公平性之後演算法模型與之前對比的學習效益變化,也要考慮模型實現的公平程度。

公平性聚類分析

聚類分析是一個應用很廣泛的機器學習演算法方向,比如客戶分群,城市規劃,異常點檢測等等。

乾貨!無監督學習的公平性研究

聚類的應用舉例



1

什麼是公平性聚類分析?

公平性聚類分析旨在隱藏或保護敏感屬性,使得聚類的結果的每個簇群中的敏感屬性都比例均衡。如下圖所示,未經公平性聚類的簇群(Others)中敏感屬性的分佈是不均衡的,而經過公平性聚類的簇群隱藏了敏感屬性。

乾貨!無監督學習的公平性研究

公平性聚類

2

公平性聚類方法

傳統的公平性研究會把公平性聚類歸納為Constrained Clustering(受限聚類),首先我們需要一個好的聚類結果,然後滿足一定限制,並在原來的樣本空間進行聚類。

引入深度學習之後,考慮利用Encoder(編碼器)進行特徵學習,將一個空間下的特徵轉換到另一個空間,從而得到保護敏感屬性的特徵表示。後面接入一個Discriminator(判別器)來判斷是否能對敏感屬性有所區別。這裡面存在一個tradeoff:假設所有的input透過Encoder之後都轉換為相同的特徵時,敏感屬性和非敏感屬性都會被隱藏掉,那最終聚類結果也會很差,即公平性指標中的Utility指標下降到極點;假設所有的input透過Encoder之後經Discriminator仍然能判斷出敏感屬性的特徵,那說明Fairness指標也未提高。

Deep fair clustering中提出一個structural preservation結構來解決上述的tradeoff問題,其原理是將敏感屬性中每個屬性值的樣本點都進行一個聚類,期望所有樣本點一起聚類的結果與敏感屬性中每個屬性值的樣本點的聚類結果相近。

乾貨!無監督學習的公平性研究

Deep fair clustering

下面是Deep fair clustering的目標函式:

乾貨!無監督學習的公平性研究

Deep fair clustering最最佳化公式表示

3

Deep fair clustering實驗

資料集:

Table1指出了採用的資料集和不同資料集的敏感屬性等資訊。

乾貨!無監督學習的公平性研究

評價指標:

乾貨!無監督學習的公平性研究

公平性評價指標

實驗結果:

在4個數據集中都採用傳統方式和深度學習進行實驗結果對比。深度學習的方式明顯要由於傳統的受限聚類。

乾貨!無監督學習的公平性研究

乾貨!無監督學習的公平性研究

論文:Deep Fair Clustering for Visual Learning [CVPR-20]

公平性異常點檢測

異常點檢測的應用場景也很多,例如銀行卡詐騙,網路入侵,高質量客戶挖掘等。對於無監督異常點檢測有兩種方式:Hard和Soft。Hard是給出兩種結果——是異常點,不是異常點;Soft是會對樣本點進行打分排序,透過閾值區分是否為異常點。

乾貨!無監督學習的公平性研究

異常點示意圖

公平性異常點檢測模型採用特徵學習和公平對抗訓練,透過動態權重調節異常點對聚類的不利影響。透過提出兩個公平性指標來加強異常點檢測中的公平性度量,這兩個指標用於測試檢測到的異常點中的子群精度差距和子群分佈偏移。在8個真實公共資料集上進行的大量實驗表明,在與17種無監督離群點檢測方法的競爭中,DCFOD(Deep Clustering based Fair Outlier Detection)方法在所有指標上都具有明顯的優勢,包括最近提出的公平異常點檢測方法和其他傳統離群點檢測演算法。

下面就是DCFOD演算法的框架,首先將將樣本點經過Encoder轉換到另一個空間,而後進行特徵對抗來隱藏敏感屬性。然後對新生成的特徵進行聚類,將每個簇群中的樣本點與聚類中心的距離進行排序,離聚類中心較遠的點就看作異常點。異常點被設定低的權重,然後反饋到前面的特徵轉換的過程。

乾貨!無監督學習的公平性研究

演算法框架

資料集:

乾貨!無監督學習的公平性研究

對比分析方法:

乾貨!無監督學習的公平性研究

評價指標:

乾貨!無監督學習的公平性研究

乾貨!無監督學習的公平性研究

實驗結果:

可以看出,論文中的演算法模型在以上兩個評價指標的效果都是非常優秀的,都在0.95+。

乾貨!無監督學習的公平性研究

乾貨!無監督學習的公平性研究

乾貨!無監督學習的公平性研究

公平性特徵選擇

特徵轉換將一個空間的特徵轉換到另一個空間,原則上會相對特徵選擇對樣本點的特徵進行更好的公平性解釋。而特徵選擇會保留原始特徵的解釋,比如使用主成分分析(PCA)進行降維後並不理解特徵表達的具體含義。

下圖描述了論文公平性特徵選擇的過程和相關損失函式,我們期望選擇的特徵是對演算法用支援作用的,並且與敏感屬性儘可能無關,而未選擇的特徵與敏感屬性儘可能相關。

乾貨!無監督學習的公平性研究

資料集和評價指標:

乾貨!無監督學習的公平性研究

實驗結果:

乾貨!無監督學習的公平性研究

乾貨!無監督學習的公平性研究

論文:Fairness-Aware Unsupervised Feature Selection [CIKM-21]

關於二元公平性:

探索和減少圖連線中的偏差

前面三篇論文是針對向量資料進行的group fairness的研究,現在是基於圖資料進行的二元公平性(Dyadic Fairness)的研究分析。我們研究了基於圖資料的link prediction。

乾貨!無監督學習的公平性研究

Dyadic Fairness定義

下圖的公式具體解釋了圖的連結如何影響公平性:

乾貨!無監督學習的公平性研究

公平性圖連線:

乾貨!無監督學習的公平性研究

實驗結果:

論文在不同的資料集都進行了統計分析,其中在UNC28這個資料集上進行了不同二元公平性圖連線的對比實驗。

乾貨!無監督學習的公平性研究

乾貨!無監督學習的公平性研究

論文:On Dyadic Fairness: Exploring and Mitigating Bias in Graph Connections[ICLR-2020]



總結

本次分享我們主要關注群組公平性的研究,從聚類分析、異常點檢測、特徵選擇三個方向來介紹無監督群組公平性的實現方法,並都取得了不錯的結果。

分類: 科技
時間: 2021-10-08

相關文章

影子模式無價值,沒有鐳射雷達真值的資料集無法做智慧駕駛

影子模式無價值,沒有鐳射雷達真值的資料集無法做智慧駕駛
周彥武 圖片來源:網際網路 上圖為有人拍到一輛搭載Luminar鐳射雷達的特斯拉Model Y,一般自動駕駛公司會用林肯MKZ混動改裝做原型車,因為有AutonomouStuff公司專業改裝線控車輛, ...

MSRA研究獲ICCV 2021最佳論文,接收論文近半來自中國學者

MSRA研究獲ICCV 2021最佳論文,接收論文近半來自中國學者
博雯 發自 凹非寺 量子位 報道 | 公眾號 QbitAI ICCV 2021最佳論文剛剛公佈: 中國學者憑藉Swin Transformer獲此殊榮. 這一研究由微軟亞研院(MSRA)提出,論文的四 ...

Abl激酶抑制劑治療新型冠狀病毒肺炎的研究進展

Abl激酶抑制劑治療新型冠狀病毒肺炎的研究進展
來源:國際呼吸雜誌2021年第02期 作者:王健男 王愷鋮 白衝 海軍軍醫大學長海醫院呼吸與危重症醫學科,上海 200433 通訊作者:白衝 Email:[email protected] 摘要 目前,新 ...

Hinton獲2021迪克森科學獎:他改變了AI,改變了世界

Hinton獲2021迪克森科學獎:他改變了AI,改變了世界
作者 | 維克多 編輯 | 青暮 據卡內基梅隆大學(CMU)官方訊息,Geoffrey Hinton 獲得了2021年的迪克森科學獎(The Dickson Prize in Science). 此獎 ...

鷹瞳科技透過聆訊:主打AI視網膜影像識別,Q1營收增長超9倍

鷹瞳科技透過聆訊:主打AI視網膜影像識別,Q1營收增長超9倍
"醫療AI第一股." 本文為IPO早知道原創 作者|Stone Jin 據IPO早知道訊息,北京鷹瞳科技發展股份有限公司(以下簡稱"鷹瞳科技")日前已透過港交所 ...

十大值得關注的深度學習演算法
預測未來不是魔法,而是人工智慧.毋庸置疑,人工智慧的風頭正勁,每個人都在談論它,無論他們是否理解這個術語. 據研究人員和分析師稱,到 2024 年,數字助理的使用率預計有望達到 84 億.超個性化.聊 ...

機器學習之父說,別把啥都往人工智慧上扯 | 章魚通
人工智慧系統還遠遠沒有先進到可以在許多涉及推理.現實世界知識和社會互動的任務中,取代人類.它們在低階模式識別技能上表現出人類水平的能力,但在認知層面上,它們只是在模仿人類的智慧,而沒有深入和創造性地參 ...

元宇宙只是一個想象的共同體

元宇宙只是一個想象的共同體
一隻腳先踏入虛實之間. 在回答"元宇宙是什麼"這個年度熱門問題之前,先要回答科幻作品能給現實社會帶來怎樣的影響? <金羊毛>的作者羅伯特·索耶在一次分享中表示,科幻就是 ...

我國科學家成功架起對抗癌細胞的“直擊”通道
如果將細胞比喻為生產生物分子的工廠,那麼外泌體就是攜帶這些分子的運載器,它們能夠直接進入受體細胞內部,釋放所攜帶的物質,進而影響受體細胞.近年來,外泌體被用於探索治療人類疾病的藥物分子遞送載體,在藥物 ...

腸道奇談:寄生蟲治腸炎,菌群免疫齊相助

腸道奇談:寄生蟲治腸炎,菌群免疫齊相助
09 月 21 日的<熱心腸日報>,我們解讀了 9 篇文獻,關注:新冠肺炎,腸屏障功能,結腸炎,神經退行性疾病,紫檀芪,益生菌,昆蟲,穀子麵粉,蠕蟲. 寄生蟲療法治腸炎?腸道菌群是關鍵 M ...

美知名記者斥美媒故意推動新冠病毒“實驗室洩漏論”
新華社洛杉磯9月30日電 美國知名專欄作家.普利策新聞獎獲得者邁克爾·希爾齊克9月28日在<洛杉磯時報>專欄中撰文,批評美國有線電視新聞網.<大西洋月刊>等美國主流媒體,在大量 ...

高福:新冠病毒的宿主擴充套件尚未結束,可被感染的已遠不僅是人類

高福:新冠病毒的宿主擴充套件尚未結束,可被感染的已遠不僅是人類
除了人類之外,越來越多動物被發現可感染新冠.其中,水貂被發現可將變異病毒再傳回人類. 近日,題為Perspectives: COVID-19 Expands Its Territories from ...

丁酸梭菌在畜禽生產中的應用研究進展,河南金百合生物
摘要:丁酸梭菌具有調節腸道微生態平衡.產生消化酶和維生素等營養物質.提高動物免疫力.抗細胞凋亡.抗腫瘤等多種生理功能.此外,丁酸梭菌屬於厭氧芽孢桿菌,對飼料加工過程中的高溫.高壓以及動物胃腸道環境有較 ...

聽莫扎特緩解癲癇
<科學報告>日前發表的一項新研究發現,聆聽奧地利古典主義作曲家莫扎特的D大調雙鋼琴奏鳴曲(K448)至少30秒,可以降低患有耐藥性癲癇的患者大腦中與癲癇相關的電活動尖峰頻率. 這項研究還表 ...

黃連素降血糖 有全新降糖通路
原標題:黃連素降血糖 有全新降糖通路 首都醫科大學附屬同仁醫院內分泌科主任.北京市糖尿病研究所所長 楊金奎 2021年9月23日,<自然·通訊>發表了首都醫科大學附屬北京同仁醫院楊金奎教授 ...

頂刊日報|Vaccine:100 IU乙型肝炎免疫球蛋白聯合乙肝疫苗足以預防HBV母嬰傳播

頂刊日報|Vaccine:100 IU乙型肝炎免疫球蛋白聯合乙肝疫苗足以預防HBV母嬰傳播
乙型肝炎免疫球蛋白(HBIG)是從獻血者血漿中提取的含有高濃度抗-HBs的血液製品.為防止乙肝病毒的母嬰傳播,對於HBsAg陽性母親所生嬰兒,建議在出生時注射HBIG,並聯合接種乙型肝炎疫苗(HepB ...

電商凡凡乾貨分享:抖音小店無貨源——選品技巧大公開

電商凡凡乾貨分享:抖音小店無貨源——選品技巧大公開
大家好,我是醒醒團隊的凡凡 電商六年,專注於抖音小店無貨源 今天繼續講電商乾貨 關於抖音小店無貨源,很簡單的道理,抖音現在日活量是六個億 無論哪個領域,流量在哪,生意就在哪 現在的抖音小店正處在平臺流 ...

研究:無耳線蟲能透過其面板“聽到”聲波

研究:無耳線蟲能透過其面板“聽到”聲波
據外媒報道,密歇根大學生命科學研究所的一項新研究表明,一種被廣泛應用於生物學研究的線蟲,儘管沒有類似耳朵的器官但卻能感知並對聲音做出反應.這些發現於2021年9月22日發表在<Neuron> ...

巔峰對話,億路前行-觀WM研究新進展,話“無化療”治療新未來

巔峰對話,億路前行-觀WM研究新進展,話“無化療”治療新未來
為提高我國廣大臨床醫生診治華氏巨球蛋白血癥(WM)水平,規範WM治療方案,加強WM的療效評價及隨訪,中國WM工作組季度會議暨國際WM專題研討會於2021年9月24日成功線上召開.本次會議以" ...