隨著數字化時代的來臨,大資料、人工智慧等精尖技術進入了高速發展階段。然而,對一些行業而言,存在資料樣本量少、特徵少、標註資訊缺失、資料質量差等問題,同時由於相同行業不同企業間的競爭以及同一企業中不同業務條線、業務系統間的阻隔性等情況,難以實現有效的資料資訊交流與整合,易造成“資料孤島”現象,這使大資料、人工智慧相關技術難以發揮出預期的應用效果。
當前隱私與資料保護已成為全球關注的焦點,無論是機構還是個人都對隱私和資料保護越發重視,政府機構也出臺了相關的法律法規來保護資料安全和隱私。而聯邦學習(Federated Learning)作為一種新興的人工智慧技術,能夠在隱私、安全和監管的要求下,讓AI系統更加高效、準確地使用資料,突破小資料(資料樣本和特徵受到制約)和弱監督(資料標註資訊受到制約)等條件約束,實現機器學習模型的可用性,為“資料孤島”以及“隱私計算”問題提供瞭解決方案。
聯邦學習的發展歷程
聯邦學習概念源自Google於2016年為更新Gboard系統的輸入預測模型而設計的一個機器學習系統。聯邦學習面向的場景是分散式多使用者,每個使用者客戶端擁有當前使用者的資料集。傳統的機器學習的做法是將這些資料收集在一起,得到彙總資料集,基於彙總資料訓練得到模型。聯邦學習方法則是由參與方共同訓練得到全域性模型,首先各參與方基於自己的本地資料訓練本地模型,再透過引數交換和聚合操作,得到全域性模型;在該過程中,使用者資料始終儲存在本地,不對外發送,滿足資料安全和隱私保護要求。
最初的聯邦學習框架是在機器學習本身的技術層面思考資訊流的傳遞,保護原始資料不出庫。但聯邦學習技術的發展,對其提出了增強安全的要求,不僅要求保護原始資料,同時要求進一步保護中間互動的引數,以此提高系統安全性。透過聯邦學習結合差分隱私、同態加密、秘密分享等密碼學技術的綜合應用,對資料隱私實現端到端的閉環保護。此外,透過對程式碼、演算法、通訊、硬體等方面的最佳化,可提升聯邦學習系統的效能,縮小其與傳統集中式機器學習使用者體驗的差距。
發展至今,聯邦學習技術逐漸趨於成熟,在業務場景得到了較好的嘗試和應用。同時,國際和國內機構也在推動聯邦學習等隱私計算技術的標準建立。例如,IEEE在2021年3月正式釋出了P3652.1《聯邦學習基礎架構與應用指南》;3GPP、ISO、ITU-T及中國金融標準化委員會(金標委)等機構也組織制定聯邦學習的相關標準,促進聯邦學習技術向著更具通用性、可用性、安全性的方向發展,為聯邦學習技術生態發展奠定了基礎。
聯邦學習的三種模式
聯邦學習面向的場景是多參與方,每個參與方擁有各自的資料集。根據參與方持有資料情況的不同,聯邦學習可分為三種模式:橫向聯邦學習(Horizontal Federated Learning)、縱向聯邦學習(Vertical Federated Learning)和聯邦遷移學習(Federated Transfer Learning)。
橫向聯邦學習
橫向聯邦學習是指在參與聯合建模的各方之間使用者重疊較少,而使用者特徵重疊較多的情況下,透過把各參與方的資料集按使用者維度切分,並取出雙方使用者特徵相同而使用者不相同的那部分資料進行訓練。
在金融場景中,橫向聯邦學習適用於金融機構間的聯合建模,即參與方之間業務場景相似,使用者特徵相同,而使用者群體交集較小的場景。例如,兩家不同地區的銀行機構,它們的使用者群體相互交集很小,但是它們的業務很相似,因此使用者特徵是相同的;但由於某些特定業務場景,如小微企業信貸等,各參與方可使用的建模樣本均較少,因而難以各自採用傳統機器學習演算法構建模型,在這種情況下,可以透過橫向聯邦學習來聯合使用多個不同機構間的樣本資料,擴大模型訓練的樣本空間,從而構建更準確、泛化能力更好的模型。
縱向聯邦學習
縱向聯邦學習是指在參與聯合建模各方資料集的使用者重疊較多,而使用者特徵重疊較少的情況下,透過把資料集按照特徵維度切分,並取出雙方使用者相同而使用者特徵不相同的那部分資料進行訓練。
縱向聯邦學習往往用以解決一方資料維度過少,僅用一方資料無法較好地實現建模目標,或是一方只有Y標籤,需要使用其他參與方的特徵來構建聯合模型的場景,多用於異業之間的聯合建模。在金融場景中,縱向聯邦學習常用於金融機構與其他行業機構之間的聯合建模,即參與方的使用者交集比較大,但各參與方所擁有的使用者特徵差異性大。例如,銀行與運營商之間的聯合建模,它們的使用者交集較大,但銀行記錄的都是使用者的收支資訊、信貸行為、還款記錄等金融行為資訊,而運營商擁有使用者簡訊、上網情況等通訊行為資訊,因此它們之間的使用者特徵差異性很大,銀行機構在智慧風控、智慧營銷、反欺詐、存客運營等業務場景中,均可使用縱向聯邦學習,透過參與方之間特徵的互補來提升模型的資訊量,以增強聯合模型的識別和預測能力。
聯邦遷移學習
聯邦遷移學習是指在參與方資料集的使用者與使用者特徵重疊都較少,往往無法基於使用者或特徵進行切分,在這種情況下可以利用遷移學習來克服樣本和標籤不足的情況。
遷移學習的目的是把源領域的知識遷移到目標領域,使得目標領域能夠跨越資料積累直接實現應用智慧,通常適用於源領域資料量充足,而目標領域資料量較小的場景。例如,在金融領域的反洗錢、大額信貸業務等場景或是在業務啟動階段,普遍存在金融樣本有限問題,難以採用通用的機器學習演算法建模。利用源領域的大量資料訓練好一個模型,透過遷移學習,將資料、模型和任務都遷移到目標領域的小資料中,可以得到一個魯棒性較好的新模型。聯邦遷移學習將遷移學習方法與多方安全計算中的同態加密等演算法相結合,實現了聯邦化的遷移學習演算法。
基於聯邦學習的隱私計算
聯邦學習的基本原理是在企業、機構或終端各自資料不出本地的前提下,透過基於密碼學機制下的引數交換,建立虛擬的共有模型。這個共有模型的效能經與傳統方式下將各方資料匯聚在一起再使用機器學習方法訓練的模型進行對比,兩者效果基本一致。
聯邦學習的參與方一般包括資料方、演算法方、協調方、計算方、結果方、任務發起方等,這些不同角色可以根據不同的實現機制,由不同的實體承擔,或是由某一實體承擔多個角色。目前的聯邦學習的實現架構主要分為兩種:一種是基於協調方的中心化聯邦架構,另一種是點對點的去中心化聯邦架構。在中心化聯邦架構中,各參與方需要與中心協調方或中央伺服器合作完成聯合訓練;而在點對點的去中心化聯邦架構中,各個參與方是對等關係,不存在中心化的伺服器,所有互動都是參與方之間透過多方安全計算等密碼協議直接進行互動和計算的。
橫向聯邦學習通常是基於中心化聯邦架構,透過中心協調方來協調和彙總全域性的模型。模型訓練之前,中心協調方將初始模型分發給各參與方,各參與方再根據本地資料集進行模型訓練, 然後各參與方把本地訓練得到的模型引數加密上傳至中心協調方,中心協調方對所有模型梯度進行聚合,再將聚合後的全域性模型引數加密傳回給各參與方,反覆此步驟,直到全域性模型收斂得到最優模型。而縱向聯邦學習根據不同業務場景、參與方之間的信任度、安全強度需求等,可選擇採用中心化聯邦架構或去中心化的點對點網路架構,與之對應的是採用密碼學技術的差異。聯邦學習常採用同態加密、差分隱私以及秘密共享、不經意傳輸、混淆電路等多方安全計算技術來增強中間互動模型引數的安全性。此外,隨著產業應用的需求,聯邦學習也與其他多元技術融合來滿足更多應用場景。例如,透過採用差分隱私進一步增強對梯度引數的保護程度,防止中間梯度資訊的洩漏與原始資料的反推;與可信執行環境融合,進一步提升本地隱私資料的安全性或模型的安全等級。
聯邦學習的金融應用場景
反欺詐場景
機器學習在金融反欺詐的應用場景中迅速發展,並已取得顯著成效,金融詐騙行為能夠被有效識別。但在巨大的經濟利益驅動下,金融詐騙手段層出不窮,傳統基於單一企業的資料建模逐漸難以應對不斷升級的詐騙手段,需要透過聯邦學習等隱私計算技術打通企業間的資料孤島,構建跨行業資料共享的反欺詐模型,以提升金融反欺詐的效率與精準性。
藉助聯邦學習技術,可以在保證使用者隱私資訊、企業的資料安全以及企業的資料所有權與控制權的前提下,融合銀行機構、電商、運營商、政務等多元資料,實現跨行業、跨機構的反欺詐體系建設。基於金融行為特徵、消費行為特徵、通訊行為特徵、社交行為特徵等,構建針對不同細分金融反欺詐業務場景的專有模型,透過跨行業、跨機構的多樣性欺詐資料特徵互補,從而提升金融行業的整體反欺詐能力。
以國內某商業銀行為例,其藉助聯邦學習技術,引入外部資料來源,聯合行內已有樣本和特徵,利用聯邦Fastboost演算法構建反欺詐模型,並與現有欺詐系統進行對接,具體應用如圖1所示。
實證結果表明,透過聯邦學習演算法構建的跨機構反欺詐模型, 其AUC指標達到0.84,KS指標達到0.55,KS指標對比僅基於行內資料構建的模型提升了約15%。這表明聯邦學習模型能夠對使用者欺詐行為進行有效識別,有效提升商業銀行的風險防控能力。
信貸風控場景
在信貸風控領域,因信審過程需要呼叫不同的資料介面,因此面臨著信貸稽核成本高昂的情況;此外,銀行等金融機構在面對中小微企業的信貸需求時,缺乏企業經營情況等有效資料,導致中小微企業融資難、融資貴、融資慢;同樣,消費金融類企業在面對風控時,缺乏網際網路使用者行為畫像等有效資料。
在中小微企業信貸場景中,針對中小微企業信貸評審資料稀缺、不全面、歷史資訊沉澱不足等問題,透過聯邦學習機制,在確保資料提供方資料安全以及隱私保護的情況下,能夠為銀行融匯企業經營資料、稅務資料、工商資料、支付資料等多源資訊,豐富建模特徵體系,共同提升模型的有效性。此外,透過將風險前置,從風險源頭切入,採用隱私計算還可幫助金融機構過濾信貸黑名單客戶以及過濾明顯沒有轉化價值的貸款客戶。
以國內某商業銀行為例,其在進軍中小微企業貸款市場過程中,苦於沒有充足的資料特徵維度用以判斷企業的信用評分,因此將風控縮緊,雖然保證了業務安全性,卻降低了盈利性。藉助聯邦學習的方式,該銀行與某支付機構進行跨機構資料協作,對企業進行信用評估。銀行提供建模樣本Y標籤,外部合作機構提供相關樣本的X資料特徵,採用聯邦邏輯迴歸演算法構建風險評分模型,對客戶進行評分割槽間預測,相關方案如圖2所示。
基於外部資料來源輔助的模型訓練結果顯示,其AUC指標達到0.71,KS指標達到0.34,能夠為銀行在中小微信貸場景提供有效的風控能力。
此外,聯邦學習技術也可用於消費金融機構信貸場景。針對消費金融機構Y樣本量不足、好壞樣本區分度不夠、樣本呈偏態分佈等問題,建議透過聯邦學習機制,融合多家信貸機構的資料進行小樣本聯合建模,並不斷積累業務資料迭代最佳化模型。
銀保營銷場景
銀行在保險業務的推廣方面存在天然優勢,同時也是其重要業務組成的一部分,但是目前銀行在保險產品的營銷和精準獲客方面存在以下的問題:一是獲客難度大。銀行在尋找客戶過程中,因客戶畫像不精準,導致獲客轉化率低。二是客戶需求把握不準。因客戶維度的缺失,導致銀行營銷人員對潛在客戶的需求定位不清晰,難以挖掘其真實需求,潛在價值沒有得到充分的發揮。三是總成本居高不下。因獲客轉化率低,同時產品推介針對性不強,導致銀行保險業務營銷的整體ROI偏低。
以國內某商業銀行為例,在代銷保險業務中銀行希望從數億客群中挖掘出潛在的保險使用者,進行銀保交叉營銷。在實施過程中,採用聯邦學習技術,利用保險公司已有人群特徵標籤作為種子使用者,並選用聯邦推薦演算法,構建多維、準確的聯邦推薦模型,從而識別出更多潛在相似人群,同時最佳化營銷渠道。
對模型執行結果及營銷結果進行統計分析,實證結果表明, 在轉化率、ROI、長短期保險營銷比例等方面,聯邦學習模型結果均有較為明顯的提升,如圖3所示。
圖3 銀保聯邦營銷效果統計圖
結語
聯邦學習是當前隱私立法時代能夠兼顧隱私與資料保護要求以及機器學習、資料探勘應用需求的一項前沿IT技術。在商業銀行具體業務場景中,基於聯邦學習的隱私計算平臺能夠解決資料使用合法合規的問題,拓寬金融行業資料邊界,並打破資料割裂的壁壘。藉助聯邦建模可以在保護使用者資訊不洩露的前提下,將來自支付應用的消費資料、交通出行資料、通訊資料、上網行為資料等多方、多維度資訊納入聯邦風控模型、聯邦反欺詐模型、聯邦營銷模型、聯邦反洗錢模型等多類業務場景中,在滿足合規經營的前提下,進一步推動銀行數字化轉型、智慧化發展,全面提升商業銀行的業務質效。
(龍盈智達〔北京〕科技有限公司大資料中心楊璇、袁開蓉以及同盾科技有限公司人工智慧研究院彭宇翔、張明明對本文亦有貢獻。)
作者單位:華夏銀行股份有限公司資訊科技部,龍盈智達(北京)科技有限公司,同盾科技有限公司人工智慧研究院
責任編輯:孫 爽