sponsored links

最近,我和隱私計算幹上了

最近一段時間,我除了寫業務程式碼之外,還整了個新鮮玩意,那就是參與搞了一下隱私計算相關的事情。

現在有空了,剛好總結一下。因為隱私計算可能對於很多工程開發朋友來說很陌生,所以,我這篇文章主要是給大家科普一下,讓大家知道有這麼個技術以及現在的主要方向。這裡面不會有太多的演算法內容和底層原理,相信大家應該都能看得懂。

隨著移動網際網路、雲計算、物聯網等資訊科技的蓬勃發展,世界進入了資料爆炸的"大資料時代"。在各行各業,資料都發揮著至關重要的作用,越來越多的場景需要多方資料的流通和共享。如我們所在的金融部門,則需要藉助外部金融資料,結合我們的場景業務資料進行聯合建模,實現聯合風控、數字營銷、智慧反詐、精準獲客等。

所以,站在這個歷史節點上,在資料合作、共享方面,橫亙在我們面前的有幾個重要的問題需要解決:

1、“資料孤島“現象普遍存在;資料流通安全性風險高;

2、資料合規監管日趨嚴格;隱私洩露導致信任鴻溝;

其中,隨著個人資訊保護法在2021年11月的推出,監管問題更是我們亟待解決的。

但是近幾年,隨著電子商務法、資料安全法、《個人資訊保護法》等一些列法律法規的推出,使得我們不得不重視個人隱私的問題。

最近,我和隱私計算幹上了

雖然個人資訊的保護越來越嚴格,但是,從很多的法規中我們可以解讀出來,其實,大的形式上,官方還是比較支援我們合規的進行資料的利用和開發的。

那麼,如何解決這些問題呢?

其實,從《個保法》中我們可以找到一些切入口,根據中對個人資訊的定義是這樣的:

以電子或者其他方式記錄的與已識別或者可識別的自然人有關的各種資訊,不包括匿名化處理後的資訊。

可見,如果我們能夠對個人資訊進行去標識化匿名化處理,那麼,就可以利用這些資訊了。

所以,很多相關的技術也就誕生了,這些技術主要解決的就是透過資料可用不可見的方式幫助我們進行跨機構間的資料協同。這類技術,統稱為隱私計算技術。

隱私保護計算經過很多年的發展,在具體的落地實現的技術上,主要有三個主流的方向:

1、基於密碼學的多方安全計算(MPC)

2、基於可信硬體的可信執行環境(TEE)

3、基於混合技術方案的聯邦學習(FL)

最近,我和隱私計算幹上了

想要實現去標識化和匿名化,主要的方式就是讓原始的使用者資料無法被識別。

其中多方安全計算主要是基於密碼學的方式,把資料進行加密處理,這樣我們就可以使用加密後的資料進行演算法建模了。

另外,可信執行環境是一種基於硬體的資料,大概就是把資料放到一個硬體中,只在這個硬體內部使用,外部無法直接讀取。

還有一種技術那就是混合了多種方案的技術,那就是聯邦學習。

其中聯邦學習因為其不依賴硬體、可以解決複雜的演算法建模問題等優勢,雖然相比其他方案存在著一定的效率問題,但是隨著技術的發展,如何突破效能瓶頸,達到實用性、安全性的平衡,並進一步提升安全性,這些問題終將被解決。所以,這項技術被認為是"人工智慧的最後一公里"、"下一代人工智慧協同演算法和協作網路的基礎"。

聯邦學習

聯邦學習(Federated Learning)是一種新興的人工智慧基礎技術,在 2016 年由谷歌最先提出,原本用於解決安卓手機終端使用者在本地更新模型的問題,其設計目標是在保障大資料交換時的資訊保安、保護終端資料和個人資料隱私、保證合法合規的前提下,在多參與方或多計算結點之間開展高效率的機器學習。

我們把每個參與共同建模的企業稱為參與方,根據多參與方之間資料分佈的不同,把聯邦學習分為三類:橫向聯邦學習、縱向聯邦學習和聯邦遷移學習。

最近,我和隱私計算幹上了

橫向聯邦學習的本質是樣本的聯合,適用於參與者間業態相同但觸達客戶不同,即特徵重疊多,使用者重疊少時的場景,比如不同地區的銀行間,他們的業務相似(特徵相似),但使用者不同(樣本不同)。主要解決樣本不足的問題。

縱向聯邦學習的本質是特徵的聯合,適用於使用者重疊多,特徵重疊少的場景,比如同一地區的商超和銀行,他們觸達的使用者都為該地區的居民(樣本相同),但業務不同(特徵不同)。主要解決特徵不足的問題。

因為我們這面主要是金融業務,隱私計算的應用場景是基於聯邦學習和外部銀行、機構等做聯合風控,多頭借貸等金融業務。所以我們基本上是想用我們具有的使用者的電商資料、和外部機構具有的信貸資料、徵信資料等進行縱向連邦學習。

縱向聯邦學習的主要流程如下:

最近,我和隱私計算幹上了

第一步:加密樣本對齊。是在系統級做這件事,因此在企業感知層面不會暴露非交叉使用者。第二步:對齊樣本進行模型加密訓練:step1:由第三方C向A和B傳送公鑰,用來加密需要傳輸的資料;step2:A和B分別計算和自己相關的特徵中間結果,並加密互動,用來求得各自梯度和損失;step3:A和B分別計算各自加密後的梯度並新增掩碼傳送給C,同時B計算加密後的損失傳送給C;step4:C解密梯度和損失後回傳給A和B,A、B去除掩碼並更新模型。

FATE 框架

因為目前關於聯邦學習的技術,很多大廠都有在投入,其中阿里、螞蟻、位元組、騰訊等都很多成功的案例。

我們此次在進行聯邦學習相關調研的時候,有不同的同事分別調研不同的框架。我這面主要負責基於開源的框架進行調研。

因為關於聯邦學習,最重要的還是解決資料的安全性問題,目前看來,很多外部機構,對於開源的框架接受度更高一些。市面上也有很多聯邦學習框架,如微眾銀行開源的FATE、位元組開源的FedLearner、百度開源的PaddleFL等。其中 FATE 被使用的最廣泛,被認為是聯邦學習的樣板專案。

FATE (Federated AI Technology Enabler) 是微眾銀行AI部門發起的開源專案,為聯邦學習生態系統提供了可靠的安全計算框架。FATE專案使用多方安全計算 (MPC) 以及同態加密 (HE) 技術構建底層安全計算協議,以此支援不同種類的機器學習的安全計算,包括邏輯迴歸、基於樹的演算法、深度學習和遷移學習等。

FATE 有4種部署方式,分別是基於Docker-Compose的部署、Standalone部署、Native的叢集部署、基於KubeFATE的部署。

  • 基於Docker-Compose:快速體驗一下FATE,跑的模型和資料在單臺機器就夠了,部署起來比較簡單。
  • Standalone單機部署:只是想開發演算法,而開發機器效能又不高。
  • 基於KubeFATE:對FATE的使用需求因資料集和模型變大,需要擴容,並且裡面有資料需要維護一個FATE叢集,則考慮使用基於KubeFATE在Kubernetes叢集的部署方案。
  • Native的叢集部署:一般是在特殊原因下才會用,如內部無法部署Kubernetes,或者需要對FATE的部署進行自己的二次開發等。為了快速驗證,我們此次部署主要是採用了基於Docker-Compose和基於KubeFATE兩種部署方式。部署過程中還是遇到了很多的問題的。

關於這兩種部署方式的部署過程以及一些問題的解決,不是本文的重點,我把他們單獨放到我的部落格中了,大家如果感興趣可以去我的部落格中閱讀。

下面這張就是 FATE 的一個部署架構圖:

最近,我和隱私計算幹上了

太多的細節就不在這裡深入介紹了。

我們基於 FATE,和外部機構合作搞了一套聯邦學習的環境,阿里作為一方、外部機構作為另外一方,對大概十幾萬的資料做了聯邦學習的建模。

最終結果還是比較符合我們的預期的,聯邦學習的建模方式和本地建模,在效能上的損耗很小,小到幾乎可忽略。

其他

以上,算是我對這段時間關於隱私計算&聯邦學習的一些調研以及實踐的一些總結。

之所以要研究這個,一方面是工作中需要,另外一方面,對於新技術,我們還是要多多接觸瞭解一下。尤其是這些對於當下以及未來都是很重要的東西。

就像我在阿里內網,給自己的簽名一樣:不設限。

對於這部分內容,目前我剛剛接觸不久,很多內容都是基於我自己的理解表達的,如文中有錯誤之處,歡迎大家幫忙指出。同時也歡迎有相關經驗的朋友一起交流。

關於作者:Hollis(ID:hollischuang),一個對Coding有著獨特追求的人,現任阿里巴巴技術專家,個人技術博主,技術文章全網閱讀量數千萬,《程式設計師的三門課》聯合作者。

分類: 遊戲
時間: 2021-12-20

相關文章

職普分流引熱議,專家:普職並重需要建立兩個高考和高教體系
澎湃新聞記者 吳怡 實習生 王加敏 關乎萬千家庭的教育問題一直都是社會關注的重點.今年以來,國家在教育領域出臺了多項改革新政,其中新檔案關於"職普分流"的話題引起了熱議. 3月份, ...

如何讓寫作成為孩子的終身優勢?來聽聽《張泉靈的作文課》

如何讓寫作成為孩子的終身優勢?來聽聽《張泉靈的作文課》
澎湃新聞記者 夏奕寧 42歲之前,張泉靈留給外界的標籤,是坐鎮<東方時空><焦點訪談>等欄目的著名主持,知性幹練的形象深入人心.兢兢業業18年,她在央視站穩了腳跟,卻又毅然離職 ...

氣密性密封 防水等級區分
防塵防水 防護等級採用國際電工委員會(IEC)推薦的IP××等級標準,國內標準 GB/T 4208-2017不同的安裝場所,等級是不一樣的.具體可參照下面的說明選定.在等級標準中,"××&q ...

一代豫劇大師常香玉去世後,她的3個女兒後來都怎麼樣了?

一代豫劇大師常香玉去世後,她的3個女兒後來都怎麼樣了?
我國幅員遼闊,地域廣大,戲曲形式也是多種多樣.據相關資料統計,我國現有戲曲種類360餘種,從業人數近8萬. 在這龐雜的戲劇世界之中,又以"京劇.黃梅戲.評劇.越劇.豫劇"這五類受眾 ...

退伍兩年後,她成了軍嫂……

退伍兩年後,她成了軍嫂……
文.圖 | 朱萬福 對一個女生來說 最好的愛情是什麼樣 可以是一見鍾情 也可以是日久生情 而軍戀更是兩個人的互相吸引 共同包容 比如沈怡,今天故事的女主人公 如果沒來當兵,沈怡的人生可能是另外一番模樣 ...

64年原子彈爆炸成功後,周總理看到一蘑菇雲照片:把地面部分裁掉

64年原子彈爆炸成功後,周總理看到一蘑菇雲照片:把地面部分裁掉
1964年10月16日,我國自行研製的首顆原子彈在新疆羅布泊成功爆炸,現場的工作人員看到天空瞬間升起巨大的蘑菇雲後,無不驚喜尖叫,熱烈慶賀.全國人民聽到這個訊息後,也全部都在為祖國的日益強大而感到驕傲 ...

全運會射擊超級冷門:3大奧運冠軍集體出局!東京冠軍無成績墊底

全運會射擊超級冷門:3大奧運冠軍集體出局!東京冠軍無成績墊底
北京時間9月18日,全運會女子25米運動手槍資格賽,大牌雲集展開巔峰對決,結果3位奧運冠軍郭文珺.張夢雪.姜冉馨集體無緣決賽,姜冉馨速射無成績墊底.參加該專案的2位東京奧運會選手肖嘉芮萱.熊亞瑄同樣無 ...

北京最受歡迎影城,門票418元起一票難求,周邊酒店2萬一晚被搶空

北京最受歡迎影城,門票418元起一票難求,周邊酒店2萬一晚被搶空
北京市作為我國的首都,有著極強的經濟實力以及十分悠久的歷史,在北京不僅有著諸多高樓大廈所構築而成的現代化大都市,還有許多歷史悠久的文化古蹟,因為這些種種原因綜合起來,所以北京市的旅遊業也是特別的發達. ...

畫蒙娜麗莎的達·芬奇竟是科學家?“科學巨人”的秘密都在這裡了

畫蒙娜麗莎的達·芬奇竟是科學家?“科學巨人”的秘密都在這裡了
在大家的印象當中,科學巨人們都是怎樣的形象?嚴肅刻板?一絲不苟?在實驗室中一遍又一遍地重複著實驗?或者在紙上一次又一次地寫下公式? 誠然,這些是科學家們必不可少的一些特質,對待科學嚴肅認真,對待知識積 ...

郭坡村的美好生活

郭坡村的美好生活
茂盛的絲瓜藤纏繞出一片綠海,青翠飽滿的絲瓜懸掛其間:一旁平整開闊的土地上,收割後的高粱還留下一茬青苗:不遠處一千多畝桃園裡,晚熟的黃桃還在等待遊人採摘--行走在潼南區柏梓鎮郭坡村的田間地頭,各色農產品 ...

上甘嶺戰役多慘烈?林彪用7個字點評,很多人都一致認同

上甘嶺戰役多慘烈?林彪用7個字點評,很多人都一致認同
上甘嶺戰役多慘烈?林彪用7個字點評,很多人都一致認同 在20世紀發生了很多的戰爭,而在眾多的戰爭中唯有一場給人們留下了極其深刻的印象.要知道這場戰爭的炮兵火力密度遠超第二次世界大戰的最高水平,其實光從 ...

厲害了我的國!參觀神秘的潛艇內部,40年前已如此先進,必須點贊

厲害了我的國!參觀神秘的潛艇內部,40年前已如此先進,必須點贊
威海是一座美麗的海濱城市,不僅漫長的海岸線讓人著迷,誘人的海鮮也令人垂涎.同時位於威海的劉公島又是一個讓人心情沉重的地方,在此發生的甲午海戰標誌著清朝歷時三十餘年的洋務運動失敗,接下來是一系列割地賠款 ...

世華水岸(B、C、F區)

世華水岸(B、C、F區)
世華水岸位於南四環榴鄉橋的北側,是北京城建集團開發的一箇中高階品質的小區,小區依涼水河而建,總共分為B.C.F三個區,總體建成年代為2009-2011年,總戶數在1500戶左右,是整個南四環區域一個受 ...

外表冷酷內在顧家的特工奶爸,雪佛蘭開拓者RS版試駕

外表冷酷內在顧家的特工奶爸,雪佛蘭開拓者RS版試駕
無論你認不認同,多孩家庭正在逐漸成為中國下一階段的大趨勢,6/7座佈局的中大型SUV在中國車市也顯得愈發重要.通用當然也緊緊盯著這塊不斷膨脹的蛋糕,尤其是在福特.大眾.豐田等品牌早在幾年前就開始搶佔這 ...

種植蘿蔔、胡蘿蔔把好四關,根莖長得大還光滑,口感好又豐產

種植蘿蔔、胡蘿蔔把好四關,根莖長得大還光滑,口感好又豐產
蘿蔔和胡蘿蔔都是深根系作物,從播種到收穫一共分為三個生長期,苗期.葉片伸展期和根莖生長膨大期,雖然這兩種蔬菜相比其他蔬菜管理起來要容易得多,但這兩種蔬菜的生長習性和其他蔬菜不同,要想獲得高產,在種植和 ...

2021年中國網際網路家裝消費趨勢白皮書

2021年中國網際網路家裝消費趨勢白皮書
本文一共分為四部分: 第一部分:家裝行業消費概況 第二部分:家裝行業消費者洞察 第三部分:家裝行業消費新趨勢 第四部分:家裝行業未來展望 本份下載完整版報告請關注+轉發+私信回覆關鍵詞[666],獲取 ...

林肯航海家:2.7T車型百公里加速6.48秒,國產化後實力不變!

林肯航海家:2.7T車型百公里加速6.48秒,國產化後實力不變!
林肯汽車大多數人並不陌生,雖然國產化後銷售時間不是很長,但冒險家和飛行家都取得了不錯的成績.而今天要跟大傢俱體聊的是國產化之後的航海家,在定位上會更高階一些,是一款中型豪華SUV.從動力上來講,航海家 ...

武術修為可以劃分為幾個境界

武術修為可以劃分為幾個境界
武術修為可以劃分為幾個境界? 最近在網上刷到一個二十幾歲的年輕人一直在那裡呱呱奇談他所理解的武術,他還說泰森現在復出了,他要挑戰泰森,他要和泰森打一場mma規則的比賽! 看他在那裡呱呱奇談,不禁好奇, ...

試駕起亞K3頂配,1.4T引擎不夠強勢,底盤過濾能力平庸!

試駕起亞K3頂配,1.4T引擎不夠強勢,底盤過濾能力平庸!
起亞k3作為韓系品牌中的經典車型,在市場之中是經歷風霜雨打,目前新款車型在顏值上面依舊不錯,最近一段時間我是試駕了2021款 起亞K3 改款 1.4T DCT GT-Line智駕運動版,作為家族頂配車 ...

1902年,日本210人進雪山,3天后僅11人存活,倖存者說出噩夢歷程

1902年,日本210人進雪山,3天后僅11人存活,倖存者說出噩夢歷程
1902年1月底,由陸軍第八師團一連隊組成的搜救隊,在距離日本青森縣八甲田山,發現了一名日軍士官. 他被發現的時候渾身被覆蓋了一層厚厚的積雪,整個人如同一座雕像般矗立在積雪中,神情恍惚,嘴裡不停地念叨 ...