機器之心報道
機器之心Pro
11 月 29 日晚間,機器之心舉辦「智周洞察 · 可信 AI」:隱私保護增強的新一代生物識別技術線上研討會。中國信通院雲大所石霖主任、上海交通大學鬱昱教授、墨奇科技湯林鵬、天壤韓定一四位嘉賓從學術研究、技術實現、應用挑戰及安全合規四個角度共同探討可信生物識別。
生物識別既是重要的模式識別和計算機視覺學科前沿方向,也是人工智慧技術應用落地較早的方向之一。隨著發展可信 AI 的全球共識的逐步深化,提高系統的隱私保護能力成為世界各國技術治理最為關注的方面之一。
近幾年,學界、業界的科研人員紛紛提出了各種潛在技術路線及解決方案。隨著《中華人民共和國資料安全法》及《中華人民共和國個人資訊保護法》的施行啟動,市場對升級技術,採用新一代具有隱私保護增強能力的生物識別系統的需求升溫。相應的,構建新一代可信 AI 系統能力的生物識別技術的研發熱度也在上升。
11 月 29 日晚間,機器之心舉辦「智周洞察 · 可信 AI」:隱私保護增強的新一代生物識別技術線上研討會。本次線上研討設定了 “主題分享” 與“趨勢圓桌”兩個環節,邀請了中國信通院雲大所石霖主任、上海交通大學鬱昱教授、墨奇科技湯林鵬、天壤韓定一四位嘉賓從學術研究、技術實現、應用挑戰及安全合規四個角度共同探討可信生物識別。
基於格的模糊提取器解決雪崩效應,實現雜湊函式在生物特徵識別的應用
在分享環節,鬱昱教授以《基於格的模糊提取器與隱私保護生物識別應用》為主題,從密碼學的角度探討了生物識別領域的隱私增強技術,同時分享了他在相關領域中最新的工作。
基於生物特徵的認證方式已存在廣泛的應用。以人臉識別為例,該技術在如手機解鎖、刷臉支付、機場 / 門禁等場景均有應用。相應的,對於人臉資料的收集和濫用等現象也在近期引起了海內外的大量關注。鬱昱教授表示:“對人臉的濫用沒有辦法從技術角度去解決,但人臉模板的安全儲存的確是一個技術的議題。我們可以在技術層面透過密碼學,或是其他手段將它洩露的風險降低,做到最小化。”
在人臉識別的過程中,我們會先對人臉進行拍攝,並透過模型將人臉部分進行提取(extracted face),然後將其轉化成一個特徵向量(feature vector),從而形成一個人臉的模板(template)儲存於資料庫(template database)中。此外,我們可以透過多次採集或儘可能地減小噪聲,為保證後續最大化的識別率做準備。後續的每次刷臉會經過同樣的流程,得到另外一份特徵向量,並與資料庫中的模板進行匹配,從而判斷識別物件的身份。
然而,近幾年的研究證明,將人臉透過某種模型轉換成特徵向量雖然是一個有損的過程,但它並非是不可逆的過程,我們仍然可以從特徵向量中恢復人臉的部分,甚至大部分的資訊。因此,我們當前的目標是,如何在人臉模板資料實現隱私保護儲存的前提下,實現儘可能高的人臉識別準確率。
我們借鑑了傳統網站利用雜湊函式對口令進行保護的模式。透過對口令進行雜湊轉化,對其進行“加鹽(salting)”,轉化為一個雜湊值(或摘要值)進行儲存;在進一步比對的過程中,將使用者輸入的口令進行同樣的雜湊轉化。由此,我們只需比對兩個雜湊值,便可確認密碼口令的正確與否,即便有人竊取了所有口令的雜湊值,也難以還原出使用者的原密碼。(除非口令的熵或是空間過小,可以被窮舉法推理)。
然而,由於人臉噪聲的特性,每次人臉識別所形成的特徵向量均會有微小的差異,而雜湊函式存在一種“雪崩效應”(當有任何兩個輸入,只要有一個位元的不同,其表現的雜湊值的差異是完全隨機的),因此將傳統的雜湊函式直接應用到人臉識別領域基本不可能。
針對上述問題,Dodis 等密碼學家於 2004 年提出了 “模糊提取器(Fuzzy Extractor)” 技術。透過演算法從特徵向量中提取一個隨機數,作為認證的幫助資訊。後續在刷臉的時候則可以由此幫助資訊協助糾錯,將特徵向量精準還原為第一次註冊的情況,實現匹配。透過結合雜湊函式和模糊提取器,我們就得到了一個能夠容忍一定噪聲的,基於生物特徵的,安全儲存的人臉識別解決方案。
只是十幾年前的模糊提取器大多被設計為面向位元的(hamming metric),其討論的向量屬於漢明距離的相近,而人臉的特徵向量則是實數向量,因此傳統的模糊提取器技術無法直接適配人臉,或是其他生物特徵識別。
為此,鬱昱教授提出了基於格的模糊提取器(Lattice Based Fuzzy Extractor),透過近似二範數來衡量兩個向量是否相近的標準。針對人臉識別應用,鬱昱教授的團隊基於 E8 和 Leech 分別形成了解決方案,實現最高 45 位元的安全性。
舉例來說,45 位元的安全性大致可以做到攻擊者嘗試一次,成功率是 2 的 - 45 次方。假設在 PC 端每計算一次重量級哈西需要 1 秒,那麼在這裡做一個嘗試就是 2 的 45 次方秒,相當於 100 多萬年,因而實際上達到可接受的一個安全性。
以指掌紋入手,構建精準可靠、主動便捷、保護隱私的新一代生物識別
墨奇科技聯合創始人及 CTO 湯林鵬博士以 “精準可靠、主動便捷、保護隱私的新一代生物識別” 為主題,討論了新一代生物識別所應具備的特性,同時分享了墨奇科技在加強生物識別技術隱私保護能力的一系列工作。
湯博士表示,生物識別的應用在 AI 時代呈現大爆發的一個趨勢,同時很好地起到了連線數字世界和物理世界的基石的作用。但這項技術同樣帶來了隱私安全方面的擔憂。因為生物特徵終身不變,與人身是強繫結,一旦洩露會引發極大的安全隱患。相較於密碼可以修改,生物特徵洩露就無法挽回。
湯博士總結了三點面向未來的新一代生物識別技術應當具備的特徵,即:精準可靠、主動便捷以及保護隱私,並分享墨奇以指掌紋和靜脈識別作為主攻方向,圍繞上述三個特徵的一系列工作。
在精準可靠方面,湯博士指出,指掌紋和靜脈作為生物特徵具備多尺度、資訊分佈豐富的特點,且精度很高,同時作為活體這一難以盜取的特性,具備高隱私性。在他看來,新一代生物識別至少需要解決 10 億級別的高精度、高效能的挑戰。
生物識別技術的驗證模式基本分為 1:1 和 1:N 兩種。前者常見於家居場景,如指紋鎖、人臉鎖等,其規模較小,驗證容易。真正困難的是 1:N 的驗證。因為當 N 的規模達到 10 億級別,如支付、智慧城市等場景,生物識別系統的錯比率會直接影響系統的可用性。
而目前主流的基於深度學習影象搜尋的方案存在一些缺陷,如需要海量的資料,對遮擋、光照等複雜環境較為敏感等,且在複雜環境下的精度會出現大幅的下降。墨奇科技構建了一套基於向量和圖的多尺度表示,對影象做了更搜尋友好的特徵表示。透過對影象從整體到區域性進行多尺度的刻畫,擁有的資訊量會比單一尺度的向量獲得若干數量級的提升。
基於向量和純深度學習的方法需要海量資料,而資料往往難以獲得,獲得的過程也可能是對公民隱私的侵犯。墨奇科技因此開發了小樣本自學習框架。在基於多尺度的圖的表示下,單張影象訓練訊號極大的豐富,做到無標註和小樣本學習。基於核心技術突破,墨奇科技是全球率先能夠在 20 億量級的指掌紋識別上達到秒級、高精度、無標註自動化比對的公司。
在主動便捷方面,湯博士表示,針對生物識別的便捷性,傳統指掌紋驗證需要按手機,接觸按指紋採集器等,在疫情的影響下尤為不便。墨奇基於高精度三維結構光和光學上的一系列設計最佳化,實現非接觸的指掌紋採集。使用者可透過伸手或揮手完成採集,避免接觸式採集的感染風險和消毒等不便,也支援利用手機後置攝像頭採集,應用範圍更加廣泛。同時,採集過程需要使用者主動確認、知情,因此更加保護隱私。
談及生物識別系統在保護隱私方面的技術特徵與實現,湯博士表示他與鬱昱教授的觀點相近,墨奇科技希望從數學可證明的形式,對生物特徵進行變化,滿足不可逆、可撤銷、不可關聯等種種特性。由此,系統平臺中僅需要儲存變換後的特徵,不需要儲存原始特徵,實現保護隱私的比對,讓生物識別變得像密碼一樣去使用。
湯博士比喻道:“像是把原始的生物特徵鎖在一個保險箱裡。這個保險箱在設計的時候就有強密碼學的保護,只有用正確的生物特徵才能夠開啟,如果說洩露了,攻擊者也無法盜取原始的生物特徵。”
由於傳統的雜湊加密方法不能適應於生物識別,墨奇的核心思想借鑑了通訊領域的錯誤糾正碼,透過裡德 - 所羅門碼將生物特徵進行編碼。以指紋舉例,構建多尺度特徵點,透過對其進行編碼,因為編碼資料存在冗餘,從而可以容忍一定程度的資訊丟失或者資訊錯位,但依然能夠恢復出正確的引數。
上述方法形成的多項式依然有可能被攻擊。對於如何實現把資訊進行隱藏,墨奇科技的方法是在有效多項式內加入一定量的噪聲,從而保護原有生物特徵。由此,攻擊者看到的只是雜亂無章,有真有假的特徵點,破解工作相當於解一個 NP-Hard 的數學問題 - 多項式還原問題,即便使用量子計算機也十分困難。
總體而言,上述解決方案的核心思想可以總結為:透過多尺度影象表示和密碼學結合來保護生物特徵,從而保護了系統安全和使用者隱私,實現可信的生物識別。
做好人臉識別安全、合規是不可突破的原則底線
中國信通院雲大所石霖主任以 “走進中國信通院“護臉計劃”:打造人臉識別安全合規的產業生態” 為題,分享了中國信通院《可信人臉應用守護計劃》的一系列工作與成果。
石霖主任表示,我們目前處於一個數字經濟的時代,而人臉識別作為人工智慧的典型應用,同時也是技術成熟度最高,應用範圍最廣的技術領域,也是數字經濟的一個典型的代表。我們可以看到人臉識別已率先實現商業化, 並已經形成了相對成熟的產業鏈,賦能了金融、安防等傳統領域以及刷臉認證、移動支付等場景。
據相關資料顯示,人臉識別的產業規模正在持續擴大。中國人臉識別產業規模正在保持 30% 左右的增速持續擴張,預計在 2024 年市場規模將突破百億元人民幣。在此趨勢下,人臉識別的安全問題和合規問題逐漸暴露,成為社會關注的焦點。
對於人臉識別的安全與合規問題,石霖主任表示,在安全層面,人臉識別系統作為資訊系統,必然存在一些安全的漏洞。由於人臉識別會被作為身份核驗等關鍵元件或者功能被整合在資訊系統或者 APP 中,因此也時常被黑灰產關注。比如透過呈現攻擊,有駭客透過公開或洩露的人臉資訊或個人圖片,利用深度偽造等技術來突破人臉識別系統。此外還有還有不法分子透過注入攻擊破壞 APP 的完整性來實現攻擊的目的。
在合規層面,石霖主任表示,人臉資訊屬於敏感的個人資訊。而透過對人臉的分析可以關聯出我們的身份,年齡、喜好等等。因此有商家會進行不法利用,如通對人臉分析顧客特徵,實現商業目的,或是超授權使用人臉資料等。這些都涉及到合規的問題。同時,對於人臉資料的採集,收集儲存,以及合法性必要性是否符合類似最小必要原則等,都是目前我們面臨的合規風險。
總體來看,做好人臉識別的安全、合規是一個非常複雜,且非常系統性的一項工程。國家也出臺瞭如《民法典》《個人資訊保護法》《網路安全法》《資料安全法》等相關法律。由此看來,“做好人臉識別安全、合規是不可突破的原則底線” 。
石霖主任表示,今年 4 月份,中國信通院雲大所正式發起成立了可信人臉應用守護計劃,希望能夠在國家相關法律和政策的指引下,聯合從事人臉識別應用研發的廠商及科研機構,共同探索人臉識別面臨的安全和合規的風險;共同摸索出一套可信應用的正規化,推動產業的健康發展。
同時,石霖主任分享了護臉計劃正在推動的一系列工作:
- 一、 編制了《人臉識別系統通用可信能力要求》。護臉計劃將人臉識別目前面臨的典型攻擊手段和場景進行分級。按照相應的實現難度高低,以及攻擊存在的風險的高低進行五個級別的劃分。
- 二、 正在編制《人臉資訊處理合規操作指南》,全面梳理涉及到人臉資訊相關的法律法規和司法解釋等。
- 三、 開展人臉識別安全評估能力建設工作,依託工信部人工智慧關鍵技術與應用評測實驗室,全面收集和研究了市面上典型和主流的攻擊方法。同時具備復現能力,可以幫助測試人臉識別系統的安全性。
- 四、組建 “可信人臉應用守護計劃” 專家委員會。
此外,石霖主任分享了互聯計劃目前正在推動的第二批人臉識別安全評估工作,具體內容包含:針對技術提供方的安全能力評估服務;針對技術應用方的安全風險評估服務;個人資訊(人臉)保護影響評估;個人資訊(人臉)保護能力評估;以及針對人臉識別系統可信研發管理評估服務。
構建隱私保護強化的生物識別系統,平衡安全性與可用性是主要課題
在趨勢圓桌環節,鬱昱教授、湯林鵬博士、石霖主任以及特邀圓桌嘉賓韓定一博士圍繞 “生物識別隱私保護增強技術實踐趨勢與產業應用所面臨的挑戰” 的主題進行了一系列話題的探討。以下為部分精選 QA,完整內容可透過機動組影片號回顧瞭解。
問:人臉識別技術應用近些年一直在高速增長,是否有什麼特別的契機推動了信通院雲大所選擇在今年啟動 "護臉計劃"?
石霖主任:中國信通院的定位是國家專業智庫和產業創新平臺,也就是說我們既支撐政府,又服務產業。而近年來人工智慧相關的技術落地所造成的信任危機,促使世界各國都採取了一些措施。對應的,信通院也是圍繞人工智慧的問題,提出了可信人工智慧的一套思路,其實屬於 “頂天” 的工作,包括髮布《可信 AI 操作指引》,以及《可信人工智慧白皮書》等,但依然需要去做一些 “立地” 的工作。我們也特別發現在人臉識別這個細分領域在近兩年頻頻爆發一些問題,因此我們在今年年初經過大量的研究分析,針對人臉識別和安全合規的問題開創了護臉計劃,總體來看是水到渠成的,順勢而為的工作。
問:可否請您談談在過去專案中,遇到的在應用生物識別技術時遇到的需要進行隱私保護增強的場景?當時遇到的主要技術挑戰是什麼?
韓定一博士:最重要的場景應該就是一些使用者身份的認證。首先是網際網路企業,他們的使用者規模都很大,有好幾億,因此一個系統通常要做到十億規模的身份認證,這種情況下單一的生物體特徵識別未必能做到那麼高精度。所以可能要想一些其他方法來結合應用。這是第一個技術挑戰
第二點是使用者在認證的時候,如何識別活體,或是如何確保活體資訊整合進來?現在的人臉識別會讓使用者張嘴,轉頭,眨眼等,或是讓手機發出彩色的光,但是體驗未必好。畢竟未必所有場景都能做出這些動作。
第三點,是生物採集的裝置問題。很多系統會用特定型號的感測裝置來做驗證,這個時候對硬體的要求是很高的。而在跨越不同的感測裝置時,系統的驗證能力會被削弱,在一些極端環境下人臉檢測未必能做的非常好。這種情況就會涉及到如何解決驗證的問題。
最後是在城市場景會遇到的特殊情況,我們會遇到一些應用需要跨網路甚至跨系統,相當於不同系統要對不同人的身份做驗證,同時還需要打通流程。那這些系統之間如何進行一種可信的機制的這種傳遞或者是在不同網路之間去傳遞這樣的東西都是我們遇到的一些技術上的挑戰。
問:目前學術界在生物識別技術隱私保護方面的主要研究方向有哪些?可否請您簡要介紹一下這些研究方向以及相應的優缺點?
鬱昱教授:從密碼學的技術來說,除了模糊提取器以外,還有安全多方計算技術。理論上,如果不考慮通訊複雜度,安全多方計算也可以應用在生物識別技術的隱私保護。但它們會有一些其他問題,比如在伺服器端,我們只需透過安全雙方計算,來計算兩個特徵向量的匹配度是否小於某個閾值的方式來進行驗證。但由於伺服器端是以明文儲存,安全多方計算並不要求資料加密,因此這種技術路線雖然解決了安全通訊協議問題,仍然存在儲存的問題沒有解決。如果對口令進行加密,這時候使用安全多方計算又涉及到金鑰管理的問題,因此這種技術路線理論上可行,但不是那麼理想。
另一種解決方案是同態加密。這個時候伺服器端的模板可能加密的。加密的時候,當有一個新的人臉的特徵向量進來以後,我們可以把新的人臉的特徵向量和原來的特徵向量進行比對,在同態的狀態下進行,最後得到一個同態的結果,因此結果也是加密的狀態。理論上這個方案也可以做,但最終結果依然需要解密,也會帶來金鑰管理的一些挑戰。
問:請問團隊在提高生物識別應用隱私保護能力的實踐中,都遇到過哪些工程與技術上的挑戰?例如更大的計算量帶來的系統性能問題? 安全效能的證明問題?
湯林鵬博士:挑戰方面,我們需要做各種密碼學的編碼解碼,比方說我們要引入很多額外的噪聲,它其實對於編碼解碼的效能會有很大的影響。所以我們要做很多算法系統上的加速,包括要額外的設計一些其他的機制來既保證安全,又保證效能。
然後另外整個生物識別系統當中,我們發現的一個核心挑戰就是它的可用性和安全性之間的平衡。我們希望保證使用者的可用性高,但是又希望達到數學上可證明的安全性。在這種情況下,如何達到真正強密碼意義上的安全性,也會給我們提出更多的挑戰。墨奇科技在可用性、安全性、便捷性、系統安全及合規等方面持續發力,希望把生物識別推進到下一個階段。