股票、證券等金融交易越來越多地脫離線下而轉向線上進行,指紋、人臉等生物識別技術普及,而與「錢」相關的場景,如何精確地完成身份識別和認證?如何保證業務合規?具體而言:
- 線上交易時,如何保證正在買賣的交易者是他本人?
- 遠端操控,如何保證交易人員的資金安全?
- 具有「非接觸式」和「遠端識別」優勢的聲紋識別技術,如何在業務場景落地?
上週六,由 Milvus 社群主辦的 Arch Meetup 深圳站圓滿落下帷幕,眾多科技愛好者們齊聚一堂,來自 Zilliz、追一科技、掌數科技、極狐(GitLab)和 ShowMeBug 的講師們與大家分享了開源軟體的最新趨勢與應用場景。掌數科技技術總監高星分享了證券基金行業的需求與痛點,以及「問答機器人」「聲紋識別」等金融證券行業運營利器。開源向量資料庫 Milvus 如何幫助實現上述場景?讓我們一起先睹為快吧!
悄悄告訴你,關注 Zilliz 公眾號並回復「ppt9」可以獲得其他四位講師們的精彩分享哦!
掌數科技 x Milvus 向量資料庫, 在金融 AI 領域會擦出哪些火花?
掌數科技聚焦證券和大資管行業,面向大資料和 AI 基礎技術平臺、智慧化場景應用和資料安全管理領域,是一家管理金融行業資料安全的科技企業。掌數科技與廈門大學成立了"金融科技聯合實驗室",致力於大資料、人工智慧技術在金融科技領域的應用研究。今年,掌數科技還正式成為 WG4 聲紋小組《資訊保安技術聲紋識別資料安全要求》國家標準的五家應用試點單位之一。
在萬物皆可 Embedding 的時代,圖片、文字、影片、語音等非結構化資料可以透過 Embedding 技術提取為特徵向量,然後透過對特徵向量的計算和相似度檢索來幫助落地智慧問答、商品推薦、聲紋識別等場景。開源向量資料庫 Milvus 可以賦能 AI 應用和向量相似度搜索。開源向量資料庫 Milvus 支援使用多種 AI 模型向量化非結構化資料,併為向量資料提供搜尋分析服務。它可處理的業務包括影象處理、機器視覺、自然語言處理、語音識別、推薦系統以及新藥發現。具體實現方式是:
- 透過深度學習模型將非結構化資料轉化為特徵向量,並匯入 Milvus 資料庫;
- 對特徵向量進行儲存並建立索引;
- 接收到使用者的向量搜尋請求後,返回與輸入向量相似的結果。
掌數科技基於多年行業經驗,透過「資料庫+應用」的方式,在「問答機器人」「聲紋識別」等場景中使用 Milvus 向量資料庫實現快速響應,為企業在數字化建設過程中提供高質量、易擴充套件、低成本、易維護的解決方案。
金融證券行業的需求和趨勢
金融是一個財富集中的領域,在掌數科技主攻的證券市場,其規模在 2020 年的總資產達到 8.9 萬億,具有散戶比例高、受多方因素影響波動大、金融產品品類不多等特點,因此,證券行業的客戶運營領域自然產生了如下兩點需求:
(1)如何在使用者規模迅速增長的過程中,高效、可靠、合規地服務投資者客戶?
- 金融證券行業需要提高線上自助化服務水平,把能夠由系統和使用者自主操作來完成的部分儘量交給系統,避免過多依賴人工;同時,把不能完全交給機器執行的業務或操作,儘量採用人機協同的方式,降低人工的工作;
- 金融證券行業需要建立客戶資料中心,為客戶運營、客戶服務提供統一的資料服務平臺;
- 金融證券行業需要藉助大資料和人工智慧手段,增強對客戶身份的核實,對客戶準確意圖的把握,對客戶風險承受能力的識別,規避經營風險和操作風險。
(2)如何在客戶投資理財過程中提升體驗,幫助客戶簡單地、愉悅地實現投資預期?
- 金融證券行業需要把「投資者教育」融於產品的細節當中,在場景中提升投資決策水平;設計更為豐富的組合產品,為投資者提供更多投資選擇,平抑投資風險;以客戶為中心,建立跨渠道的客戶服務,實現不同渠道的無縫對接。
除了上述兩大需求,金融證券行業正在擁抱以下四個趨勢:
- 線上化的趨勢:金融科技發展和運營集中化、自動化、智慧化;
- 散戶機構化趨勢:公募基金、資管使用者規模發展迅速;
- 合規監管難趨勢:目前使用者服務能力與需求不匹配、使用者風險等級識別與匹配;
- 證券機構科技部門自研能力不足:外購產品居多,個性化自研較少。
為了應對上述的需求和趨勢,智慧運營的產品體系需要在多種場景下應對自如,主要包括客戶多渠道服務場景、客戶私域運營場景、內部大運營場景三大場景。在這些場景的核心架構中,會使用到大量的結構化和非結構化資料,以及相應的技術元件,比如 Docker、Kubernetes、CI/CD 流水線等應用技術架構元件。其中,用於分析非結構化資料的關鍵元件就包括了 Milvus 向量資料庫。三大場景的整體架構如下圖所示:
場景一:智慧客服機器人
掌數科技透過引入開源向量資料庫Milvus,構建了一套完善的智慧問答系統,幫助線上客服完成答疑和推薦。
智慧的問答元件可以實現 80% 常見問題的自動回覆,大大減輕人工客服的工作量。此外,該問答系統不僅能完成簡單的問答,還可以做出綜合的觀點推薦。基於使用者曾經發出的大量請求,系統會召回最適合該使用者的答案並推薦給使用者,實現「基金產品卡片知識」推薦、「基金經理卡片知識」推薦、「使用者輸入自動補全」等功能。
同時,基於開源向量資料庫Milvus 構建知識庫搜尋引擎,還可以搭建面向內部人工客服的智慧知識庫,輔助相關人員快速響應客戶提問。
需要注意的是,在金融證券業務中,基礎資料庫與其他行業不同,需要預處理一些行業知識。比如,產品的命名通常有自己的規則,在其他的語料庫中不常出現「天天盈」「豐澤」等基金名,所以需要基於現有的語料庫進行訓練,完成資料預處理。在實現流程中,開源向量資料庫Milvus 的高效能檢索可以實現毫秒級響應,召回數千條資料集,極大降低了開發成本、縮短專案週期,後續系統進一步精排演算法,篩選出 10 條資料作為響應結果。
場景二:聲紋場景
根據行業客戶適當性管理辦法要求,以及反欺詐、反洗錢等合規風控要求,客戶身份的認定與稽核是金融證券行業必須要重點關注的技術領域。過去,多采用賬號密碼來認定客戶身份,但是密碼容易洩漏。故一般提高安全等級,會要求輸入手機動態密碼或者 U 盤等額外裝置規避密碼保護的漏洞,後又擴充套件為基於 Face ID 的人臉識別技術。然而,在部分不適合使用人臉比對的場景中,需要藉助語音識別與聲紋比對技術作為補充。與其他生物特徵相比,獲取聲紋特徵的語音十分方便、自然,使用者接受度高,而且成本較低,通話中無需額外的錄音裝置,聲紋辨認和確認的演算法複雜度低,其動態特徵更在應用安全上獨佔優勢。
在金融行業中,聲紋應用的技術要求是:
首先,精度要高。對符合識別要求的音訊資料集比對識別演算法的精度,尤其是 1:1 的身份確認場景,其精度要求最高達到 99.5% 以上;結合人臉或者其他技術後,系統被攻破的難度將成指數級上升。
其次,效能要好。千萬級的聲紋庫的客戶身份確認過程,需要能夠實現秒級響應,否則使用者體驗會非常糟糕;聲紋資料庫要實現無縫橫向擴充套件,以便應對更大規模的聲紋平臺體量;在對 VIP 客戶或者黑名單客戶的辨認場景,要能夠在數秒到 1 分鐘內快速查詢到相似結果。
最後,成本要低。採集端使用普通電話或者電腦麥克風,伺服器端採用普通 X86 伺服器即可;無需專用伺服器硬體,在推斷識別場景,不需要 GPU 或其他特殊硬體卡的加速,即可實現聲紋庫與聲紋平臺的搭建。
透過引入開源向量資料庫Milvus,掌數科技構建並積累客戶聲紋庫,幫助在客戶在線上開戶、業務開通場景中,提供面向客戶身份資料的向量儲存、檢索比對、黑名單客戶識別服務。聲紋檢索的實現流程如下圖所示,首先輸入目標語音,進行特徵提取和模型訓練,將特徵向量儲存在 Milvus 向量資料庫中,當需要進行特徵比對時,可進行快速提取和比對。1:1 的聲紋比對指的是確認「你是不是你」,用於人員活體認證、人員身份認證和移動客戶端身份認證;1:N 的聲紋辨認用於回答「你是誰」的問題,用於在向量庫裡查詢該目標的身份和查重。Milvus 資料庫的應用,很好地幫助業務達到了金融領域技術指標,做到了高精度效能的最佳化。
在客戶服務場景中,辦理客戶回訪或其他業務受理時,需要檢查證券業務服務流程是否合規,校驗溝通話術。綜合上述多個技術,可以進一步形成智慧語音質檢解決方案,實現流程如下圖:
總結
掌數科技基於開源向量資料庫 Milvus 搭建了智慧客服機器人的問答和推薦系統,以及聲紋場景中的確認和辨認系統,達到了金融行業精度高、效能好、成本低的相關技術要求,我們希望未來 Milvus 向量資料庫支援更加豐富的功能,適應更廣闊的應用場景,在金融行業得到更廣泛應用。
GitHub @Milvus-io|CSDN @Zilliz Planet|Bilibili @Zilliz-Planet
Zilliz 以重新定義資料科學為願景,致力於打造一家全球領先的開源技術創新公司,並透過開源和雲原生解決方案為企業解鎖非結構化資料的隱藏價值。
Zilliz 構建了 Milvus 向量資料庫,以加快下一代資料平臺的發展。Milvus 資料庫是 LF AI & Data 基金會的畢業專案,能夠管理大量非結構化資料集,在新藥發現、推薦系統、聊天機器人等方面具有廣泛的應用。