似乎一夜之間,所有的網際網路公司在對外的宣傳稿中都會提及自己使用機器學習和大資料技術,一時間成為了近幾年來最炙手可熱的名詞,不談機器學習、大資料似乎都不好意思說自己是做高新技術的了。
百度搜索指數:機器學習
百度搜索指數:大資料
上圖來自最近7年來這兩個詞的百度搜索指數,可以看到從2013年開始一直在穩步攀升,在2017年的時候迎來了爆發式的增長,這些都與我們的感知類同。
機器學習與人腦思維的區別
機器學習和大資料應用是相輔相成的,目的是想用機器去模擬人類的思考過程,人類透過自身經歷經過思考可以形成經驗,並用來解決新的問題,而機器學習是需要利用大量的歷史資料去訓練一個模型去解決一個特定的問題:比如識別兩張臉是否一致、該使用者是不是精準客戶等。
雖然這兩個詞這兩年才火起來,但是這些概念早在半個多世紀前就有理論的提出,尤其機器學習的演算法已經在幾十年前就非常成熟了,但是受制於計算效率、儲存等硬體的限制,大資料和機器學習在實際業務上的應用場景十分受限,很難有大規模的場景應用。最近十年來隨著儲存、晶片等層面的突破讓大資料和機器學習的計算應用成本大大降低,這也支撐了基於這兩項技術的應用場景呈現爆發式增長。
除了機器學習之外,我們也發現網際網路信貸成為了這幾年最火的行業方向,網際網路信貸的工作重心在風控。於是天作佳成,正如目前我們看到的,信貸風控成為當前機器學習和大資料技術最適合也是最成熟的應用場景之一:
1.金融業務自身需要大量的資料且也會產生更多的資料,這天然的讓信貸風控成為最適合大資料和機器學習的場景;
2.風控涉及的資料量大、資料面廣、關聯複雜,也急需利用大資料和機器學習技術解決風控過程中效率低、缺乏公平準則、風險難以量化的問題;
所以正是因為這樣的相互依賴,信貸風控成為當前大資料和機器學習技術應用最成熟的領域之一。
信貸風控中的主要問題
信貸風控最關鍵的目標就是從全量申請使用者樣本中找到會逾期的客戶,所以風控的核心目的是評估使用者的還款意願和還款能力。從過去的業務實踐經驗來看,風控當中需要重點關注的問題包括:
非本人申請:申請人利用虛假身份申請信貸,這一問題在信貸業務高速增長的蠻荒階段,銀行或者互金機構缺乏對黑產全面的認知,在部分業務環節被黑產用虛假/殘缺或者非本人身份證欺詐,包括一些知名的持牌消金機構也遇到過大量類似的欺詐案例。
偽造資料:申請人為了更容易獲得貸款或者貸後惡意逾期避免催收,偽造收入證明、聯絡人、工作地址等資料。
中介團伙:中介在網路上大量招徠需要信貸申請的使用者,使用不同的攻略“教”客戶如何有機會以較高機率透過銀行/信貸機構的稽核。
歷史信用記錄:使用者歷史如果存在大量失信行為,或者存在賭/毒等不良社會行為,那麼其逾期失聯的機率也很高。
還款能力不足:申請人負債收入比較高,外部有大量債務且自身收入不穩定,這些都有可能導致使用者願意還款但是卻沒有能力還款。
基於大資料和機器學習技術的風控解決方案
為了解決上述的這些問題,目前業內已經形成了一套基於大資料和機器學習技術的較為完整的解決方案。
- 非本人申請:人臉識別技術
目前人臉識別技術已經應用在生活中的方方面面,如刷臉支付、高鐵進站甚至公安的天網系統;而在金融業務中,信用卡辦理、網貸申請也都普遍使用人臉識別:將申請人照片與在公安系統中身份證存照進行比對,判斷兩張照片的相似度,可有效避免非本人申請的問題。
與人類識別面部類似,當我們人類對一個人比較熟悉的時候,我們很容易根據他的面部特徵與我們在腦海裡過去儲存的特徵進行比對,就能判斷這個人是否是這個人(雖然也會有誤判的時候),同樣的,人臉識別技術的背後也是一套深度學習的演算法,把我們思考的過程轉化為模型演算法,目前市面上有多家提供人臉識別服務的商業化應用公司,不過其演算法的本質基本是類同的,人臉識別的核心思想在於:不同人臉由不同特徵組成。
理解這個思想,首先需要引入的的是“特徵”的概念。先看下面這個例子:
最簡單的人臉特徵
假設這 5 個特徵足夠形容一張人臉,那每張人臉都可表示為這 5 個特徵的組合:
(特徵1,特徵2,特徵3,特徵4,特徵5)
一位雙眼皮,挺鼻樑,藍眼睛,白面板,瓜子臉的小姐姐即可用特徵表示為(見表格加粗項):(1,1,0,1,0)
那麼遍歷上面這張特徵表格一共可以代表32張不同的臉。32 張臉可遠遠不夠覆蓋70 多億的人口。為了讓不同特徵組成的人臉能覆蓋足夠多人臉,我們需要擴充上面那張特徵表。擴張特徵表可以從行、列兩個角度展開。
列的角度很簡單,只需要增加特徵數量:(特徵6.臉型,特徵7.兩眼之間距離,特徵8.嘴唇厚薄…)實際應用中通常應用 128,256,512 或者 1024 個不同特徵。從行的角度擴充也很好理解,比如“特徵3”,除了值 0 代表藍色,值 1 代表灰色,是不是可以增加一個值 2 代表黑色,值 3 代表沒有頭髮呢?此外,除了這些離散的整數,我們也可以取連續的小數,比如特徵 3 的值 0.1,代表“藍中略微帶黑”,值 0.9 代表“灰中帶藍”……
百度開源平臺:面部特徵識別
經過這樣的擴充,特徵空間便會變得無限大。擴充後特徵空間裡的一張臉可能表示為:
一張臉提取出128維特徵變數
用於表示人臉的大量特徵從哪來?這便是深度學習(深度神經網路)發揮作用的地方。它透過在千萬甚至億級別的人臉資料庫上學習訓練後,會自動總結出最適合於計算機理解和區分的人臉特徵。
闡明瞭不同人臉由不同特徵組成後,我們便有了足夠的知識來分析人臉,演算法工程師通常需要一定的視覺化手段才能知道機器到底學習到了哪些利於區分不同人的特徵:同一人的不同照片提取出的特徵,在特徵空間裡距離很近,不同人在特徵空間裡相距較遠。
三張不同角度的撒貝南照片經過神經網路提取出 128 維的特徵後,變成了 3 個在 128 維空間中的點(紅色),劉德華的特徵點為綠色。
不過在實際應用中在光照較差、遮擋、形變(大笑)、側臉等諸多條件下,神經網路很難提取出與“標準臉”相似的特徵。另外,在金融風控領域還需要解決偽造人臉的情況,面對這些問題,通常採取四種應對措施:
1. 工程角度:研發質量模型,對檢測到人臉質量進行評價,質量較差則不識別/檢驗。
2. 應用角度:施加場景限制,比如刷臉解鎖、人臉閘機、會場簽到時,都要求使用者在良好的光照條件下正對攝像頭,以避免採集到質量差的圖片。
3. 演算法角度:提升人臉識別模型效能,在訓練資料裡新增更多複雜場景和質量的照片,以增強模型的抗干擾能力。
4.精準活體識別:透過3D建模軟體可以使用使用者已有的照片模擬一張真實的頭像,以此來騙過人臉識別演算法,所以如何驗證這個頭像是來自一個真實的人同樣也是一個機器學習的過程。
鯤魚科技-靈犀聯合實驗室“模擬人臉攻擊”示例
1.基於知識圖譜技術的複雜網路
在影視節目當中,我們經常看到警察辦案時會把嫌疑人、證人、受害人及他們之間的關聯關係等資訊畫在牆上,用以分析案情,這就是典型的關係圖譜應用。牆上的畫便是圖,圖中有用的資訊便是知識,將其進一步擴充套件到其他事物;人為實體,在圖中我們稱之為點,人之間代表著關聯關係的連線,在圖中我們稱之為邊,就這樣點與邊共同組成了我們的關係圖譜。
構建關係圖譜的底層還是大資料的技術:基於龐大的使用者資料,從不同的資料來源抽取出來存入到圖資料庫裡,所以資料是構建關係圖譜的基礎。一種是以關係型資料庫儲存的結構化資料,例如:IP地址,經緯度,裝置指紋等,另一種是爬蟲採集的非機構化資料,例如行為記錄、網上的瀏覽記錄。實踐應用中我們利用機器學習、自然語言處理技術把這些資料變成結構化的資料也存入到圖譜裡。
從使用者大資料和基於大資料的關係圖譜體系我們可以實現以下目的:
2.1 資料偽造識別
校驗使用者資訊可以用來判斷借款人是否可能存在欺詐風險,使用關係圖譜做交叉校驗,雖然不能保證百分之百的準確性,但是它在人工稽核時便是一個有力的參考依據。欺詐使用者填寫的個人資訊通常都是虛假的。例如:比如借款人張三和借款人李四填寫的是同一個公司電話,但張三填寫的公司和李四填寫的公司完全不一樣,這就成了一個風險點。我們將關係圖譜資料視覺化,可以很直觀的發現兩者的矛盾,我們便可以判斷他們二人至少有一人存在欺詐風險。
2.2 團伙欺詐分析
在信貸場景中,團伙欺詐造成的損失更加嚴重,不過從繁複的資料中發現團伙的難度也很大。基於知識圖譜我們通常直觀分析多層級的資料,一度關聯、二度關聯、三度關聯,甚至是更多維度關聯。團伙雖然使用虛假資訊進行授信、支用,但通常都有共有的資訊,例如同一個WIFI,同一片區域。LOUVAIN、LPA、SLPA等社群發現演算法、標籤傳播演算法可以有效快速的發現團伙。
2.3 失聯客戶管理
對於貸後管理來說,使用者本人及緊急聯絡人失聯是催收失敗最大的原因,這時可以利用關係圖譜去發現失聯使用者的潛在聯絡人,提高催收成功率。例如張三是失聯使用者,李四和趙六是張三的聯絡人也都失聯了,這時我們可以試圖透過李四的聯絡人王五,或者與張三使用相同裝置的使用者老王來達到失聯客戶管理的目的。
3.徵信資料與信用評分卡
3.1徵信與大資料
與國外相比,中國最大的差異在於徵信體系的不完善。我們的人行徵信系統覆蓋了8億人,但是可能只有4億左右是有信貸記錄的,剩下的無任何信貸記錄的,我們稱之為白戶。所以國內銀行對於大部分非中高階使用者實際上是不願意也沒有能力提供金融服務的。沒有徵信資料,那套國外搬過來的基於徵信資料的方式方法就不管用了。
不過,我們很快發現,利用網際網路技術可以解決徵信資料缺失的白戶問題,而這些看似與信貸記錄不相關的資料在一定程度上卻能夠評估是否能夠給該使用者借款:
(1)All data is credit data:網際網路可以提供每個信貸申請使用者龐大的、碎片化的、種類繁多的資訊。這裡麵包括使用者提交的電子化資訊(如身份證、營業執照、房產證、學歷證、工資單、社保,銀行流水等),第三方權威機構的查詢資訊(如公民身份證查詢中心、教育部學歷中心、法院訴訟資訊查詢中心等可查詢資訊),還包括了海量的網際網路碎片資料,如使用者的電商交易資訊、微博等社交網路資料,百度搜索引擎資料等。
(2)網際網路的高效性和便捷性使我們能以較低的成本、較短的時間,積累大量的使用者資料,為分析建模提供足夠的樣本量。
在信貸的業務實踐中,常用的行業大資料包括:
- 央行徵信報告:一般持牌金融機構有央行徵信介入許可權,包括個人的執業資格記錄、行政獎勵和處罰記錄、法院訴訟和強制執行記錄、欠稅記錄等。
- 司法資訊:最高法以及省市各級法院的最新公佈名單,包括執行法院、立案時間、執行案號、執行標的、案件狀態、執行依據、執行機構、生效法律文書確定的義務、被執行人的履行情況、失信被執行人的行為等資訊。
- 公安資訊:覆蓋公安系統涉案、在逃和有案底人員資訊,包括案發時間、案件詳情如詐騙案/生產、銷售假藥案等資訊。
- 信用卡資訊:銀行儲蓄卡/信用卡支出、收入、逾期等資訊。
- 航旅資訊:包含過去一年中,每個季度的飛行城市、飛行次數、座位層次等資料。
- 社交資訊:包含社交賬號匹配型別、社交賬號性別、社交賬號粉絲數等。
- 運營商資訊:核查運營商賬戶在網時長、在網狀態、消費檔次、通話習慣等資訊。
- 網貸黑名單:根據個人姓名和身份證號碼驗證是否有網貸逾期、黑名單資訊。
- 駕駛證狀態,租車黑名單,電商消費記錄等也是可以考量的因素
正是因為大資料技術的發展才形成了帶著強烈中國特色的官方+民間結合的徵信體系,支撐網際網路信貸脫離蠻荒可以實現高速發展,信貸從業者可以在合規的前提下獲取對提升效率有用的使用者資訊完善風控策略。
3.2 機器學習與評分卡
評分卡我們應該是最為熟悉的,芝麻信用分就是一個典型的信用評分,支付寶官方利用自身積累及外部徵信渠道獲取的各種資料從五個維度對一個使用者進行評分,而這個評分對於每個使用者來說是透明的,這也非常好幫助使用者理解和改善自身的信用狀況。
從和信貸業內的小夥伴溝通來看,芝麻的信用評分還是比較有區分度的,這與阿里的大資料積累息息相關,阿里體系內積累了大量使用者特有資料可以對使用者形象進行更好的刻畫。
這套評分卡的背後其實是一套依賴在大資料基礎上的機器學習演算法,因此在本身擁有大量資料的基礎上如何挖掘出一套有效的客戶評分這就是機器學習需要做的事情。
機器學習中目前應用最廣泛的就是有監督學習:這類模型最複雜的地方在於模型的訓練過程,演算法人員根據這些歷史使用者的表現打上標籤(逾期/不逾期),基於這些使用者大量資料,使用不同的演算法(一般來說都會使用邏輯迴歸演算法)來對這些使用者進行評分,得到一個在各維度評價指標來看都能過關的模型,並用這個模型來預測未來的資料表現。
目前銀行信用卡體系、網貸體系基本都是使用類似的方法構建評分卡,當然不同的場景、不同的行業所用的評分卡也不盡相同。基於這套評分卡我們基本上可以在使用者申請環節實現量化風險的目的。基於大資料的機器學習並不是完全改變傳統風控,實際是豐富傳統風控的資料緯度和量化風險的方式。
結語
本文簡單介紹了大資料和機器學習在信貸風控領域的應用場景。機器學習聽起來很高大上,在實際工作中也經常會遇到一味炒作概念的人,過分誇大機器學習所能起到的作用,或者盲目的追求高深複雜的演算法。不過無論是機器學習還是大資料其本質還是為了服務業務,提高業務的效率降低成本是其最根本的目的。
隨著信貸行業的不斷髮展,機器學習和大資料技術的越來越成熟,二者結合的應用場景相信也會愈加豐富,相信在這塊未來會有更多新穎的應用場景。