終於有人把資料探勘講明白了

導讀：資料探勘是一種發現知識的手段。資料探勘要求資料分析師透過合理的方法，從資料中獲取與挖掘專案相關的知識。

作者：趙仁乾田建中葉本華常國珍

來源：華章科技

資料探勘是一個多學科交叉的產物，涉及統計學、資料庫、機器學習、人工智慧及模式識別等多種學科，如圖1-4所示。

▲圖1-4 資料探勘

01 資料探勘方法分類介紹

資料探勘方法按照來源進行分類顯得過於龐雜，而且不便於理解和記憶。按照其目的，將資料探勘方法分為預測性和描述性兩大類，如下所示。

目的：預測性
定義：有監督學習，分類模型，用一個或多個自變數預測因變數的值　舉例：客戶是否會違約是一個因變數，可以根據客戶的性別、年齡、收入、職位、經濟狀況、歷史信用狀況等因素進行預測
主要演算法：決策樹、線性迴歸、邏輯迴歸、支援向量機、神經網路、判別分析等
目的：描述性
定義：無監督學習，分析具有多個屬性的資料集，找出潛在的模式，沒有因變數
舉例：觀察個體之間的相似程度，如根據年齡、性別、收入等因素進行客戶細分。根據客戶對多個產品的購買情況發現產品之間的相關性
主要演算法：聚類、關聯分析、因子分析、主成分分析、社交網路分析等

1. 預測性——有監督學習

預測性分析指的是用一個或多個自變數預測因變數的值，以歷史資料為訓練集，從中學習並建立模型，然後將此模型運用到當前資料上，推測結果。以客戶違約作為預測性分析的研究場景，客戶是否會違約是一個因變數，我們可以根據客戶的性別、年齡、收入、職位、經濟狀況、歷史信用狀況等進行預測。

根據SAS工程師總結的商業案例，分類模型可分為三大類。

決策類，如銀行卡欺詐檢測、人體生物特徵識別。
等級評定類，如客戶信用評分。
估計類，如違約損失準備金估計、收入預測等。

有些資料探勘演算法在某類應用上表現得更好，如最近鄰域法、支援向量機在決策類應用上表現良好，但是在解決排序類和估計類問題時表現一般。而有些資料探勘演算法的表現比較穩定，如決策樹和邏輯迴歸對三類問題都適用，但是在決策類問題上沒有在後兩類問題上表現好。

2. 描述性——無監督學習

描述性分析指的是分析具有多個屬性的資料集，找出潛在的模式並進行分類。描述性分析是一種無監督的學習過程。區別於有監督的學習，無監督學習演算法沒有參照指標，需要結合業務經驗來判斷資料分類是否正確。無監督學習比較耗時，而且對建模人員的業務素質要求較高。

描述性分析主要應用於以下兩種場景：第一種是觀察個體之間的相似程度，如根據年齡、性別、收入等進行客戶細分；第二種是根據客戶購買的多個產品發現產品之間的相關性，主要演算法包括樣本聚類、關聯規則等。

02 資料探勘方法論

下面講解最為常用的CRISP-DM方法論和SEMMA方法論。

1. CRISP-DM方法論

CRISP-DM方法論由NCR、Clementine、OHRA和Daimler-Benz的資料探勘專案總結而來，並被SPSS公司大力推廣。CRISP-DM方法論將資料探勘專案的生命週期分為6個階段，分別是商業理解、資料理解、資料準備、建模、評估和準備工作，如圖1-16所示。

▲圖1-16 CRISP-DM方法論

在實際專案進行過程中，由於使用者的目標背景和興趣不同，有可能打亂各階段順承的關係。

圖1-16呈現了CRISP-DM方法執行流程的6個階段。各個階段的順序不是保持不變的，有時需要在某個階段向前或向後移動，這取決於每個階段的結果和下一個階段的具體任務。箭頭指出了各個階段之間的關聯。

在圖1-16中，最外圈的迴圈表示資料探勘本身的迴圈特徵。資料探勘是一項持續的工作。在上一個流程和解決方案中獲得的經驗與教訓，可以給下一個專案提供指導。下面簡要介紹每個階段的特點。

1）商業理解

該階段的特點是從商業角度理解專案的目標和要求，透過理論分析找出資料探勘可操作問題，制訂實現目標的初步計劃。

2）資料理解

該階段開始於原始資料的收集，然後是熟悉資料、標明資料質量問題、探索對資料的初步理解、發掘有趣的子集，以形成對探索關係的假設。

3）資料準備

該階段包括所有從原始的、未加工的資料構造資料探勘所需資訊的活動。資料準備任務可能被實施多次，而且沒有任何規定的順序。這些任務的主要目的是從源系統根據維度分析的要求，獲取所需要的資訊，同時對資料進行轉換和清洗。

4）建模

該階段主要是選擇和應用各種建模技術，同時對引數進行校準，以達到最優值。通常，同一類資料探勘問題會有多種建模技術。一些技術對資料格式有特殊的要求，因此常常需要返回到資料準備階段。

5）評估

在模型最後釋出前，根據商業目標評估模型和檢查模型建立的各個步驟。此階段的關鍵目的是，確認重要的商業問題都得到充分考慮。

6）準備工作

模型完成後，由模型使用者（客戶）根據當時的背景和目標完成情況，決定如何在現場使用模型。

2. SEMMA方法論

除了CRISP-DM方法論，SAS公司還提出了SEMMA方法論。其與CRISP-DM方法論內容十分相似，流程為定義業務問題、環境評估、資料準備、迴圈往復的挖掘過程、上線釋出、檢視。其中迴圈往復的挖掘過程包含探索、修改、建模、評估和抽樣5個步驟，如圖1-17所示。

▲圖1-17 SEMMA方法論

1）抽樣

該步驟涉及資料採集、資料合併與抽樣操作，目的是構造分析時用到的資料。分析人員將根據維度分析獲得的結果作為分析的依據，將散落在公司內部與外部的資料進行整合。

2）探索

這個步驟有兩個任務，第一個是對資料質量的探索。

變數質量方面涉及錯誤值（年齡=-30）、不恰當（客戶的某些業務指標為缺失值，實際上是沒有這個業務，值應該為“0”）、缺失值（沒有客戶的收入資訊）、不一致（收入單位為人民幣，而支出單位為美元）、不平穩（某些資料的均值變化過於劇烈）、重複（相同的交易被記錄兩次）和不及時（銀行客戶的財務資料更新滯後）等。

探索步驟主要解決錯誤的變數是否可以修改、是否可以使用的問題。比如，缺失值很多，平穩性、及時性很差的變數不能用於後續的資料分析，而缺失值較少的變數需要進行缺失值填補。

第二個是對變數分佈形態的探索。

對變數分佈形態的探索主要是對變數偏態和極端值進行探索。由於後續的統計分析大多是使用引數統計方法，這要求連續變數最好是對稱分佈的，這就需要我們瞭解每個連續變數的分佈情況，並制定好變數修改的方案。

3）修改

根據變數探索的結論，對資料質量問題和分佈問題涉及的變數分別做修改。資料質量問題涉及的修改包括錯誤編碼改正、缺失值填補、單位統一等操作。變數分佈問題涉及的修改包括函式轉換和標準化，具體的修改方法需要與後續的統計建模方法相結合。

4）建模

根據分析的目的選取合適的模型，這部分內容在1.3節已經做了詳細的闡述，這裡不再贅述。

5）評估

這裡指模型的樣本內驗證，即使用歷史資料對模型表現的優劣進行評估。比如，對有監督學習使用ROC曲線和提升度等技術指標評估模型的預測能力。

03 資料探勘建模框架的3個原則

筆者提出了資料探勘建模框架的3個原則，即以成本-收益分析為單一分析框架、以分析主體和客體為視角構建全模型生命週期工作模板，將紛繁多樣的資料探勘應用主題歸納為3大分析正規化和9大工作模板，如圖1-18所示。

▲圖1-18 3大分析正規化和9大工作模板

1. 以成本-收益分析為單一分析框架

世上萬事萬物都具有矛盾的兩面性，金融資料探勘建模力圖透過資料反映行為背後的規律，緊抓主要矛盾就是找尋規律的捷徑。大家都知道，挖掘有效的入模特徵是資料建模的難點。一旦我們瞭解了分析課題的主要矛盾，這個難點就迎刃而解了。下面講解如何使用這個框架進行分析。

首先舉3個例子。

信用評分模型中，是否逾期是被預測變數，而解釋變數中經常出現的收入穩定性、職業穩定性、家庭穩定性、個人社會資本都是在度量客戶違約成本。信用歷史既是被解釋變數的滯後項，也能反映違約成本。收益會用貸存比、貸收比、首付佔比等指標來衡量。
申請欺詐模型的標籤往往是客觀存在的。入模特徵以反映異常為主，比如異常高的收入、異常高的學歷、異常密集的關係網路等。這背後隱藏著統一的成本-收益分析框架。之所以會顯示異常，是因為造假是有成本的，信用卡申請欺詐者知道收入證明造假可以獲得更高的信用額度，但是由於其居住地、職業和學歷沒有造假，因此按照這三個維度對其收入進行標準化之後很容易發現其收入異常。這可以說是公開的秘密，因為信用卡發放公司會根據造假成本對非可靠申請者進行授信，使得欺詐者無利可圖。
運營最佳化模型比如資產組合的持倉問題，其收益是資產的收益率，而成本是該資產市場價格的波動率。建模人員需要選擇收益-成本最優的組合。

2. 以分析主體和客體為視角

在資料探勘建模中，定義標籤是主體視角。比如營銷預測模型中客戶是否響應，是建模人員自己定的規則，這個規則有可能是收到營銷簡訊後三天內註冊賬號併產生訂單。

在構建入模的特徵集時需要採用客體視角，比如手機銀行的營銷響應模型中，入模的特徵應該反映客體的成本-收益的變數，比如年齡反映的是使用手機銀行和去實體渠道的成本。

當建模人員意識到標籤是自己主觀臆斷的時候，便會對該標籤的選擇更用心；當意識到入模的特徵來自客體時，才會從客體的視角出發更高效地構建特徵集。

3. 構建全模型生命週期工作模板

我們在CRIP-DM和SEMMA的基礎上提出“高質量資料探勘模型開發七步法”，如圖1-19所示。

前三步是蓄勢階段，更多的是從業務人員、資料中吸收經驗並形成感知。製作特徵、變數處理和建立模型階段是豐富特徵、尋找有效模型的階段，需要透過各種手段探查到最有效的特徵和精度最高的模型。最後是模型輸出階段，選出的模型不但精度高，還要穩定性強。

▲圖1-19 業務人員的業務表述

關於作者：趙仁乾，現就職於某知名500強外資企業的創新實驗室，從事資料治理、資料平臺開發、AI應用等工作，研究方向包括數字化運營、知識圖譜等。

田建中，現就職於某大型商業銀行大資料管理部，對資料探勘在營銷中的應用有深入研究。

葉本華，現某諮詢公司大資料總監，主要從事企業級資料治理、資料倉庫（大資料平臺）建設、資料中臺以及資料智慧應用場景和模型設計相關工作。

常國珍，曾任畢馬威諮詢大資料總監，擁有近20年資料探勘、精益資料治理、數字化運營諮詢經驗，是金融信用風險、反欺詐和反洗錢演算法領域的專家。

本文摘編自《金融商業演算法建模：基於Python和SAS》，經出版方授權釋出。（ISBN：9787111692775）

《金融商業演算法建模：基於Python和SAS》