sponsored links

終於有人把資料探勘講明白了

導讀:資料探勘是一種發現知識的手段。資料探勘要求資料分析師透過合理的方法,從資料中獲取與挖掘專案相關的知識。

作者:趙仁乾 田建中 葉本華 常國珍

來源:華章科技

資料探勘是一個多學科交叉的產物,涉及統計學、資料庫、機器學習、人工智慧及模式識別等多種學科,如圖1-4所示。

終於有人把資料探勘講明白了


▲圖1-4 資料探勘

01 資料探勘方法分類介紹

資料探勘方法按照來源進行分類顯得過於龐雜,而且不便於理解和記憶。按照其目的,將資料探勘方法分為預測性和描述性兩大類,如下所示。

  • 目的:預測性
  • 定義:有監督學習,分類模型,用一個或多個自變數預測因變數的值  舉例:客戶是否會違約是一個因變數,可以根據客戶的性別、年齡、收入、職位、經濟狀況、歷史信用狀況等因素進行預測
  • 主要演算法:決策樹、線性迴歸、邏輯迴歸、支援向量機、神經網路、判別分析等
  • 目的:描述性
  • 定義:無監督學習,分析具有多個屬性的資料集,找出潛在的模式,沒有因變數
  • 舉例:觀察個體之間的相似程度,如根據年齡、性別、收入等因素進行客戶細分。根據客戶對多個產品的購買情況發現產品之間的相關性
  • 主要演算法:聚類、關聯分析、因子分析、主成分分析、社交網路分析等

1. 預測性——有監督學習

預測性分析指的是用一個或多個自變數預測因變數的值,以歷史資料為訓練集,從中學習並建立模型,然後將此模型運用到當前資料上,推測結果。以客戶違約作為預測性分析的研究場景,客戶是否會違約是一個因變數,我們可以根據客戶的性別、年齡、收入、職位、經濟狀況、歷史信用狀況等進行預測。

根據SAS工程師總結的商業案例,分類模型可分為三大類。

  • 決策類,如銀行卡欺詐檢測、人體生物特徵識別。
  • 等級評定類,如客戶信用評分。
  • 估計類,如違約損失準備金估計、收入預測等。

有些資料探勘演算法在某類應用上表現得更好,如最近鄰域法、支援向量機在決策類應用上表現良好,但是在解決排序類和估計類問題時表現一般。而有些資料探勘演算法的表現比較穩定,如決策樹和邏輯迴歸對三類問題都適用,但是在決策類問題上沒有在後兩類問題上表現好。

2. 描述性——無監督學習

描述性分析指的是分析具有多個屬性的資料集,找出潛在的模式並進行分類。描述性分析是一種無監督的學習過程。區別於有監督的學習,無監督學習演算法沒有參照指標,需要結合業務經驗來判斷資料分類是否正確。無監督學習比較耗時,而且對建模人員的業務素質要求較高。

描述性分析主要應用於以下兩種場景:第一種是觀察個體之間的相似程度,如根據年齡、性別、收入等進行客戶細分;第二種是根據客戶購買的多個產品發現產品之間的相關性,主要演算法包括樣本聚類、關聯規則等。

02 資料探勘方法論

下面講解最為常用的CRISP-DM方法論和SEMMA方法論。

1. CRISP-DM方法論

CRISP-DM方法論由NCR、Clementine、OHRA和Daimler-Benz的資料探勘專案總結而來,並被SPSS公司大力推廣。CRISP-DM方法論將資料探勘專案的生命週期分為6個階段,分別是商業理解、資料理解、資料準備、建模、評估和準備工作,如圖1-16所示。

終於有人把資料探勘講明白了


▲圖1-16 CRISP-DM方法論

在實際專案進行過程中,由於使用者的目標背景和興趣不同,有可能打亂各階段順承的關係。

圖1-16呈現了CRISP-DM方法執行流程的6個階段。各個階段的順序不是保持不變的,有時需要在某個階段向前或向後移動,這取決於每個階段的結果和下一個階段的具體任務。箭頭指出了各個階段之間的關聯。

在圖1-16中,最外圈的迴圈表示資料探勘本身的迴圈特徵。資料探勘是一項持續的工作。在上一個流程和解決方案中獲得的經驗與教訓,可以給下一個專案提供指導。下面簡要介紹每個階段的特點。

1)商業理解

該階段的特點是從商業角度理解專案的目標和要求,透過理論分析找出資料探勘可操作問題,制訂實現目標的初步計劃。

2)資料理解

該階段開始於原始資料的收集,然後是熟悉資料、標明資料質量問題、探索對資料的初步理解、發掘有趣的子集,以形成對探索關係的假設。

3)資料準備

該階段包括所有從原始的、未加工的資料構造資料探勘所需資訊的活動。資料準備任務可能被實施多次,而且沒有任何規定的順序。這些任務的主要目的是從源系統根據維度分析的要求,獲取所需要的資訊,同時對資料進行轉換和清洗。

4)建模

該階段主要是選擇和應用各種建模技術,同時對引數進行校準,以達到最優值。通常,同一類資料探勘問題會有多種建模技術。一些技術對資料格式有特殊的要求,因此常常需要返回到資料準備階段。

5)評估

在模型最後釋出前,根據商業目標評估模型和檢查模型建立的各個步驟。此階段的關鍵目的是,確認重要的商業問題都得到充分考慮。

6)準備工作

模型完成後,由模型使用者(客戶)根據當時的背景和目標完成情況,決定如何在現場使用模型。

2. SEMMA方法論

除了CRISP-DM方法論,SAS公司還提出了SEMMA方法論。其與CRISP-DM方法論內容十分相似,流程為定義業務問題、環境評估、資料準備、迴圈往復的挖掘過程、上線釋出、檢視。其中迴圈往復的挖掘過程包含探索、修改、建模、評估和抽樣5個步驟,如圖1-17所示。

終於有人把資料探勘講明白了


▲圖1-17 SEMMA方法論

1)抽樣

該步驟涉及資料採集、資料合併與抽樣操作,目的是構造分析時用到的資料。分析人員將根據維度分析獲得的結果作為分析的依據,將散落在公司內部與外部的資料進行整合。

2)探索

這個步驟有兩個任務,第一個是對資料質量的探索。

變數質量方面涉及錯誤值(年齡=-30)、不恰當(客戶的某些業務指標為缺失值,實際上是沒有這個業務,值應該為“0”)、缺失值(沒有客戶的收入資訊)、不一致(收入單位為人民幣,而支出單位為美元)、不平穩(某些資料的均值變化過於劇烈)、重複(相同的交易被記錄兩次)和不及時(銀行客戶的財務資料更新滯後)等。

探索步驟主要解決錯誤的變數是否可以修改、是否可以使用的問題。比如,缺失值很多,平穩性、及時性很差的變數不能用於後續的資料分析,而缺失值較少的變數需要進行缺失值填補。

第二個是對變數分佈形態的探索。

對變數分佈形態的探索主要是對變數偏態和極端值進行探索。由於後續的統計分析大多是使用引數統計方法,這要求連續變數最好是對稱分佈的,這就需要我們瞭解每個連續變數的分佈情況,並制定好變數修改的方案。

3)修改

根據變數探索的結論,對資料質量問題和分佈問題涉及的變數分別做修改。資料質量問題涉及的修改包括錯誤編碼改正、缺失值填補、單位統一等操作。變數分佈問題涉及的修改包括函式轉換和標準化,具體的修改方法需要與後續的統計建模方法相結合。

4)建模

根據分析的目的選取合適的模型,這部分內容在1.3節已經做了詳細的闡述,這裡不再贅述。

5)評估

這裡指模型的樣本內驗證,即使用歷史資料對模型表現的優劣進行評估。比如,對有監督學習使用ROC曲線和提升度等技術指標評估模型的預測能力。

03 資料探勘建模框架的3個原則

筆者提出了資料探勘建模框架的3個原則,即以成本-收益分析為單一分析框架、以分析主體和客體為視角構建全模型生命週期工作模板,將紛繁多樣的資料探勘應用主題歸納為3大分析正規化和9大工作模板,如圖1-18所示。

終於有人把資料探勘講明白了


▲圖1-18 3大分析正規化和9大工作模板

1. 以成本-收益分析為單一分析框架

世上萬事萬物都具有矛盾的兩面性,金融資料探勘建模力圖透過資料反映行為背後的規律,緊抓主要矛盾就是找尋規律的捷徑。大家都知道,挖掘有效的入模特徵是資料建模的難點。一旦我們瞭解了分析課題的主要矛盾,這個難點就迎刃而解了。下面講解如何使用這個框架進行分析。

首先舉3個例子。

  1. 信用評分模型中,是否逾期是被預測變數,而解釋變數中經常出現的收入穩定性、職業穩定性、家庭穩定性、個人社會資本都是在度量客戶違約成本。信用歷史既是被解釋變數的滯後項,也能反映違約成本。收益會用貸存比、貸收比、首付佔比等指標來衡量。
  2. 申請欺詐模型的標籤往往是客觀存在的。入模特徵以反映異常為主,比如異常高的收入、異常高的學歷、異常密集的關係網路等。這背後隱藏著統一的成本-收益分析框架。之所以會顯示異常,是因為造假是有成本的,信用卡申請欺詐者知道收入證明造假可以獲得更高的信用額度,但是由於其居住地、職業和學歷沒有造假,因此按照這三個維度對其收入進行標準化之後很容易發現其收入異常。這可以說是公開的秘密,因為信用卡發放公司會根據造假成本對非可靠申請者進行授信,使得欺詐者無利可圖。
  3. 運營最佳化模型比如資產組合的持倉問題,其收益是資產的收益率,而成本是該資產市場價格的波動率。建模人員需要選擇收益-成本最優的組合。

2. 以分析主體和客體為視角

在資料探勘建模中,定義標籤是主體視角。比如營銷預測模型中客戶是否響應,是建模人員自己定的規則,這個規則有可能是收到營銷簡訊後三天內註冊賬號併產生訂單。

在構建入模的特徵集時需要採用客體視角,比如手機銀行的營銷響應模型中,入模的特徵應該反映客體的成本-收益的變數,比如年齡反映的是使用手機銀行和去實體渠道的成本。

當建模人員意識到標籤是自己主觀臆斷的時候,便會對該標籤的選擇更用心;當意識到入模的特徵來自客體時,才會從客體的視角出發更高效地構建特徵集。

3. 構建全模型生命週期工作模板

我們在CRIP-DM和SEMMA的基礎上提出“高質量資料探勘模型開發七步法”,如圖1-19所示。

前三步是蓄勢階段,更多的是從業務人員、資料中吸收經驗並形成感知。製作特徵、變數處理和建立模型階段是豐富特徵、尋找有效模型的階段,需要透過各種手段探查到最有效的特徵和精度最高的模型。最後是模型輸出階段,選出的模型不但精度高,還要穩定性強。

終於有人把資料探勘講明白了


▲圖1-19 業務人員的業務表述

關於作者:趙仁乾,現就職於某知名500強外資企業的創新實驗室,從事資料治理、資料平臺開發、AI應用等工作,研究方向包括數字化運營、知識圖譜等。

田建中,現就職於某大型商業銀行大資料管理部,對資料探勘在營銷中的應用有深入研究。

葉本華,現某諮詢公司大資料總監,主要從事企業級資料治理、資料倉庫(大資料平臺)建設、資料中臺以及資料智慧應用場景和模型設計相關工作。

常國珍,曾任畢馬威諮詢大資料總監,擁有近20年資料探勘、精益資料治理、數字化運營諮詢經驗,是金融信用風險、反欺詐和反洗錢演算法領域的專家。

本文摘編自《金融商業演算法建模:基於Python和SAS》,經出版方授權釋出。(ISBN:9787111692775)

終於有人把資料探勘講明白了


《金融商業演算法建模:基於Python和SAS》

推薦語:4位資深金融資料專家,面向金融業務經營全流程,針對3大主題9大模板,涵蓋金融資料建模全閉環。

分類: 軍事
時間: 2021-11-21

相關文章

丁盛以少將身份擔任廣州軍區司令員,副手中有三位中將,怎麼回事

丁盛以少將身份擔任廣州軍區司令員,副手中有三位中將,怎麼回事
軍區司令員對調,是毛主席深思熟慮後的曠世大手筆.它不僅是一紙軍事調令,背後更有著卓越的政治智慧和未雨綢繆的思考.1973年,丁盛少將奉命北調到南京,同許世友上將互換了一下位置.丁盛在廣州軍區擔任司令員 ...

尼赫魯向美求援後,調3萬兵力再襲邊境,丁盛少將下令:關門打狗

尼赫魯向美求援後,調3萬兵力再襲邊境,丁盛少將下令:關門打狗
1962年10月24日,中國政府向印度政府發表宣告,提出和平解決中印邊界問題的方案.在此之前,中方已經在上一階段取得了壓倒性的勝利.我們之所以提出和平解決這一方案,完全是站在維護兩國和平的角度去考量的 ...

丁盛擔任南京軍區司令,副司令中有5位軍銜比他高,資格比他老

丁盛擔任南京軍區司令,副司令中有5位軍銜比他高,資格比他老
一般來說,級別和職務是對應的,軍銜高的要領導軍銜低的,反過來就很不方便.可是在丁盛擔任南京軍區司令員期間,十幾位副司令員中,就有5位比他的軍銜還高.丁盛是開國少將,這5位都是開國中將. 毛主席一聲令下 ...

1990年,張萬年卸任廣州軍區司令員,誰來接替?63歲老將扛起重任

1990年,張萬年卸任廣州軍區司令員,誰來接替?63歲老將扛起重任
1990年,張萬年卸任廣州軍區司令員,誰來接替?63歲老將扛起重任 1990年4月,張萬年卸任廣州軍區司令員,跨軍區平調至濟南軍區,接替出任總後勤部副部長(保留正大軍區級待遇)的原濟南軍區司令員李九龍 ...

廣州軍區司令員吳克華看見幾名軍人驚慌失措跑過來,上前攔住詢問

廣州軍區司令員吳克華看見幾名軍人驚慌失措跑過來,上前攔住詢問
吳克華中將是四野的一員名將,他在東北野戰軍發動的遼瀋戰役期間,為保證兄弟部隊順利攻下錦州,他率領四縱隊在塔山.虹螺山一線阻擊敵人東援兵團,急戰六晝夜,連續擊退國民黨軍11個師的進攻,為攻克錦州起了關鍵 ...

兩位軍區副司令都是中將,司令員卻無軍銜,被調出軍隊,活102歲

兩位軍區副司令都是中將,司令員卻無軍銜,被調出軍隊,活102歲
解放戰爭初期,華東軍區下屬的有一個軍區,這個軍區的名氣無法跟許世友領導的膠東軍區相媲美,卻是人才濟濟,將星雲集,從副司令員,到參謀長,再到政治部主任,清一色的都是開國中將,遺憾的是,司令員卻沒有軍銜. ...

志願軍總共27個軍,哪7位軍長,後來都當了大軍區司令?

志願軍總共27個軍,哪7位軍長,後來都當了大軍區司令?
志願軍是一支英雄而又光榮的鐵血部隊,是那個時代最可愛的人.志願軍司令部之下,設有兵團,兵團之下就是軍.從1950年10月開始,到抗美援朝戰爭結束,志願軍前後有27個軍入朝參戰. 這27位軍長都是非常了 ...

他是襄樊戰役總指揮,雖是上將,名氣卻比老部下王近山小很多

他是襄樊戰役總指揮,雖是上將,名氣卻比老部下王近山小很多
襄樊戰役是解放戰爭時期,二野打得著名戰役.很多人記住6縱,記住王近山.李德生.尤太忠.肖永銀等戰將. 很少人知道,這次戰役真正的總指揮是誰. 他不是王近山,而是王宏坤. 提起王宏坤,很多人對他的瞭解比 ...

傳奇特工:組織讓他潛伏,一路幹到軍統少將,戴笠至死不知其身份

傳奇特工:組織讓他潛伏,一路幹到軍統少將,戴笠至死不知其身份
我黨有這樣一位紅色特工,他忍辱負重,悄然而起,斃敵無形.他的特工生涯堪稱傳奇,多年以後,人們稱他為:竊聽器. 劉少奇稱讚他一個人可以頂三個師.國民黨軍統特務頭子戴笠到死都不知道他的真正身份.黨組織讓他 ...

開國將帥中元帥 大將 上將 中將 少將軍銜獲得者籍貫,哪個省份居多?

開國將帥中元帥 大將 上將 中將 少將軍銜獲得者籍貫,哪個省份居多?
自1955年我軍首次實行軍銜制,到1965年取消,共誕生了1614名開國將帥,其中元帥10名,大將10名,上將57名,中將177名,少將1360名. 那麼元帥.大將.上將.中將.少將各級軍銜獲得者原籍 ...

1987年,誰接替尤太忠當廣州軍區司令?鄧小平稱他是真正帶兵的人

1987年,誰接替尤太忠當廣州軍區司令?鄧小平稱他是真正帶兵的人
廣州軍區是祖國華南的一個大軍區,由強大的第四野戰軍建立.廣州軍區的首任司令員黃永勝是四野的將領,第二任司令員丁盛也是四野的將領,第三任司令員許世友是個特例,他不是四野的,他是經過八大軍區司令員對調,來 ...

1986年,開國少將到福建視察,專程拜訪一和尚:老首長,我想你啊

1986年,開國少將到福建視察,專程拜訪一和尚:老首長,我想你啊
1986年的一天,福建永泰縣郊外的暗亭寺一如往日的寧靜,由於寺廟地處偏遠,前來祭祀的香客並不多. 這時,一輛小汽車疾馳而來,停在了寺廟的門口,從車上走下來一個穿著軍裝的老人,他就是開國少將鍾國楚. 一 ...

1980年,廣州軍區司令換人,誰有資格接替許世友?那是他的老部下

1980年,廣州軍區司令換人,誰有資格接替許世友?那是他的老部下
許世友作為一代名將,他的部下有很多.1977年,聶鳳智擔任南京軍區司令員,聶鳳智就是許世友的老部下.1980年,許世友不再擔任廣州軍區司令員,那麼,誰有資格來接替他呢? 巧了,那也是許世友的一位老部下 ...

謝振華33歲當軍長,主席稱讚文武全能,為何1955年只授少將?

謝振華33歲當軍長,主席稱讚文武全能,為何1955年只授少將?
百年百將112:謝振華 作者:相忘於江湖 我軍歷史上曾有67個軍,但中間空著56.57.59軍的番號沒有使用. 1955年大授銜,67個軍的首任軍長,有10位沒有授銜,1位大將(許光達),12位上將, ...

開國少將中,有四位將領,級別最高,他們都是誰?

開國少將中,有四位將領,級別最高,他們都是誰?
相信瞭解歷史的朋友都知道,在1955年,共有十位將領授予元帥,十位將領授予大將軍銜,57位將領授予上將軍銜,177位將領授予中將軍銜.還有1360名將領被授予了開國少將軍銜.當然,這一千多名開國少將, ...

秦中自古帝王州:陝西省籍開國將帥獲上將中將少將軍銜名錄與籍貫

秦中自古帝王州:陝西省籍開國將帥獲上將中將少將軍銜名錄與籍貫
陝西省籍開國元帥.開國大將.開國上將.開國中將.開國少將各有幾人?他們的具體籍貫又是哪個市縣的? 陝西省,集半坡文明與黃炎故里於一體,自西周以來,十二皇朝都城均在陝西省長安市,人文底蘊深厚,名留青史的 ...

1988年恢復軍銜制,廣州軍區正、副司令員都有誰?授予什麼軍銜?
1988年恢復軍銜制,廣州軍區正.副司令員都有誰?授予什麼軍銜? 1985年6月,中央軍委對全國十一大軍區進行了調整,裁撤昆明.武漢.烏魯木齊.福州等四大軍區.與此同時,中央軍委將原屬武漢軍區的湖北省 ...

1955年,廣州軍區成立,下轄4個軍的軍長都是誰?

1955年,廣州軍區成立,下轄4個軍的軍長都是誰?
1955年,全國六大軍區重新劃分,成立以省會城市命名的大軍區,原來的中南軍區改稱廣州軍區.首任司令員是黃永勝,57位開國上將之一.當時的廣州軍區下轄4個軍,軍長都是誰? 先說第41軍,這是由原來東北野 ...

1985年,中央軍委原定保留55軍,廣州軍區提出異議,42軍成了贏家

1985年,中央軍委原定保留55軍,廣州軍區提出異議,42軍成了贏家
1985年,中央軍委原定保留55軍,廣州軍區提出異議,42軍成了贏家 1985年6月,中央軍委宣佈百萬大裁軍之前,關於裁撤哪個軍保留哪個軍的艱難選擇,已經有了初步方案.在裁撤名單中,不乏功勳卓著的英模 ...

血沃中原肥勁草 河南省開國少將 中將 上將 大將 元帥軍銜開國將帥名錄

血沃中原肥勁草 河南省開國少將 中將 上將 大將 元帥軍銜開國將帥名錄
河南自古屬於中原地帶,是群雄逐鹿的兵家要地,多個朝代的都城都在河南省內.正所謂龍脈賡續,源遠流長:河南省人才輩出,將星閃耀. 那麼河南省的開國將帥有多少?開國元帥.大將.上將.中將.少將軍銜獲得者又各 ...