本書以客戶生命周期管理為主線,結合翔實的案例介紹具含金量的數據挖掘與建模方法,每個案例既自成體系又前后呼應。第1章介紹數據挖掘在客戶生命周期管理中的應用,對如何構建客戶標簽體系和客戶畫像做了詳細介紹。第2章結合一個市場研究案例,介紹完整的客戶洞察分析過程,對對應分析、偏好分析、聯合分析等簡單好用的客戶研究方法做了完美闡釋。第3章結合信用卡客戶細分介紹完整的聚類過程,除快速、系統、兩步聚類算法外,詳細介紹實際分析過程中必不可少的數據預處理過程。第4章結合信用卡客戶精準營銷案例,介紹營銷響應模型的構建、評估與應用,完整闡述模型的整個生命周期。第5章結合信用卡客戶流失預警與挽留案例,介紹客戶價值(數值)預測與流失傾向(事件)預測兩類問題的建模過程及組合應用。第6章結合信用卡客戶反欺詐案例,介紹目前常用的反欺詐方法,以及機器學習中集成算法的典范——隨機森林。
大數據的浪潮正漸漸平靜,整個行業已逐漸趨于成熟和理性。喧囂與嘈雜漸遠之時,才能更清晰地透過表象,看清事情的本質。大數據需要精挖掘,好客戶需要勤耕耘,再好的故事,再炫的包裝,再酷的產品,分析基礎還是以CRISP方法為主流,做好數據采集、清洗、整合、建模、分析、部署與調優;經營基礎還是“客戶為中心”的市場營銷,通過信息對稱與否的博弈來駕馭經營風險,再給予風險成本加權計算基礎上的損益評價。大數據的世界有時確實沒表面上那么“性感”,而是非常“感性”。對于從事大數據相關工作的大多數專業人士,尤其是年輕朋友而言,詩與遠方雖可筑夢,但要真正走得長遠,還是需要真本領,需要耐著寂寞,翻開書本,擼起袖子,在實踐中學習,在學習中實踐。
書如其人。陳春寶博士的這本書和他本人一樣,不太容易評價。多樣、豐富、立體,因此復雜,需要多花些時間去深入細品,才能發現如同一篇好的散文,貴在“形散而神不散”。全書圍繞兩條主線,一條是金融客戶生命周期管理,另外一條是數據挖掘項目和模型的生命周期管理,這兩條主線串接起了一個一個獨立、完整的實戰場景。這樣的組織方法使讀者學習各篇完整成章時,能按圖索驥,實踐參考;兩條主線也使得知識點跳躍較大,給人點到即止的感覺。因此建議結合其他書籍同步研讀,效果會更好。比如,客戶關系管理方面的,V.庫馬爾的《贏得盈利客戶》;數據挖掘領域的,本書作者的另一部著作《大數據與機器學習:實踐方法與行業案例》。
金融數據的價值密度之高,堪稱數據中的黃金。以銀行為代表的金融機構對數據的深入挖掘分析與應用,起步不可謂不早,投入不可謂不大,成果不可謂不多,但是在這波風口中,由于內因、外因和低調(網紅經濟時代,低調可真是“致命”的優點),卻常常被懟到了市場邊緣,連市面上關于大數據與數據挖掘方面的實戰類專業書籍,也大多出自互聯網同仁之手。其實銀行及各家金融機構藏龍臥虎,不乏像三位作者這樣能夠洞察業務,兼具豐富實操經驗和扎實理論功底的高手。衷心期待陳春寶博士能繼續堅持下去,并帶動更多金融機構的同仁們積極行動進來,出版更多的,特別是實戰類的書籍,共同為大數據時代增添一抹屬于金融數據科學家們的別樣風采。
Contents?目 錄
贊譽
序
前言
第1章 金融數據挖掘與建模應用場景 1
1.1 客戶數據挖掘的價值 1
1.2 金融客戶生命周期及數據應用場景 3
1.3 最具代表性的數據應用場景 7
第2章 客戶獲取:信用卡客戶欺詐評分案例 8
2.1 案例背景 9
2.2 數據準備與預處理 10
2.2.1 數據源 10
2.2.2 變量設計 11
2.3 構建評分模型 13
2.3.1 算法選擇 13
2.3.2 模型訓練 14
2.3.3 模型評估 16
2.4 評分模型的應用 19
2.5 小結 20
第3章 客戶提升:信用卡客戶精準營銷案例 21
3.1 案例背景 21
3.2 建模準備 21
3.2.1 準備數據 22
3.2.2 數據預處理 26
3.2.3 過度抽樣 27
3.2.4 構造訓練集及測試集 30
3.3 數據清洗及變量粗篩 32
3.3.1 連續變量與連續變量之間 33
3.3.2 分類變量和分類變量之間 39
3.3.3 分類變量和連續變量之間 43
3.3.4 數據的錯誤及缺失值 47
3.3.5 數據離群值 53
3.3.6 重編碼 59
3.4 變量壓縮與轉換變量 61
3.4.1 分類變量的水平數壓縮 61
3.4.2 連續變量聚類 65
3.4.3 連續變量的分箱 77
3.4.4 變量的轉換 79
3.5 模型訓練 80
3.5.1 關于Logistic回歸 80
3.5.2 變量篩選方法 81
3.6 模型評估 88
3.6.1 模型估計 88
3.6.2 模型評估 89
3.6.3 調整過度抽樣 98
3.6.4 收益矩陣 98
3.6.5 模型轉換為打分卡 100
3.7 模型的部署及更新 100
3.7.1 模型的部署 100
3.7.2 模型的監測及更新 101
3.8 本章小結 103
第4章 客戶成熟:銀行零售客戶渠道偏好細分案例 104
4.1 案例背景 104
4.2 聚類分析流程 105
4.3 數據標準化 107
4.3.1 標準化介紹 107
4.3.2 標準化實現 110
4.4 變量聚類 111
4.4.1 變量聚類介紹 111
4.4.2 變量聚類基本步驟 112
4.4.3 SAS實現變量聚類 113
4.5 變量降維與可視化 118
4.5.1 圖形化探索 118
4.5.2 主成分分析法降維 120
4.6 ACECLUS預處理過程 123
4.6.1 ACECLUS介紹 123
4.6.2 ACECLUS過程 123
4.6.3 ACECLUS示例 123
4.7 系統聚類分析 128
4.7.1 系統聚類法 128
4.7.2 樣本與樣本之間的度量 129
4.7.3 距離定義與測量 129
4.7.4 相關系數 131
4.7.5 類與類之間的度量 131
4.7.6 系統聚類法 139
4.7.7 不同系統聚類法之間的比較 140
4.7.8 類個數的確定 158
4.8 快速聚類 159
4.8.1 快速聚類法 159
4.8.2 快速聚類法實現 160
4.8.3 快速聚類法優缺點 161
4.9 兩步聚類法 161
4.9.1 兩步聚類法 161
4.9.2 兩步聚類法實現 161
4.10 本章小結 167
第5章 客戶衰退:銀行貸款違約預測案例 168
5.1 案例背景 169
5.2 維度分析 170
5.3 建模分析 177
5.4 業務應用 179
5.5 小結 179
第6章 客戶挽留:信用卡客戶流失管理案例 180
6.1 案例背景 181
6.2 數據準備 182
6.2.1 設定目標變量 182
6.2.2 設定時間窗 183
6.2.3 設計預測變量 184
6.2.4 準備數據寬表 185
6.3 流失傾向預警:用Logistic回歸構建響應率模型 186
6.3.1 粗分類 187
6.3.2 計算分組變量的WOE值和IV值 191
6.3.3 共線性檢驗 194
6.3.4 模型訓練:顯著性檢驗 195
6.3.5 模型評估 196
6.4 潛在客戶價值預測:兩階段建模法 201
6.4.1 階段1概率預測 201
6.4.2 階段2 數值預測 201
6.4.3 模型評估 203
6.5 細分:差異化營銷服務的基礎 204
6.6 小結 208