本書由認識篇、技術(shù)篇和案例篇三部分組成,以商業(yè)領(lǐng)域中的問題為背景,重點在于講解數(shù)據(jù)挖掘技術(shù)的應用。認識篇從整體上介紹了數(shù)據(jù)挖掘的各種技術(shù)和數(shù)據(jù)挖掘建模過程,可使讀者了解數(shù)據(jù)挖掘技術(shù)在商業(yè)領(lǐng)域中的應用概貌;技術(shù)篇介紹了數(shù)據(jù)挖掘中的聚類分析、分類、回歸、關(guān)聯(lián)規(guī)則挖掘、離群點檢測等方法;案例篇展示了數(shù)據(jù)挖掘在6個不同行業(yè)中的應用案例,期望通過案例的分析使讀者能夠理解如何應用數(shù)據(jù)挖掘技術(shù)解決商業(yè)領(lǐng)域中的問題。
(1) 介紹數(shù)據(jù)挖掘的基本原理,注重原理、方法的應用背景分析,使讀者理解原理可能的應用場景;(2) 通過7個行業(yè)的應用案例展示數(shù)據(jù)挖掘技術(shù)的價值,架設(shè)理論與實際的橋梁。
1984.8—1998.3在邵陽師專數(shù)學系任教; 1998.4—2005.6在衡陽師范學院計算機系任教,歷任計算機系常務副主任、主任; 2005.7—至今,在廣東外語外貿(mào)大學信息學院任教
上篇 認 識 篇
第1章 緒論 1
1.1 引例 1
1.2 數(shù)據(jù)挖掘產(chǎn)生的背景及概念 3
1.2.1 數(shù)據(jù)挖掘產(chǎn)生的背景 3
1.2.2 數(shù)據(jù)挖掘概念 4
1.3 數(shù)據(jù)挖掘任務及過程 5
1.3.1 數(shù)據(jù)挖掘任務 5
1.3.2 數(shù)據(jù)挖掘過程 5
1.4 數(shù)據(jù)挖掘常用軟件簡介 6
1.5 數(shù)據(jù)挖掘在商業(yè)領(lǐng)域中的應用 7
1.5.1 市場營銷 8
1.5.2 交叉銷售與交叉營銷 9 上篇 認 識 篇
第1章 緒論 1
1.1 引例 1
1.2 數(shù)據(jù)挖掘產(chǎn)生的背景及概念 3
1.2.1 數(shù)據(jù)挖掘產(chǎn)生的背景 3
1.2.2 數(shù)據(jù)挖掘概念 4
1.3 數(shù)據(jù)挖掘任務及過程 5
1.3.1 數(shù)據(jù)挖掘任務 5
1.3.2 數(shù)據(jù)挖掘過程 5
1.4 數(shù)據(jù)挖掘常用軟件簡介 6
1.5 數(shù)據(jù)挖掘在商業(yè)領(lǐng)域中的應用 7
1.5.1 市場營銷 8
1.5.2 交叉銷售與交叉營銷 9
1.5.3 客戶關(guān)系管理 10
1.5.4 個性化推薦與個性化服務 11
1.5.5 風險分析與控制 12
1.5.6 欺詐行為檢測和異常模式的發(fā)現(xiàn) 13
1.5.7 供應鏈庫存管理中的需求預測 14
1.5.8 人力資源管理 15
1.6 數(shù)據(jù)挖掘技術(shù)的前景 16
1.7 本章小結(jié) 17
第2章 數(shù)據(jù)挖掘建模方法 19
2.1 概述 19
2.2 業(yè)務理解 22
2.3 數(shù)據(jù)理解 22
2.4 數(shù)據(jù)準備 23
2.5 建模 25
2.5.1 成功建立預測模型的注意要點 25
2.5.2 如何建立有效的預測模型 27
2.6 評估 29
2.7 部署 30
2.8 本章小結(jié) 30
中篇 技 術(shù) 篇
第3章 聚類分析 33
3.1 概述 33
3.2 相似性度量 34
3.2.1 數(shù)據(jù)及數(shù)據(jù)類型 34
3.2.2 屬性之間的相似性度量 35
3.2.3 對象之間的相似性度量 37
3.3 k-means 算法及其改進 39
3.3.1 k-means 算法 39
3.3.2 k-means聚類算法的改進 41
3.4 一趟聚類算法 46
3.4.1 算法描述 46
3.4.2 聚類閾值的選擇策略 47
3.5 層次聚類算法 48
3.5.1 概述 48
3.5.2 BIRCH算法 49
3.5.3 兩步聚類算法 51
3.6 SOM算法 53
3.6.1 SOM算法中網(wǎng)絡(luò)的拓撲結(jié)構(gòu) 53
3.6.2 SOM算法的聚類原理 54
3.7 聚類算法評價 56
3.7.1 監(jiān)督度量 56
3.7.2 非監(jiān)督度量 57
3.8 綜合例子 57
3.9 本章小結(jié) 59
第4章 分類 62
4.1 概述 63
4.2 決策樹分類方法 63
4.2.1 決策樹的基本概念 63
4.2.2 決策樹的構(gòu)建 65
4.2.3 Hunt算法 69
4.2.4 C4.5分類算法 70
4.2.5 CART算法 72
4.2.6 C4.5 與CART算法的區(qū)別 79
4.2.7 決策樹分類算法的優(yōu)點 79
4.3 樸素貝葉斯分類方法 79
4.3.1 樸素貝葉斯算法的相關(guān)概念 79
4.3.2 零條件概率問題的處理 80
4.3.3 樸素貝葉斯算法的優(yōu)缺點 81
4.4 最近鄰KNN分類方法 82
4.4.1 最近鄰分類的基本概念 83
4.4.2 KNN算法優(yōu)缺點 83
4.4.3 KNN的擴展 83
4.5 集成分類器 84
4.5.1 集成分類器的過程描述 84
4.5.2 構(gòu)建集成分類器的方法 85
4.5.3 集成分類器方法優(yōu)缺點 85
4.6 分類方法評價 85
4.7 綜合例子 87
4.8 本章小結(jié) 88
第5章 關(guān)聯(lián)規(guī)則分析 90
5.1 概述 90
5.2 關(guān)聯(lián)規(guī)則分析基礎(chǔ) 91
5.2.1 基本概念 91
5.2.2 基礎(chǔ)分析方法 92
5.3 Apriori算法 94
5.3.1 Apriori性質(zhì) 94
5.3.2 Apriori算法原理 94
5.3.3 Apriori算法演示示例 95
5.3.4 Apriori算法評價 96
5.4 CARMA算法 97
5.4.1 Phase I階段 97
5.4.2 Phase II階段 100
5.5 產(chǎn)生關(guān)聯(lián)規(guī)則 101
5.5.1 一般關(guān)聯(lián)規(guī)則的產(chǎn)生 101
5.5.2 Apriori算法關(guān)聯(lián)規(guī)則的產(chǎn)生 101
5.5.3 規(guī)則的評估標準 103
5.6 關(guān)聯(lián)規(guī)則擴展 104
5.6.1 多層次關(guān)聯(lián)規(guī)則 104
5.6.2 多維度關(guān)聯(lián)規(guī)則 105
5.6.3 定量關(guān)聯(lián)規(guī)則 105
5.6.4 基于約束的關(guān)聯(lián)規(guī)則 105
5.6.5 序列模式挖掘 106
5.7 綜合例子 106
5.7.1 概述 106
5.7.2 案例分析流程 107
5.8 本章小結(jié) 110
第6章 離群點檢測 113
6.1 概述 113
6.2 基于相對密度的離群點檢測方法 115
6.3 基于聚類的離群點檢測方法 119
6.3.1 基于對象的離群因子方法 120
6.3.2 基于簇的離群因子檢測方法 122
6.3.3 基于聚類的動態(tài)數(shù)據(jù)離群點檢測 124
6.4 離群點檢測方法的評估 124
6.5 本章小結(jié) 125
第7章 回歸分析 126
7.1 概述 126
7.2 線性回歸模型 127
7.2.1 多元線性回歸模型的表示 127
7.2.2 多元線性回歸模型的檢驗 128
7.3 非線性回歸 130
7.4 邏輯回歸 134
7.4.1 二元Logistic回歸模型 134
7.4.2 Logistic回歸模型的系數(shù)估計 134
7.4.3 Logistic回歸模型系數(shù)的解釋 135
7.4.4 顯著性檢驗 136
7.4.5 回歸方程的擬合優(yōu)度檢驗 137
7.5 本章小結(jié) 141
第8章 為挖掘準備數(shù)據(jù) 144
8.1 數(shù)據(jù)統(tǒng)計特性 145
8.1.1 頻率和眾數(shù) 145
8.1.2 百分位數(shù) 145
8.1.3 中心度量 145
8.1.4 散布程度度量 146
8.2 數(shù)據(jù)預處理 146
8.2.1 數(shù)據(jù)清理 147
8.2.2 數(shù)據(jù)集成 150
8.2.3 數(shù)據(jù)變換 150
8.2.4 數(shù)據(jù)歸約 154
8.3 本章小結(jié) 155
下篇 案 例 篇
第9章 Clementine使用簡介 157
9.1 Clementine概述 157
9.2 Clementine數(shù)據(jù)流操作 158
9.2.1 生成數(shù)據(jù)流的基本過程 158
9.2.2 節(jié)點操作 159
9.2.3 數(shù)據(jù)流的其他管理 160
9.3 輸入、輸出節(jié)點介紹 162
9.3.1 數(shù)據(jù)源節(jié)點 162
9.3.2 類型節(jié)點 166
9.3.3 表節(jié)點 167
9.3.4 數(shù)據(jù)導出節(jié)點 168
9.4 數(shù)據(jù)預處理節(jié)點介紹 168
9.4.1 過濾節(jié)點 169
9.4.2 選擇節(jié)點 169
9.4.3 抽樣節(jié)點 170
9.4.4 平衡節(jié)點 170
9.4.5 排序節(jié)點 171
9.4.6 分區(qū)節(jié)點 171
9.4.7 導出節(jié)點 172
9.4.8 分箱節(jié)點 174
9.4.9 特征選擇節(jié)點 176
9.4.10 數(shù)據(jù)審核節(jié)點 177
9.4.11 直方圖節(jié)點 178
9.4.12 分布圖節(jié)點 178
9.4.13 Web節(jié)點 179
9.5 聚類節(jié)點介紹 180
9.5.1 K-Means節(jié)點 180
9.5.2 Kohonen節(jié)點 182
9.5.3 TwoStep節(jié)點 184
9.5.4 Anomaly節(jié)點 184
9.6 分類節(jié)點介紹 186
9.6.1 C5.0節(jié)點 186
9.6.2 C&R Tree節(jié)點 188
9.6.3 BayesNet節(jié)點 190
9.6.4 二元分類器節(jié)點 192
9.6.5 Ensemble節(jié)點 194
9.6.6 分析節(jié)點 195
9.6.7 評估節(jié)點 196
9.7 關(guān)聯(lián)分析節(jié)點介紹 200
9.7.1 Apriori節(jié)點 200
9.7.2 CARMA節(jié)點 202
9.7.3 Sequence節(jié)點 203
9.8 回歸分析節(jié)點介紹 205
9.8.1 線性回歸節(jié)點 205
9.8.2 邏輯回歸節(jié)點 206
9.9 RFM分析節(jié)點介紹 207
9.9.1 RFM匯總節(jié)點 207
9.9.2 RFM分析節(jié)點 208
9.10 本章小結(jié) 210
第10章 數(shù)據(jù)挖掘在電信業(yè)中的應用 211
10.1 數(shù)據(jù)挖掘在電信業(yè)的應用概述 211
10.1.1 客戶細分 212
10.1.2 客戶流失預測分析 212
10.1.3 客戶社會關(guān)系挖掘 213
10.1.4 業(yè)務交叉銷售 214
10.1.5 欺詐客戶識別 214
10.2 案例10-1:客戶通話模式分析 215
10.2.1 商業(yè)理解 215
10.2.2 數(shù)據(jù)理解階段 215
10.2.3 數(shù)據(jù)準備階段 217
10.2.4 建模階段 218
10.3 案例10-2:客戶細分與流失分析 223
10.3.1 商業(yè)理解 223
10.3.2 數(shù)據(jù)理解階段 224
10.3.3 數(shù)據(jù)準備階段 225
10.3.4 建模階段 226
10.3.5 評估階段 230
10.4 案例10-3:移動業(yè)務關(guān)聯(lián)分析 232
10.4.1 商業(yè)理解 232
10.4.2 數(shù)據(jù)理解階段 232
10.4.3 數(shù)據(jù)準備階段 233
10.4.4 建模階段 235
10.4.5 模型評估 238
10.4.6 部署階段 239
10.5 本章小結(jié) 240
第11章 數(shù)據(jù)挖掘在銀行業(yè)中的應用 241
11.1 數(shù)據(jù)挖掘在銀行業(yè)中的應用概述 241
11.2 案例11-1:信用風險分析 243
11.2.1 商業(yè)理解 243
11.2.2 數(shù)據(jù)理解 243
11.2.3 數(shù)據(jù)準備階段 245
11.2.4 數(shù)據(jù)建模 246
11.2.5 模型評估 247
11.2.6 模型部署 248
11.3 本章小結(jié) 249
第12章 數(shù)據(jù)挖掘在目錄營銷中的應用 250
12.1 應用概述 250
12.1.1 RFM分析的基本原理 251
12.1.2 RFM模型的應用場景 254
12.2 案例12-1:Charles讀書俱樂部目錄
銷售 254
12.2.1 商業(yè)理解 255
12.2.2 數(shù)據(jù)理解階段 255
12.2.3 數(shù)據(jù)準備階段 256
12.2.4 建模階段 257
12.2.5 評估階段 260
12.2.6 部署階段 260
12.3 案例12-2:旅游公司的目錄銷售 260
12.3.1 商業(yè)理解 260
12.3.2 數(shù)據(jù)理解階段 261
12.3.3 數(shù)據(jù)準備階段 261
12.3.4 建模階段 261
12.3.5 部署階段 263
12.4 本章小結(jié) 264
第13章 數(shù)據(jù)挖掘在零售業(yè)中的應用 265
13.1 數(shù)據(jù)挖掘在零售業(yè)中的應用概述 265
13.2 案例13-1:關(guān)聯(lián)分析在超市購物籃
分析中的應用 267
13.2.1 商業(yè)理解 267
13.2.2 數(shù)據(jù)理解 267
13.2.3 數(shù)據(jù)準備 268
13.2.4 建立模型 268
13.2.5 模型評估和應用 271
13.2.6 節(jié)假日和工作日的比較分析 272
13.3 案例13-2:超市工作時間與人員
配置分析 272
13.3.1 商業(yè)理解 272
13.3.2 數(shù)據(jù)理解與準備 273
13.3.3 建立模型 273
13.3.4 模型評估與部署 273
13.3.5 不同時段的商品銷售規(guī)律 274
13.3.6 時段與商品的銷售規(guī)律 274
13.4 本章小結(jié) 275
第14章 數(shù)據(jù)挖掘在上市公司財務風險
預警分析中的應用 276
14.1 數(shù)據(jù)挖掘在上市公司財務風險
預警分析中的應用概述 276
14.2 案例14-1:上市公司財務報表
舞弊識別 278
14.2.1 商業(yè)理解 278
14.2.2 數(shù)據(jù)理解與數(shù)據(jù)準備 278
14.2.3 模型建立與評估 279
14.3 案例14-2:上市公司財務困境預警 279
14.3.1 商業(yè)理解階段 280
14.3.2 數(shù)據(jù)理解階段 280
14.3.3 數(shù)據(jù)準備階段 281
14.3.4 建模階段 282
14.3.5 部署實施 283
14.4 本章小結(jié) 283
第15章 數(shù)據(jù)挖掘在電子商務中的應用 284
15.1 數(shù)據(jù)挖掘在電子商務中的應用概述 284
15.2 主要應用領(lǐng)域 285
15.2.1 網(wǎng)絡(luò)客戶關(guān)系管理 285
15.2.2 網(wǎng)站設(shè)計優(yōu)化 286
15.2.3 推薦系統(tǒng) 287
15.3 案例15-1:基于關(guān)聯(lián)分析的淘寶網(wǎng)
推薦 289
15.3.1 商業(yè)理解階段 289
15.3.2 數(shù)據(jù)理解階段 289
15.3.3 數(shù)據(jù)準備階段 290
15.3.4 數(shù)據(jù)建模 291
15.3.5 模型評估 291
15.3.6 部署階段 292
15.4 案例15-2:協(xié)同過濾技術(shù)在電影
推薦上的簡單應用 292
15.4.1 協(xié)同過濾推薦簡述 292
15.4.2 商業(yè)理解階段 293
15.4.3 數(shù)據(jù)的理解、收集及準備 293
15.4.4 建模階段 294
15.4.5 模型評估和部署 295
15.5 本章小結(jié) 295
附錄A 數(shù)據(jù)挖掘常用資源列表 296
參考文獻 298