前 言
數(shù)據(jù)挖掘涉及數(shù)據(jù)庫(kù)技術(shù)、人工智能、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、知識(shí)發(fā)現(xiàn)等多個(gè)學(xué)科的領(lǐng)域。隨著信息技術(shù)的高速發(fā)展、數(shù)據(jù)量的飛速增長(zhǎng),數(shù)據(jù)挖掘已經(jīng)在各行各業(yè)有了較為廣泛的應(yīng)用。
Microsoft SQL Server 2012是集成了數(shù)據(jù)挖掘技術(shù)的第5版的SQL Server。SQL Server數(shù)據(jù)挖掘是業(yè)界部署最廣泛的數(shù)據(jù)挖掘服務(wù)器,由于其可伸縮性大,容易獲得,使用也較為簡(jiǎn)便,政府機(jī)構(gòu)、企事業(yè)單位、學(xué)術(shù)人員和科學(xué)家也開始采用或轉(zhuǎn)而使用SQL Server進(jìn)行數(shù)據(jù)挖掘。IBM SPSS Statistics是全世界最早的統(tǒng)計(jì)分析軟件,其主要功能包括統(tǒng)計(jì)學(xué)分析運(yùn)算、數(shù)據(jù)挖掘、預(yù)測(cè)分析等,由于其具有數(shù)據(jù)分析深入、使用方便、功能齊全等諸多優(yōu)點(diǎn),被廣泛應(yīng)用于自然科學(xué)、技術(shù)科學(xué)、社會(huì)科學(xué)的各個(gè)領(lǐng)域。
Microsoft SQL Server Analysis Services(SSAS)是本書的核心內(nèi)容,Excel的數(shù)據(jù)分析與挖掘,也是基于SSAS的服務(wù)引擎在進(jìn)行。使用本書時(shí),可以先學(xué)習(xí)數(shù)據(jù)挖掘基本理論;接下來學(xué)習(xí)Excel 2010數(shù)據(jù)分析與挖掘、SQL Server 2012數(shù)據(jù)挖掘、SPSS Statistics數(shù)據(jù)分析與挖掘;然后再通過完成教程設(shè)計(jì)的實(shí)驗(yàn)內(nèi)容,真正地理解數(shù)據(jù)挖掘理論,掌握數(shù)據(jù)挖掘的實(shí)踐技能。
本書結(jié)合作者多年從事數(shù)據(jù)挖掘教學(xué)、開發(fā)數(shù)據(jù)挖掘項(xiàng)目的經(jīng)驗(yàn),從實(shí)際出發(fā),以實(shí)用的例子,系統(tǒng)地介紹了數(shù)據(jù)挖掘。全書分為三個(gè)部分,共10章。
第1部分由第1~3章組成,包括商業(yè)智能的概念和發(fā)展、數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)的基本概念以及它們之間的關(guān)系;數(shù)據(jù)倉(cāng)庫(kù)的基本概念和設(shè)計(jì)步驟,并介紹了聯(lián)機(jī)分析技術(shù)的分類和特點(diǎn),以及回歸分析、關(guān)聯(lián)規(guī)則、聚類分析、決策樹分析等數(shù)據(jù)挖掘常用分析方法的概念和算法。
第2部分由第4~9章組成,包括Excel 2010數(shù)據(jù)分析和預(yù)測(cè)的功能、Excel 2010的數(shù)據(jù)挖掘功能;SQL Server 2012的Analysis Services功能、設(shè)置數(shù)據(jù)源、設(shè)置數(shù)據(jù)源視圖、設(shè)置挖掘結(jié)構(gòu)、處理挖掘模型、查看挖掘結(jié)果等;Microsoft SQL Server Analysis Services中提供的最常用的6個(gè)數(shù)據(jù)挖掘算法原理與參數(shù);SPSS Statistics的界面和基礎(chǔ)操作;SPSS Statistics在數(shù)據(jù)挖掘中常用的基礎(chǔ)統(tǒng)計(jì)分析方法和高級(jí)統(tǒng)計(jì)分析方法。
第3部分由第10章組成,包括SQL Server 2012的數(shù)據(jù)挖掘?qū)嶒?yàn)、SPSS Statistics的數(shù)據(jù)挖掘?qū)嶒?yàn)。
在內(nèi)容的選擇、深度的把握上,本書充分考慮到初學(xué)者的特點(diǎn),在內(nèi)容安排上力求循序漸進(jìn),不僅可以作為大專院校教學(xué)用書,也可以作為數(shù)據(jù)挖掘的培訓(xùn)教材和數(shù)據(jù)挖掘愛好者的自學(xué)用書。
本書由吳思遠(yuǎn)任主編,鄒洋、黃梅根、賈玲任副主編。具體編寫分工如下:鄒洋編寫第1~3章,吳思遠(yuǎn)編寫第4~6章,黃梅根編寫第7章,賈玲編寫第8~9章,吳思遠(yuǎn)和賈玲共同編寫第10章。吳思遠(yuǎn)負(fù)責(zé)全書架構(gòu)的組織設(shè)計(jì),負(fù)責(zé)統(tǒng)稿。本書的編寫得到重慶郵電大學(xué)教務(wù)處、重慶郵電大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院以及重慶市教育評(píng)估院和中冶賽迪重慶信息技術(shù)有限公司的大力支持,在此感謝以上單位對(duì)本書所做出的貢獻(xiàn)。
本書為教師提供了配套的教學(xué)資源,可從清華大學(xué)出版社網(wǎng)站http://www.tup.com.cn下載。
由于作者水平有限,書中難免有疏漏和不足之處,希望廣大讀者給予諒解和指正。
編 者
第1章 緒論 1
1.1 商業(yè)智能 1
1.2 數(shù)據(jù)挖掘 6
1.3 數(shù)據(jù)倉(cāng)庫(kù) 12
第2章 數(shù)據(jù)倉(cāng)庫(kù)與聯(lián)機(jī)分析 15
2.1 數(shù)據(jù)倉(cāng)庫(kù) 15
2.2 數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)步驟 23
2.3 聯(lián)機(jī)分析技術(shù) 34
第3章 數(shù)據(jù)挖掘運(yùn)用的理論和技術(shù) 41
3.1 回歸分析 41
3.2 關(guān)聯(lián)規(guī)則 47
3.3 聚類分析 55
3.4 決策樹分析 63
3.5 其他分析方法 68
第4章 用Excel 2010進(jìn)行數(shù)據(jù)分析 71
4.1 安裝前的準(zhǔn)備 71
4.2 安裝表分析工具 72
4.3 配置表分析工具 75
4.4 使用表分析工具的要求 79
4.5 分析關(guān)鍵影響因素 82
4.6 檢測(cè)類別 86
4.7 從示例填充 90
4.8 預(yù)測(cè) 93
4.9 突出顯示異常值 94
4.10 應(yīng)用場(chǎng)景分析 98
4.11 預(yù)測(cè)計(jì)算器及可打印計(jì)算器 104
4.12 購(gòu)物籃分析 108
第5章 用Excel 2010進(jìn)行數(shù)據(jù)挖掘 111
5.1 數(shù)據(jù)挖掘簡(jiǎn)介 111
5.2 獲取外部數(shù)據(jù) 113
5.3 數(shù)據(jù)準(zhǔn)備 114
5.4 數(shù)據(jù)建模 127
5.5 準(zhǔn)確性和驗(yàn)證 153
5.6 模型用法 164
5.7 管理和連接 171
第6章 SQL Server 2012數(shù)據(jù)挖掘 174
6.1 SSDT(SQL Server Data Tools)簡(jiǎn)介 174
6.2 安裝SSDT-BI 175
6.3 安裝示例數(shù)據(jù)庫(kù) 180
6.4 SSDT-BI用戶界面 182
6.5 創(chuàng)建挖掘項(xiàng)目 183
6.6 設(shè)置數(shù)據(jù)源 185
6.7 設(shè)置數(shù)據(jù)源視圖 188
6.8 設(shè)置挖掘結(jié)構(gòu) 193
6.9 處理挖掘模型 198
6.10 查看挖掘模型 199
6.11 挖掘準(zhǔn)確性圖表 201
6.12 挖掘模型預(yù)測(cè) 205
第7章 Microsoft數(shù)據(jù)挖掘算法 208
7.1 背景知識(shí) 208
7.2 Microsoft決策樹算法 210
7.3 Microsoft聚類算法 214
7.4 Microsoft關(guān)聯(lián)規(guī)則算法 218
7.5 Microsoft時(shí)序算法 221
7.6 Microsoft樸素貝葉斯算法 226
7.7 Microsoft神經(jīng)網(wǎng)絡(luò)算法 229
第8章 SPSS數(shù)據(jù)挖掘基礎(chǔ) 234
8.1 SPSS發(fā)展簡(jiǎn)史 234
8.2 SPSS操作入門 235
8.3 SPSS的界面 236
8.4 建立SPSS文件 237
8.5 SPSS數(shù)據(jù)的變量屬性定義 239
8.6 SPSS數(shù)據(jù)管理 242
8.7 SPSS數(shù)據(jù)轉(zhuǎn)換 249
第9章 SPSS數(shù)據(jù)挖掘常用的統(tǒng)計(jì)
分析方法 254
9.1 基本描述統(tǒng)計(jì) 254
9.2 T檢驗(yàn) 268
9.3 方差分析 272
9.4 多元回歸分析 286
9.5 聚類分析 297
9.6 相關(guān)分析 309
9.7 因子分析 313
第10章 數(shù)據(jù)挖掘?qū)嶒?yàn) 319
10.1 SQL Server 2012數(shù)據(jù)挖掘?qū)嶒?yàn) 319
10.2 SPSS數(shù)據(jù)挖掘?qū)嶒?yàn) 341
參考文獻(xiàn) 361
第2章 數(shù)據(jù)倉(cāng)庫(kù)與聯(lián)機(jī)分析
數(shù)據(jù)倉(cāng)庫(kù),英文名稱為Data Warehouse,可簡(jiǎn)寫為DW或DWH,是為企業(yè)所有級(jí)別的決策制定過程提供所有類型數(shù)據(jù)支持的戰(zhàn)略集合。它是單個(gè)數(shù)據(jù)存儲(chǔ),出于分析性報(bào)告和決策支持目的而創(chuàng)建,為需要業(yè)務(wù)智能的企業(yè),提供指導(dǎo)業(yè)務(wù)流程改進(jìn)、監(jiān)視時(shí)間、成本、質(zhì)量以及控制。而聯(lián)機(jī)分析處理(OLAP)系統(tǒng)是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)最主要的應(yīng)用。
本章針對(duì)數(shù)據(jù)倉(cāng)庫(kù)與聯(lián)機(jī)分析的初學(xué)者,主要介紹數(shù)據(jù)倉(cāng)庫(kù)的基本概念和設(shè)計(jì)步驟,并介紹了聯(lián)機(jī)分析技術(shù)的分類和特點(diǎn),幫助建立對(duì)數(shù)據(jù)倉(cāng)庫(kù)和聯(lián)機(jī)分析的基本認(rèn)識(shí)。
2.1 數(shù) 據(jù) 倉(cāng) 庫(kù)
2.1.1 數(shù)據(jù)倉(cāng)庫(kù)的基本概念
1. 數(shù)據(jù)倉(cāng)庫(kù)的由來和定義
數(shù)據(jù)倉(cāng)庫(kù),這一概念是由數(shù)據(jù)倉(cāng)庫(kù)之父比爾·恩門(Bill Inmon)于1990年提出的。數(shù)據(jù)倉(cāng)庫(kù)的主要功能是將資訊系統(tǒng)的聯(lián)機(jī)事務(wù)處理(OLTP)經(jīng)過長(zhǎng)時(shí)間累積的大量資料,通過數(shù)據(jù)倉(cāng)庫(kù)理論所特有的資料存儲(chǔ)架構(gòu)起來,做出系統(tǒng)的分析整理。利用的分析方法包括聯(lián)機(jī)分析處理(OLAP)、數(shù)據(jù)挖掘(Data Mining)等,進(jìn)而將分析結(jié)果用于決策支持系統(tǒng)(DSS)、主管資訊系統(tǒng)(EIS)等的創(chuàng)建,幫助決策者快速有效地從大量信息源中分析出對(duì)某種決策有參考價(jià)值的信息,使得決策擬定者能快速地對(duì)外在環(huán)境的變動(dòng)做出應(yīng)對(duì),幫助建構(gòu)商業(yè)智能(BI)。
數(shù)據(jù)倉(cāng)庫(kù)之父比爾·恩門在1991年出版的Building the Data Warehouse(《建立數(shù)據(jù)倉(cāng)庫(kù)》,見圖2.1)一書中所提出的定義被廣泛接受:數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse,DW)是一個(gè)面向主題的(Subject Oriented)、集成的(Integrated)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策(Decision Making Support)。
從信息技術(shù)上的概念來說,數(shù)據(jù)倉(cāng)庫(kù)是以關(guān)系數(shù)據(jù)庫(kù)、并行處理技術(shù)與分布式處理技術(shù)以及聯(lián)機(jī)分析處理等技術(shù)為基礎(chǔ),為了解決擁有大量數(shù)據(jù)卻缺乏有用信息的現(xiàn)狀而提出的數(shù)據(jù)處理技術(shù),是一種對(duì)不同系統(tǒng)數(shù)據(jù)實(shí)現(xiàn)集成和共享的綜合性的解決方案。
對(duì)于傳統(tǒng)數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)的關(guān)系,可以從兩個(gè)方面來理解:首先,數(shù)據(jù)倉(cāng)庫(kù)用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫(kù);其次,數(shù)據(jù)倉(cāng)庫(kù)是對(duì)多個(gè)異構(gòu)的數(shù)據(jù)源的有效集成,集成后按照主題進(jìn)行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)一般不再修改。由普通數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)的對(duì)比關(guān)系來看,通常把普通數(shù)據(jù)庫(kù)技術(shù)稱為傳統(tǒng)意義上的數(shù)據(jù)庫(kù)技術(shù),其數(shù)據(jù)處理模式可被劃分為操作型處理和分析型處理(或信息型處理)。普通數(shù)據(jù)庫(kù)技術(shù)能夠完成企業(yè)的日常事務(wù)處理工作,但很難滿足實(shí)現(xiàn)決策者制定規(guī)劃的要求,也無法滿足數(shù)據(jù)多樣化處理的要求。隨著用戶需求的日益擴(kuò)大,分析型處理和操作型處理的分離逐漸成為必然。
圖2.1 《建立數(shù)據(jù)倉(cāng)庫(kù)》
數(shù)據(jù)倉(cāng)庫(kù)的出現(xiàn)給企業(yè)機(jī)構(gòu)等帶來了巨大的變化。數(shù)據(jù)倉(cāng)庫(kù)的建立給企業(yè)帶來了一些新的工作流程,隨之其他相關(guān)流程也會(huì)因此而改變。隨著計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)的進(jìn)步和信息化的不斷發(fā)展,信息已成為人類社會(huì)不可缺少的重要資源。社會(huì)的信息化大大加速了信息數(shù)據(jù)量的增長(zhǎng)。面對(duì)數(shù)據(jù)量的不斷增長(zhǎng)和應(yīng)用要求的不斷擴(kuò)張,數(shù)據(jù)庫(kù)技術(shù)的應(yīng)用和發(fā)展也有了更高的價(jià)值和作用,促使研究者們嘗試開發(fā)能完成事物處理、批處理以及分析處理的各種類型的信息處理任務(wù)模式。然而,傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)往往主要針對(duì)操作型數(shù)據(jù)處理來設(shè)計(jì),在數(shù)據(jù)分析層面上的功能相當(dāng)有限。因此,對(duì)于決策分析,傳統(tǒng)數(shù)據(jù)庫(kù)在業(yè)務(wù)操作層面上進(jìn)行分析判斷還存在著很大的局限性。于是,研究者們開始對(duì)操作型處理數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行技術(shù)處理,形成一個(gè)綜合的、面向分析的環(huán)境,使得數(shù)據(jù)存儲(chǔ)更好地支持決策分析,這就是通常意義下數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的定義。
當(dāng)前數(shù)據(jù)倉(cāng)庫(kù)和聯(lián)機(jī)分析處理的主要研究領(lǐng)域有以下幾方面。
(1) 數(shù)據(jù)倉(cāng)庫(kù)的建模與設(shè)計(jì)。
(2) 數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)。
(3) 數(shù)據(jù)清潔和裝載。
(4) 數(shù)據(jù)刷新和凈化。
(5) 對(duì)關(guān)系操作符的擴(kuò)充。
(6) 操作符的有效開發(fā)。
(7) 專門的索引技術(shù)。
(8) 查詢優(yōu)化。
2. 數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)
數(shù)據(jù)倉(cāng)庫(kù)并不是所謂的\"大型數(shù)據(jù)庫(kù)\"。數(shù)據(jù)倉(cāng)庫(kù)方案建設(shè)的目的,是為前端查詢和分析做基礎(chǔ),由于有較大的冗余,所以需要的存儲(chǔ)也較大。為了更好地為應(yīng)用服務(wù),已知數(shù)據(jù)倉(cāng)庫(kù)案例往往有如下幾方面的特點(diǎn)。
1) 效率高
數(shù)據(jù)倉(cāng)庫(kù)的分析數(shù)據(jù)一般分為日、周、月、季、年等,可以看出,以日為周期的數(shù)據(jù)要求的效率最高,要求24小時(shí)甚至12小時(shí)內(nèi),客戶能看到昨天的數(shù)據(jù)分析。由于有的企業(yè)每日的數(shù)據(jù)量很大,所以好的數(shù)據(jù)倉(cāng)庫(kù)要求要有高效率的數(shù)據(jù)分析成果。
2) 數(shù)據(jù)質(zhì)量高
數(shù)據(jù)倉(cāng)庫(kù)提供各種信息,用戶需要的是\"有效\"的數(shù)據(jù),但由于數(shù)據(jù)倉(cāng)庫(kù)流程通常分為多個(gè)步驟,包括數(shù)據(jù)清洗、裝載、查詢、展現(xiàn)等,架構(gòu)復(fù)雜,層次眾多,如果數(shù)據(jù)源有臟數(shù)據(jù)或者代碼不嚴(yán)謹(jǐn),就可能導(dǎo)致數(shù)據(jù)失真,如果客戶看到錯(cuò)誤的信息,就可能分析得出錯(cuò)誤的決策,造成損失。因此,好的數(shù)據(jù)倉(cāng)庫(kù)需要通過技術(shù)手段保證良好的數(shù)據(jù)質(zhì)量。
3) 擴(kuò)展性好
有的大型數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的架構(gòu)設(shè)計(jì)之所以很復(fù)雜,是因?yàn)榭紤]到企業(yè)要求數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)在未來3~5年內(nèi)有良好的擴(kuò)展性,能夠穩(wěn)定運(yùn)行,而無須花費(fèi)太多的精力去重建。實(shí)現(xiàn)的途徑主要體現(xiàn)在數(shù)據(jù)建模的合理性,可在數(shù)據(jù)倉(cāng)庫(kù)方案中多出一些中間層,使海量數(shù)據(jù)流有足夠的緩沖,不至于因?yàn)閿?shù)據(jù)量的增大影響數(shù)據(jù)倉(cāng)庫(kù)正常運(yùn)行。數(shù)據(jù)倉(cāng)庫(kù)技術(shù)可以將企業(yè)多年積累的海量數(shù)據(jù)喚醒,不僅能為企業(yè)管理好這些數(shù)據(jù),還能挖掘數(shù)據(jù)潛在的價(jià)值,從而成為現(xiàn)代企業(yè)運(yùn)營(yíng)維護(hù)系統(tǒng)的亮點(diǎn)之一。
4) 面向主題
傳統(tǒng)操作型數(shù)據(jù)庫(kù)的數(shù)據(jù)組織形式是面向事務(wù)處理任務(wù),各個(gè)業(yè)務(wù)系統(tǒng)之間各自分離;而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織的。主題是與傳統(tǒng)數(shù)據(jù)庫(kù)的面向應(yīng)用相對(duì)應(yīng)的,是一個(gè)抽象的概念,是對(duì)于在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)進(jìn)行綜合、歸類并分析利用的抽象。每一個(gè)主題對(duì)應(yīng)一個(gè)宏觀的分析領(lǐng)域。數(shù)據(jù)倉(cāng)庫(kù)排除對(duì)于決策無用的數(shù)據(jù),提供特定主題的簡(jiǎn)明視圖。
3. 數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵技術(shù)
在數(shù)據(jù)流程上,根據(jù)搜集數(shù)據(jù)的過程,可將數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵技術(shù)分為數(shù)據(jù)提取、數(shù)據(jù)集成和存儲(chǔ)管理、數(shù)據(jù)表現(xiàn)、數(shù)據(jù)挖掘四個(gè)方面。
1) 數(shù)據(jù)提取
數(shù)據(jù)提取過程是數(shù)據(jù)進(jìn)入倉(cāng)庫(kù)的入口。為了OLAP和OLTP系統(tǒng)各自的執(zhí)行效率,數(shù)據(jù)倉(cāng)庫(kù)絕大多數(shù)都需要一個(gè)獨(dú)立于聯(lián)機(jī)事務(wù)處理系統(tǒng)的數(shù)據(jù)環(huán)境。抽取過程涉及的數(shù)據(jù)源一般包括聯(lián)機(jī)事務(wù)處理系統(tǒng)的數(shù)據(jù)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲(chǔ)介質(zhì)等,數(shù)據(jù)提取在技術(shù)上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等幾個(gè)方面。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)不需要實(shí)時(shí)響應(yīng),因此數(shù)據(jù)提取可以定時(shí)進(jìn)行,但多個(gè)提取操作執(zhí)行的時(shí)間、互相的順序、成敗對(duì)于數(shù)據(jù)倉(cāng)庫(kù)中信息的有效性則至關(guān)重要。數(shù)據(jù)提取過程涉及數(shù)據(jù)格式的轉(zhuǎn)換,理想情況是用戶選定源數(shù)據(jù)和目標(biāo)數(shù)據(jù)的對(duì)應(yīng)關(guān)系、格式及類型,會(huì)自動(dòng)生成數(shù)據(jù)抽取的代碼。但是,目前市場(chǎng)上提供的大多數(shù)提取工具支持的數(shù)據(jù)類型有限,難以支持動(dòng)態(tài)提取功能,這種情況使得提取功能往往不能滿足要求。因此,實(shí)際數(shù)據(jù)倉(cāng)庫(kù)實(shí)施過程中往往不一定使用數(shù)據(jù)提取工具,而是面向具體的主題,編制特定的數(shù)據(jù)提取算法。算法的正確性和實(shí)效性是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)管理、調(diào)度和維護(hù)的關(guān)鍵。經(jīng)過數(shù)據(jù)提取后的數(shù)據(jù)記錄應(yīng)為格式統(tǒng)一、業(yè)務(wù)信息完整的數(shù)據(jù)記錄。
2) 數(shù)據(jù)集成和存儲(chǔ)管理
數(shù)據(jù)倉(cāng)庫(kù)遇到的第一個(gè)問題是對(duì)海量數(shù)據(jù)的存儲(chǔ)和管理。這里涉及的數(shù)據(jù)量比傳統(tǒng)的事務(wù)處理大得多,且隨著時(shí)間推移而積累。從現(xiàn)有的技術(shù)和產(chǎn)品來看,只有關(guān)系數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)可以擔(dān)當(dāng)此任。關(guān)系數(shù)據(jù)倉(cāng)庫(kù)經(jīng)過30多年的發(fā)展,在數(shù)據(jù)存儲(chǔ)和管理方面已經(jīng)非常成熟,管理大于16級(jí)的數(shù)據(jù)已經(jīng)是十分平常的事情。目前,不少關(guān)系數(shù)據(jù)倉(cāng)庫(kù)已經(jīng)支持?jǐn)?shù)據(jù)分割技術(shù),能夠?qū)⒁粋(gè)大的數(shù)據(jù)倉(cāng)庫(kù)分散在多個(gè)物理設(shè)備中,進(jìn)一步增強(qiáng)了管理大數(shù)據(jù)量的擴(kuò)展能力。
數(shù)據(jù)倉(cāng)庫(kù)解決的第二個(gè)問題是并行處理。在傳統(tǒng)的聯(lián)機(jī)事務(wù)處理應(yīng)用中,用戶訪問系統(tǒng)的特點(diǎn)是頻繁而短小;而在數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用中,用戶訪問系統(tǒng)的特點(diǎn)是稀疏而龐大,每一個(gè)查詢或統(tǒng)計(jì)都非常復(fù)雜,但訪問頻率并不是很高。此時(shí),系統(tǒng)需要有能力將所有的資源調(diào)動(dòng)起來為一個(gè)復(fù)雜的查詢請(qǐng)求服務(wù),將該請(qǐng)求并行處理。因此,并行處理技術(shù)在數(shù)據(jù)倉(cāng)庫(kù)中比以往更重要。
數(shù)據(jù)倉(cāng)庫(kù)的第三個(gè)問題是查詢的優(yōu)化。在技術(shù)上,針對(duì)決策支持的優(yōu)化涉及數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的索引機(jī)制、查詢優(yōu)化器、連接策略、數(shù)據(jù)排序和采樣等部分。由于數(shù)據(jù)倉(cāng)庫(kù)中各類數(shù)據(jù)表的數(shù)據(jù)量分布很不均勻,普通查詢優(yōu)化器所得出的最佳查詢路徑可能不是最優(yōu)的,因此,面向決策支持的關(guān)系數(shù)據(jù)倉(cāng)庫(kù)都在數(shù)據(jù)查詢優(yōu)化器上做了改進(jìn),根據(jù)索引的特性增加了多重索引的能力。擴(kuò)充的關(guān)系數(shù)據(jù)倉(cāng)庫(kù)還引入了位圖索引機(jī)制,以二進(jìn)制表示字段的狀態(tài),將查詢過程變?yōu)楹Y選過程,通過單臺(tái)計(jì)算機(jī)的基本操作便可以篩選多個(gè)記錄。另外,數(shù)據(jù)倉(cāng)庫(kù)在應(yīng)用中會(huì)遇到大量的表間連接操作,擴(kuò)充的關(guān)系數(shù)據(jù)倉(cāng)庫(kù)對(duì)連接操作采用了連接索引技術(shù)。數(shù)據(jù)倉(cāng)庫(kù)的查詢常常只需要檢索數(shù)據(jù)倉(cāng)庫(kù)中的部分記錄,而不必檢索整個(gè)數(shù)據(jù)倉(cāng)庫(kù),決策支持的數(shù)據(jù)倉(cāng)庫(kù)還提供了數(shù)據(jù)采樣的功能,以確保在大容量數(shù)據(jù)環(huán)境下有足夠短的系統(tǒng)響應(yīng)時(shí)間,在精確度允許的范圍內(nèi),這一技術(shù)可大大地提高系統(tǒng)查詢效率。
數(shù)據(jù)倉(cāng)庫(kù)的第四個(gè)問題是支持多維分析的查詢模式。用戶在使用數(shù)據(jù)倉(cāng)庫(kù)時(shí)的訪問方法與傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)有很大的不同,對(duì)數(shù)據(jù)倉(cāng)庫(kù)的訪問往往不是簡(jiǎn)單的表和記錄的查詢,而是基于用戶業(yè)務(wù)的分析模式,即聯(lián)機(jī)分析。它的特點(diǎn)是將數(shù)據(jù)想象成多維的立方體,用戶的查詢相當(dāng)于在其中的部分維上添加條件,對(duì)立方體進(jìn)行切片、分割,得到的結(jié)果則是數(shù)值的矩陣或向量,并將其制成圖表或輸入數(shù)理統(tǒng)計(jì)的算法。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)可看成實(shí)物化的視圖,而基表都在信息源,集成器所要完成的集成工作就是把數(shù)據(jù)變化反映在數(shù)據(jù)倉(cāng)庫(kù)所維護(hù)的視圖中。絕大多數(shù)數(shù)據(jù)倉(cāng)庫(kù)視圖的維護(hù)技術(shù)都比常規(guī)的數(shù)據(jù)庫(kù)視圖維護(hù)技術(shù)復(fù)雜。例如,即使倉(cāng)庫(kù)和信息源數(shù)據(jù)都是關(guān)系型的,數(shù)據(jù)倉(cāng)庫(kù)中的視圖也不可能用標(biāo)準(zhǔn)的關(guān)系數(shù)據(jù)庫(kù)視圖定義語言(如SQL)在信息源上定義而得到。對(duì)給定視圖,當(dāng)不需要查詢基表即可維護(hù)該視圖時(shí),該視圖是自我維護(hù)的。數(shù)據(jù)倉(cāng)庫(kù)中的大多數(shù)視圖一般都不是自我維護(hù)的,但可在倉(cāng)庫(kù)中存儲(chǔ)部分附加數(shù)據(jù)而達(dá)到自我維護(hù)。例如,一個(gè)極端情況就是把信息源中的所有數(shù)據(jù)復(fù)制到數(shù)據(jù)倉(cāng)庫(kù)中,如果需要,可用這些數(shù)據(jù)重新計(jì)算視圖,對(duì)于這一問題的研究是要找到用最少的附加數(shù)據(jù)來實(shí)現(xiàn)給定視圖的可自我維護(hù)化的方法。
3) 數(shù)據(jù)表現(xiàn)
數(shù)據(jù)表現(xiàn)主要在多維分析、數(shù)理統(tǒng)計(jì)和數(shù)據(jù)挖掘方面。多維分析是數(shù)據(jù)倉(cāng)庫(kù)的主要表現(xiàn)形式,由于多維OLAP(MOLAP)系統(tǒng)是專用的,因此,關(guān)于多維分析領(lǐng)域的工具和產(chǎn)品大多是關(guān)系OLAP(Relational OLAP,ROLAP)工具。在實(shí)際工作中,客戶需要通過對(duì)數(shù)據(jù)的統(tǒng)計(jì)來驗(yàn)證他們對(duì)某些事物的假設(shè),以進(jìn)行決策,而數(shù)據(jù)挖掘強(qiáng)調(diào)的不僅僅是驗(yàn)證人們對(duì)數(shù)據(jù)特性的假設(shè),而是要更主動(dòng)地尋找并發(fā)現(xiàn)蘊(yùn)藏在數(shù)據(jù)之中的規(guī)律。在決策支持系統(tǒng)中,怎樣建立數(shù)據(jù)模型、怎樣充分利用系統(tǒng)中存儲(chǔ)的數(shù)據(jù)資源挖掘出所需的數(shù)據(jù),是系統(tǒng)成功建設(shè)的難點(diǎn)。
4) 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是決策支持系統(tǒng)中分析技術(shù)的更高層次,數(shù)據(jù)挖掘技術(shù)采用人工智能的決策分析方法,按照用戶既定的業(yè)務(wù)目標(biāo),對(duì)數(shù)據(jù)倉(cāng)庫(kù)中浩如煙海的數(shù)據(jù)進(jìn)行探索,揭示隱藏其中的規(guī)律,并進(jìn)一步將其模型化。
4. 數(shù)據(jù)倉(cāng)庫(kù)的用途
現(xiàn)代企業(yè)的運(yùn)營(yíng)很大程度上依賴于信息系統(tǒng)的支持,以客戶為中心的業(yè)務(wù)模式需要強(qiáng)大的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)提供信息支持,在業(yè)務(wù)處理流程中,數(shù)據(jù)倉(cāng)庫(kù)的作用體現(xiàn)在決策支持、客戶分段與評(píng)價(jià)以及市場(chǎng)自動(dòng)化等方面。
1) 決策支持
數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)提供各種業(yè)務(wù)數(shù)據(jù),用戶利用各種訪問工具從數(shù)據(jù)倉(cāng)庫(kù)獲取決策信息,了解業(yè)務(wù)的運(yùn)營(yíng)情況。關(guān)鍵性能指標(biāo)(Key Performance Indicator,KPI)用來量化企業(yè)的運(yùn)營(yíng)狀況,它可以反映企業(yè)在盈利、效率、發(fā)展等各方面的表現(xiàn),決策支持系統(tǒng)為用戶提供 KPI 數(shù)據(jù)。
構(gòu)造比較復(fù)雜的查詢以便發(fā)現(xiàn)潛在的問題和機(jī)會(huì),比如銷售渠道規(guī)劃、市場(chǎng)評(píng)估、競(jìng)爭(zhēng)對(duì)手評(píng)估、策略的制定與分析。構(gòu)造統(tǒng)計(jì)模型,對(duì)客戶或業(yè)務(wù)狀況進(jìn)行分析,甚至利用數(shù)據(jù)挖掘工具對(duì)業(yè)務(wù)發(fā)展和惡意透支進(jìn)行預(yù)測(cè)。
2) 客戶分段與評(píng)價(jià)
以客戶為中心的業(yè)務(wù)策略,最重要的特征是細(xì)分市場(chǎng),即把客戶或潛在客戶分為不同的類別,針對(duì)不同種類的客戶提供不同的產(chǎn)品和服務(wù),采用不同的市場(chǎng)和銷售策略。客戶的分段與評(píng)價(jià)是細(xì)分市場(chǎng)的主要手段。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中累積了大量的客戶數(shù)據(jù)可以作為分類和評(píng)價(jià)的依據(jù),而且數(shù)據(jù)訪問十分簡(jiǎn)單方便,建立在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)之上的客戶分段和評(píng)價(jià)系統(tǒng),可以達(dá)到事半功倍的效果。客戶分段是以客戶的某個(gè)或某幾個(gè)屬性進(jìn)行分類,比如年齡、地區(qū)、收入、學(xué)歷、消費(fèi)金額等或它們的組合。客戶評(píng)價(jià)是建立一個(gè)評(píng)分模型對(duì)客戶進(jìn)行評(píng)分,這樣可以綜合客戶各方面的屬性對(duì)客戶做出評(píng)價(jià),比如新產(chǎn)品推出前,可以建立一個(gè)模型,確定最可能接受新產(chǎn)品的潛在客戶。
3) 市場(chǎng)自動(dòng)化
決策支持幫助企業(yè)制定了產(chǎn)品和市場(chǎng)策略,客戶分段和評(píng)價(jià)為企業(yè)指出了目標(biāo)客戶的范圍,下一步是對(duì)這些客戶展開市場(chǎng)攻勢(shì)。市場(chǎng)自動(dòng)化的最主要內(nèi)容是促銷管理。促銷管理的功能包括:提供目標(biāo)客戶的列表,指定客戶接觸的渠道,指定促銷的產(chǎn)品、服務(wù)或活動(dòng),確定與其他活動(dòng)的關(guān)系。
綜上所述,數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)已經(jīng)成為現(xiàn)代化企業(yè)必不可少的基礎(chǔ)設(shè)施之一,它是現(xiàn)代企業(yè)運(yùn)營(yíng)支撐體系的重要組成,是企業(yè)對(duì)市場(chǎng)需求快速準(zhǔn)確響應(yīng)的有力保證。隨著中國(guó)加入 WTO,國(guó)際巨頭進(jìn)軍中國(guó)市場(chǎng),國(guó)內(nèi)企業(yè)面臨的競(jìng)爭(zhēng)將越來越激烈和殘酷,數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)是傳統(tǒng)企業(yè)迎接挑戰(zhàn)的重要力量。