《復(fù)雜數(shù)據(jù)分析方法及其應(yīng)用研究》主要從數(shù)據(jù)挖掘與商務(wù)智能的角度,系統(tǒng)地介紹了如何利用復(fù)雜數(shù)據(jù)分析的相關(guān)理論和方法來提升復(fù)雜事件的識別和預(yù)測的效果,同時(shí)還結(jié)合實(shí)際應(yīng)用問題說明了復(fù)雜數(shù)據(jù)分析的應(yīng)用過程。主要內(nèi)容包括復(fù)雜數(shù)據(jù)分析方法綜述、基于局部支持向量數(shù)據(jù)描述的復(fù)雜數(shù)據(jù)分析算法研究、類重疊問題及其處理方法研究、一致性分類方法研究和復(fù)雜概念分析應(yīng)用研究等。
《復(fù)雜數(shù)據(jù)分析方法及其應(yīng)用研究》可供從事數(shù)據(jù)挖掘與商務(wù)智能研究和應(yīng)用的科研人員及高等院校信息管理與信息系統(tǒng)專業(yè)、管理科學(xué)與工程等相關(guān)專業(yè)師生參考使用。
復(fù)雜事件如金融欺詐、網(wǎng)絡(luò)入侵、設(shè)備故障等是各類組織長期關(guān)注的管理難題,其突發(fā)性和破壞性可能給組織帶來難以估量的損失。在實(shí)踐需求的推動(dòng)下,復(fù)雜數(shù)據(jù)分析研究迅速成為數(shù)據(jù)挖掘領(lǐng)域的熱點(diǎn)問題,并廣泛應(yīng)用于網(wǎng)絡(luò)入侵檢測、C2C電子商務(wù)共謀欺詐識別等實(shí)踐問題。現(xiàn)有的復(fù)雜數(shù)據(jù)分析方法往往將問題局限在數(shù)據(jù)表面特征問題上,忽略了數(shù)據(jù)的固有結(jié)構(gòu)特點(diǎn),只能在一定程度上解決復(fù)雜數(shù)據(jù)分析問題,當(dāng)將其應(yīng)用于復(fù)雜結(jié)構(gòu)數(shù)據(jù),或者稱為數(shù)據(jù)中的復(fù)雜概念時(shí),往往效果欠佳。
本書的目的是期望對復(fù)雜數(shù)據(jù)分析的方法及其應(yīng)用等進(jìn)行系統(tǒng)研究。全書共分6章,內(nèi)容安排如下:
第1章對復(fù)雜數(shù)據(jù)分析的背景知識和相關(guān)研究分析方法進(jìn)行了介紹,分別從類不均衡問題、類重疊問題和集成學(xué)習(xí)問題三個(gè)角度進(jìn)行了闡述。同時(shí)還對本書采用的研究方法、研究內(nèi)容和結(jié)構(gòu)進(jìn)行了說明。第2章對相關(guān)方法進(jìn)行了綜述,主要包括復(fù)雜數(shù)據(jù)分析的理論研究、算法研究和評價(jià)指標(biāo)研究。第3章介紹了基于局部支持向量數(shù)據(jù)描述的復(fù)雜數(shù)據(jù)分析方法,針對每個(gè)類別的樣本進(jìn)行單類學(xué)習(xí)獲得單類模型,然后利用單類模型確定類重疊區(qū)域,并針對類重疊區(qū)域進(jìn)行局部單類學(xué)習(xí),最后優(yōu)化綜合分類模型,從而獲得對數(shù)據(jù)邊界描述更加精確的模型,提高復(fù)雜數(shù)據(jù)分析精度。第4章系統(tǒng)地研究了分類中的類重疊問題,討論類重疊問題及其處理方法研究,提出了四種類重疊學(xué)習(xí)算法,分別是舍棄法、合并法、層次法和分隔法。第5章主要介紹了一致性分類方法,在AdaBoost的基礎(chǔ)上提出一種基于局部聚類的組合復(fù)雜數(shù)據(jù)分析方法,通過局部聚類將數(shù)據(jù)轉(zhuǎn)換成較為均衡的形式,然后通過改進(jìn)權(quán)重更新機(jī)制的Ada-Boost算法進(jìn)行學(xué)習(xí)。討論了知識地圖的相關(guān)概念和知識地圖在知識檢索中的應(yīng)用等內(nèi)容。第6章則以實(shí)際應(yīng)用為背景,對復(fù)雜數(shù)據(jù)分析方法的應(yīng)用進(jìn)行了研究,利用實(shí)際的網(wǎng)絡(luò)入侵檢測和C2C電子商務(wù)共謀欺詐數(shù)據(jù)集對復(fù)雜數(shù)據(jù)分析方法的應(yīng)用過程進(jìn)行了介紹。最后對本書介紹的復(fù)雜數(shù)據(jù)分析方法及其應(yīng)用研究進(jìn)行了系統(tǒng)的歸納總結(jié)。
第一章 緒論
1.1 背景介紹
1.1.1 類不均衡問題
1.1.2 類重疊問題
1.1.3 集成學(xué)習(xí)問題
1.2 相關(guān)研究分析
1.2.1 復(fù)雜數(shù)據(jù)研究分析
1.2.2 類重疊問題研究分析
1.2.3 集成學(xué)習(xí)研究分析
1.3 研究意義與目的
1.4 研究方法與研究內(nèi)容
1.4.1 研究方法
1.4.2 研究內(nèi)容與本書結(jié)構(gòu)
第二章 相關(guān)研究綜述
2.1 復(fù)雜數(shù)據(jù)分析的理論研究
2.2 復(fù)雜數(shù)據(jù)分析的算法研究
2.2.1 重抽樣
2.2.2 成本敏感學(xué)習(xí)
2.2.3 集成學(xué)習(xí)方法
2.2.4 劃分方法
2.2.5 調(diào)整歸納偏置
2.2.6 單類學(xué)習(xí)
2.2.7 特征選擇方法
2.2.8 其他方法
2.3 復(fù)雜數(shù)據(jù)分析的評價(jià)指標(biāo)研究
2.3.1 點(diǎn)指標(biāo)
2.3.2 圖指標(biāo)
2.4 本章小結(jié)
第三章 基于局部支持向量數(shù)據(jù)描述的復(fù)雜數(shù)據(jù)分析算法研究
3.1 引言
3.2 數(shù)據(jù)固有結(jié)構(gòu)對復(fù)雜數(shù)據(jù)分析算法的影響
3.3 支持向量數(shù)據(jù)描述的原理及算法
3.4 基于局部支持向量數(shù)據(jù)描述的復(fù)雜數(shù)據(jù)分析算法
3.5 本章小結(jié)
第四章 類重疊問題及其處理方法研究
4.1 引言
4.2 基本分類算法介紹
4.2.1 樸素貝葉斯(NB)
4.2.2 K最近鄰法(k-NN)
4.2.3 支持向量機(jī)(SVMs)
4.2.4 決策樹C4.5
4.2.5 規(guī)則分類器(RIPPER)
4.3 類重疊問題對分類的影響
4.4 類重疊學(xué)習(xí)框架
4.4.1 SVDD:重疊區(qū)域識別方法
4.4.2 NB:重疊區(qū)域識別方法
4.4.3 類重疊問題的處理算法
4.5 基于SVMs的分析
……
第五章 一致性分類方法研究
第六章 復(fù)雜數(shù)據(jù)分析應(yīng)用研究
結(jié)論
參考文獻(xiàn)