2016年初,谷歌圍棋Alpha Go以4:1的成績(jī)戰(zhàn)勝了人類(lèi)圍棋世界冠軍李世石,引起全世界的關(guān)注,這標(biāo)志著人工智能的發(fā)展進(jìn)入了一個(gè)全新的階段。近幾年來(lái),人工智能得到飛速的發(fā)展,在很多領(lǐng)域如圖像識(shí)別、語(yǔ)音識(shí)別等方面取得了突破性的進(jìn)步。人工智能的研究也得到全世界學(xué)術(shù)界和產(chǎn)業(yè)界的高度關(guān)注,進(jìn)入了一個(gè)新的高潮期。種種跡象表明,人類(lèi)進(jìn)入全方位智能時(shí)代已經(jīng)為期不遠(yuǎn)了。所有這一切幾乎均得益于神經(jīng)網(wǎng)絡(luò)的新技術(shù)——深度學(xué)習(xí)的發(fā)現(xiàn)和發(fā)展(非常有趣的是人工智能的幾次高潮均來(lái)自神經(jīng)網(wǎng)絡(luò)的進(jìn)步,可見(jiàn)神經(jīng)網(wǎng)絡(luò)的生命力)。深度學(xué)習(xí)的概念由Hinton等于2006年提出,在近年來(lái)已經(jīng)逐漸成為機(jī)器學(xué)習(xí)的主流技術(shù),在多數(shù)應(yīng)用領(lǐng)域的性能明顯超出已有技術(shù)。
機(jī)器學(xué)習(xí)包括監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。目前的深度學(xué)習(xí)基本上只帶來(lái)監(jiān)督學(xué)習(xí)的進(jìn)步,但僅靠監(jiān)督學(xué)習(xí)是無(wú)法實(shí)現(xiàn)完整的人工智能的。作為智能系統(tǒng),監(jiān)督學(xué)習(xí)似乎足夠“能”而不足夠“智”。足夠“能”體現(xiàn)為它能夠在大數(shù)據(jù)中挖掘知識(shí),這甚至是人腦做不到的。事實(shí)上人腦并不是處理大數(shù)據(jù)的系統(tǒng),人類(lèi)在任何領(lǐng)域所掌握的知識(shí)均有限,例如,每個(gè)人僅認(rèn)識(shí)數(shù)干個(gè)漢字或單詞。不足夠“智”體現(xiàn)為監(jiān)督學(xué)習(xí)需要大量人工標(biāo)記的訓(xùn)練樣本。人腦的學(xué)習(xí)并不需要大量的樣本訓(xùn)練,人類(lèi)是在沒(méi)有指導(dǎo)或少量指導(dǎo)的條件下獲得知識(shí)的,而且人腦會(huì)不斷地學(xué)習(xí)并強(qiáng)化自己在各個(gè)領(lǐng)域的知識(shí)。人類(lèi)在有限知識(shí)的基礎(chǔ)上體現(xiàn)出驚人的創(chuàng)造力。類(lèi)似人腦的智能系統(tǒng)更需要無(wú)監(jiān)督學(xué)習(xí)、小樣本學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和遷移學(xué)習(xí)等功能。因此,人工智能的發(fā)展仍然任重而道遠(yuǎn)。
本書(shū)討論聚類(lèi)技術(shù)。聚類(lèi)是無(wú)監(jiān)督學(xué)習(xí)的主要內(nèi)容,在很多文獻(xiàn)中人們甚至把聚類(lèi)和無(wú)監(jiān)督學(xué)習(xí)兩個(gè)概念等價(jià)使用。聚類(lèi)一直是機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、模式識(shí)別等領(lǐng)域的重要組成內(nèi)容,近年來(lái)更得到高度重視。2015年,中國(guó)人工智能學(xué)會(huì)理事長(zhǎng)李德毅院士在“新一代信息技術(shù)產(chǎn)業(yè)發(fā)展高峰論壇”上指出:“人類(lèi)的認(rèn)知科學(xué)要想有所突破,首先就要在大數(shù)據(jù)聚類(lèi)上取得突破,聚類(lèi)是挖掘大數(shù)據(jù)資產(chǎn)價(jià)值的第一步!蓖辏疃葘W(xué)習(xí)的領(lǐng)軍人物L(fēng)ecun、Bengio和Hinton在Nature上的綜述指出:“人和動(dòng)物的學(xué)習(xí)很大程度上是無(wú)監(jiān)督的:我們通過(guò)觀察發(fā)現(xiàn)世界的結(jié)構(gòu),而不是對(duì)每個(gè)物體命名!
那么什么是聚類(lèi)呢?《周易·系辭上》說(shuō):“方以類(lèi)聚,物以群分,吉兇生矣。”自然的事物總是按一定的規(guī)律組織起來(lái)的,人們通過(guò)認(rèn)識(shí)這些組織的結(jié)構(gòu)特征獲得知識(shí),從而做出決策。以生物為例(我們這個(gè)世界是因?yàn)橛猩锒顫娚鷦?dòng)的),人們根據(jù)生物的相似程度(包括形態(tài)結(jié)構(gòu)和生理功能等),把生物劃分為種和屬等不同的等級(jí),并對(duì)每一類(lèi)群的形態(tài)結(jié)構(gòu)和生理功能等特征進(jìn)行科學(xué)的描述,以弄清不同類(lèi)群之間的親緣關(guān)系和進(jìn)化關(guān)系。相信很多人小時(shí)候?qū)W習(xí)生物時(shí)都會(huì)驚訝于鯨居然是哺乳動(dòng)物而不是魚(yú),貓和老虎是同一科等。
和分類(lèi)(監(jiān)督學(xué)習(xí)的主要任務(wù))不同,聚類(lèi)是在無(wú)標(biāo)記樣本的條件下將數(shù)據(jù)分組,從而發(fā)現(xiàn)數(shù)據(jù)的天然結(jié)構(gòu)。聚類(lèi)在數(shù)據(jù)分析中扮演重要的角色,它通常被用于以下三個(gè)方面。
。1)發(fā)現(xiàn)數(shù)據(jù)的潛在結(jié)構(gòu):深入洞察數(shù)據(jù)、產(chǎn)生假設(shè)、檢測(cè)異常、確定主要特征。
(2)對(duì)數(shù)據(jù)進(jìn)行自然分組:確定不同組織之間的相似程度(系統(tǒng)關(guān)系)。
。3)對(duì)數(shù)據(jù)進(jìn)行壓縮:將聚類(lèi)原型作為組織和概括數(shù)據(jù)的方法。
這幾個(gè)方面的功能使聚類(lèi)既可以作為預(yù)處理程序,又可以作為獨(dú)立的數(shù)據(jù)分析工具。
聚類(lèi)是典型的交叉學(xué)科,在很多領(lǐng)域有廣泛的應(yīng)用,其研究已有60多年的歷史。生物分類(lèi)學(xué)者、社會(huì)學(xué)者、哲學(xué)家、生物學(xué)家、統(tǒng)計(jì)學(xué)家、數(shù)學(xué)家、工程師、計(jì)算機(jī)科學(xué)家、醫(yī)學(xué)研究者等眾多收集和處理實(shí)際數(shù)據(jù)的工作者都對(duì)聚類(lèi)方法做出了貢獻(xiàn)。在不同的領(lǐng)域,聚類(lèi)還可能被稱(chēng)為Q-分析、拓?fù)洹⒛Y(jié)、分類(lèi)等。聚類(lèi)的概念最早出現(xiàn)在1954年的一篇處理人類(lèi)學(xué)數(shù)據(jù)的論文中。自此開(kāi)始,聚類(lèi)一直是相關(guān)領(lǐng)域重要的研究?jī)?nèi)容之一。2009年,有人用谷歌學(xué)術(shù)搜索做過(guò)統(tǒng)計(jì),發(fā)現(xiàn)僅2007年一年就有1660個(gè)包含“數(shù)據(jù)聚類(lèi)”的條目。幾十年來(lái)有數(shù)以萬(wàn)計(jì)的文獻(xiàn)討論聚類(lèi)算法及其在科學(xué)和工程領(lǐng)域的應(yīng)用,這充分說(shuō)明聚類(lèi)對(duì)數(shù)據(jù)分析的重要性。
序
前言
符號(hào)表
1 概述
1.1 問(wèn)題描述
1.2 方法進(jìn)展
1.2.1 經(jīng)典算法
1.2.2 高級(jí)算法
1.2.3 多源數(shù)據(jù)算法
1.3 半監(jiān)督聚類(lèi)
1.4 數(shù)據(jù)類(lèi)型
1.4.1 屬性數(shù)據(jù)
1.4.2 離散序列數(shù)據(jù)
1.4.3 時(shí)間序列數(shù)據(jù)
1.4.4 文本數(shù)據(jù)
1.4.5 多媒體數(shù)據(jù)
1.4.6 流數(shù)據(jù)
1.4.7 各類(lèi)數(shù)據(jù)聚類(lèi)技術(shù)匯總
1.5 衍生問(wèn)題
1.5.1 特征選擇
1.5.2 測(cè)度學(xué)習(xí)
1.5.3 聚類(lèi)集成
1.5.4 軟聚類(lèi)
1.5.5 多解聚類(lèi)
1.5.6 聚類(lèi)驗(yàn)證
1.5.7 可視化與交互聚類(lèi)
1.6 新的挑戰(zhàn)
1.6.1 大數(shù)據(jù)聚類(lèi)
1.6.2 多模數(shù)據(jù)聚類(lèi)
1.6.3 深度聚類(lèi)
1.7 結(jié)論
參考文獻(xiàn)
2 基于模型的聚類(lèi)
2.1 混合模型
2.1.1 混合模型簡(jiǎn)介
2.1.2 高斯混合模型
2.1.3 伯努利混合模型
2.1.4 混合模型選擇
2.2 期望最大化算法
2.2.1 詹森不等式
2.2.2 期望最大化算法分析
2.2.3 期望最大化算法框架
2.2.4 期望最大化擴(kuò)展算法
2.3 求解高斯混合模型
2.4 求解伯努利混合模型
參考文獻(xiàn)
3 基于劃分的聚類(lèi)算法
3.1 劃分方法概述
3.2 k-均值算法
3.2.1 目標(biāo)函數(shù)
3.2.2 算法流程
3.2.3 性能分析
3.2.4 k的選擇
3.2.5 初始中心點(diǎn)選擇
3.3 類(lèi)k-均值算法
3.3.1 k-中心點(diǎn)算法
3.3.2 k-中值算法
3.3.3 k-modes算法
3.3.4 模糊k-均值算法
3.3.5 核k-均值算法
3.3.6 二分k-均值算法
3.4 改進(jìn)的k-均值算法
3.4.1 改進(jìn)的k-均值算法概述
3.4.2 基于邊界值的k-均值算法
3.4.3 陰陽(yáng)k-均值算法
3.4.4 基于塊向量的加速k-均值算法
參考文獻(xiàn)
4 基于密度的聚類(lèi)算法
4.1 密度算法概述
4.2 DBSCAN算法
4.2.1 基本定義及算法流程
4.2.2 算法分析
4.3 OPTICS算法
4.3.1 基本定義及算法流程
4.3.2 算法分析
4.4 DENCLUE算法
……
5 基于網(wǎng)格的聚類(lèi)算法
6 層次聚類(lèi)算法
7 半監(jiān)督聚類(lèi)
8 譜聚類(lèi)
9 基于非負(fù)矩陣分解的聚類(lèi)
10 高維數(shù)據(jù)聚類(lèi)
11 圖聚類(lèi)
12 不確定數(shù)據(jù)聚類(lèi)
13 多源相關(guān)數(shù)據(jù)聚類(lèi)
后記
彩版