《計算機科學(xué)叢書:機器學(xué)習(xí)基礎(chǔ)教程》介紹機器學(xué)習(xí)技術(shù)及應(yīng)用的主要算法,重點講述理解主流的機器學(xué)習(xí)算法所需的核心數(shù)學(xué)和統(tǒng)計知識。書中介紹的算法涵蓋機器學(xué)習(xí)的主要問題:分類、聚類和投影。由于本書是機器學(xué)習(xí)基礎(chǔ)課程的教材,所以盡量減少了數(shù)學(xué)難度,僅對一小部分重要算法給出詳細(xì)的描述和推導(dǎo),而對大部分算法僅給出簡單介紹,目的在于使學(xué)生打好基礎(chǔ),增強信心和興趣,鼓勵他們進(jìn)一步學(xué)習(xí)該領(lǐng)域的高級主題或從事相關(guān)研究工作。
《計算機科學(xué)叢書:機器學(xué)習(xí)基礎(chǔ)教程》是機器學(xué)習(xí)導(dǎo)論課程教材,適合作為計算機、自動化及相關(guān)專業(yè)高年級本科生或研究生的教材,也可供研究人員和工程技術(shù)人員參考。
目前機器學(xué)習(xí)日益成為計算機科學(xué)重要的實踐、研究與開發(fā)領(lǐng)域之一,一方面這反映在它的學(xué)術(shù)研究規(guī)模上,另一方面反映在新的機器學(xué)習(xí)從業(yè)人員遍布于主要的國際銀行和金融機構(gòu),以及微軟、谷歌、雅虎和亞馬遜等公司。
從某種角度來講,這種發(fā)展源于人們對世界認(rèn)知方式的數(shù)量和種類的增加。一個特別顯著的例子是,在首個基因組測序完成之前,不斷涌現(xiàn)出了各種生物檢測新技術(shù)。不久前,檢測生物體的復(fù)雜分子狀態(tài)是難以想象的,因為這已經(jīng)遠(yuǎn)遠(yuǎn)超出了我們的認(rèn)識能力,F(xiàn)在,機器學(xué)習(xí)方法在生物體中有用分子結(jié)構(gòu)提取方面的廣泛應(yīng)用,使其成為可能。
本書改編自英國格拉斯哥大學(xué)計算機科學(xué)學(xué)院機器學(xué)習(xí)課程的講義,該課程包括20學(xué)時的授課和10學(xué)時的實驗,面向高年級本科生開設(shè)并由研究生講授。如此少的教學(xué)時數(shù)不可能涵蓋機器學(xué)習(xí)所有的內(nèi)容,所以該課的目的是為理解流行的機器學(xué)習(xí)算法提供核心數(shù)學(xué)知識和統(tǒng)計技術(shù),并描述其中部分算法,這些算法涵蓋了機器學(xué)習(xí)中的分類、聚類和投影等主要問題。通過本課程的學(xué)習(xí),學(xué)生應(yīng)該具備通過考察機器學(xué)習(xí)相關(guān)文獻(xiàn)來尋求適合他們所需方法的知識和能力,希望本書的讀者也能做到這一點。
鑒于選學(xué)該課學(xué)生的數(shù)學(xué)水平參差不齊,我們只假定需要很少的數(shù)學(xué)知識,計算機科學(xué)、工程類、物理學(xué)(或其他數(shù)值處理類學(xué)科)的本科生閱讀本書應(yīng)該沒有問題,沒有以上經(jīng)歷的讀者也可以閱讀本書,因為穿插在文中的注解框內(nèi)給出了相應(yīng)的數(shù)學(xué)解釋。此外,突出強調(diào)了重要公式(公式加陰影),在繼續(xù)閱讀前,花些時間理解這些公式是值得的。
選學(xué)該課的學(xué)生通常會發(fā)現(xiàn)其中的實踐環(huán)節(jié)非常有用,實驗有助于將涉及的各種算法和概念由抽象的等式轉(zhuǎn)化為解決實際問題的工具。
最后,本書選擇的機器學(xué)習(xí)方法是我們認(rèn)為學(xué)生應(yīng)該掌握的,在有限的篇幅和時間內(nèi),更有必要給出一小部分算法的詳細(xì)描述和研究進(jìn)展,而不是泛泛地描述許多算法,因而多數(shù)讀者在本書中可能找不到他們最喜歡的算法!
Simon Rogers
Mark Girolami
作者:(英)羅杰斯、吉羅拉米 譯者:郭茂祖、王春宇、劉揚、劉曉燕
Simon Rogers英國格拉斯哥大學(xué)計算機科學(xué)學(xué)院講師,主講碩士生的機器學(xué)習(xí)課程。Rogers博士是機器學(xué)習(xí)領(lǐng)域的一位活躍研究者,研究興趣包括代謝組學(xué)數(shù)據(jù)分析和概率機器學(xué)習(xí)技術(shù)在人機交互領(lǐng)域的應(yīng)用。
Mark Girolami英國倫敦大學(xué)學(xué)院(UCL)統(tǒng)計系主任和計算機科學(xué)系榮譽教授,并擔(dān)任計算統(tǒng)計學(xué)和機器學(xué)習(xí)研究中心主任。他還是英國統(tǒng)計協(xié)會研究組成員,英國工程和科學(xué)研究委員會高級研究員,英國工程技術(shù)學(xué)會會員,愛丁堡皇家學(xué)會院士。
出版者的話
譯者序
前言
第1章 線性建模:最小二乘法
1.1 線性建模
1.1.1 定義模型
1.1.2 模型假設(shè)
1.1.3 定義什么是好的模型
1.1.4 最小二乘解:一個有效的例子
1.1.5 有效的例子
1.1.6 奧運會數(shù)據(jù)的最小二乘擬合
1.1.7 小結(jié)
1.2 預(yù)測
1.2.1 第二個奧運會數(shù)據(jù)集
1.2.2 小結(jié)
1.3 向量/矩陣符號
1.3.1 例子
1.3.2 數(shù)值的例子
1.3.3 預(yù)測
1.3.4 小結(jié)
1.4 線性模型的非線性響應(yīng)
1.5 泛化與過擬合
1.5.1 驗證數(shù)據(jù)
1.5.2 交叉驗證
1.5.3 K折交叉驗證的計算縮放
1.6 正則化最小二乘法
1.7 練習(xí)
其他閱讀材料
第2章 線性建模:最大似然方法
2.1 誤差作為噪聲
2.2 隨機變量和概率
2.2.1 隨機變量
2.2.2 概率和概率分布
2.2.3 概率的加法
2.2.4 條件概率
2.2.5 聯(lián)合概率
2.2.6 邊緣化
2.2.7 貝葉斯規(guī)則介紹
2.2.8 期望值
2.3 常見的離散分布
2.3.1 伯努利分布
2.3.2 二項分布
2.3.3 多項分布
2.4 連續(xù)型隨機變量--概率密度函數(shù)
2.5 常見的連續(xù)概率密度函數(shù)
2.5.1 均勻密度函數(shù)
2.5.2 β密度函數(shù)
2.5.3 高斯密度函數(shù)
2.5.4 多元高斯
2.5.5 小結(jié)
2.6 產(chǎn)生式的考慮(續(xù))
2.7 似然估計
2.7.1 數(shù)據(jù)集的似然值
2.7.2 最大似然
2.7.3 最大似然解的特點
2.7.4 最大似然法適用于復(fù)雜模型
2.8 偏差方差平衡問題
2.9 噪聲對參數(shù)估計的影響
2.9.1 參數(shù)估計的不確定性
2.9.2 與實驗數(shù)據(jù)比較
2.9.3 模型參數(shù)的變異性--奧運會數(shù)據(jù)
2.10 預(yù)測值的變異性
2.10.1 預(yù)測值的變異性--一個例子
2.10.2 估計值的期望值
2.10.3 小結(jié)
2.11 練習(xí)
其他閱讀材料
第3章 機器學(xué)習(xí)的貝葉斯方法
3.1 硬幣游戲
3.1.1 計算正面朝上的次數(shù)
3.1.2 貝葉斯方法
3.2 精確的后驗
3.3 三個場景
3.3.1 沒有先驗知識
3.3.2 公平的投幣
3.3.3 有偏的投幣
3.3.4 三個場景--總結(jié)
3.3.5 增加更多的數(shù)據(jù)
3.4 邊緣似然估計
3.5 超參數(shù)
3.6 圖模型
3.7 奧運會100米數(shù)據(jù)的貝葉斯處理實例
3.7.1 模型
3.7.2 似然估計
3.7.3 先驗概率
3.7.4 后驗概率
3.7.5 1階多項式
3.7.6 預(yù)測
3.8 邊緣似然估計用于多項式模型階的選擇
3.9 小結(jié)
3.10 練習(xí)
其他閱讀材料
第4章 貝葉斯推理
4.1 非共軛模型
4.2 二值響應(yīng)
4.3 點估計:最大后驗估計方案
4.4 拉普拉斯近似
4.4.1 拉普拉斯近似實例:近似γ密度
4.4.2 二值響應(yīng)模型的拉普拉斯近似
4.5 抽樣技術(shù)
4.5.1 玩飛鏢游戲
4.5.2 Metropolis-Hastings算法
4.5.3 抽樣的藝術(shù)
4.6 小結(jié)
4.7 練習(xí)
其他閱讀材料
第5章 分類
5.1 一般問題
5.2 概率分類器
5.2.1 貝葉斯分類器
5.2.2 邏輯回歸
5.3 非概率分類器
5.3.1 K近鄰算法
5.3.2 支持向量機和其他核方法
5.3.3 小結(jié)
5.4 評價分類器的性能
5.4.1 準(zhǔn)確率--0/1損失
5.4.2 敏感性和特異性
5.4.3 ROC曲線下的區(qū)域
5.4.4 混淆矩陣
5.5 判別式和產(chǎn)生式分類器
5.6 小結(jié)
5.7 練習(xí)
其他閱讀材料
第6章 聚類分析
6.1 一般問題
6.2 K均值聚類
6.2.1 聚類數(shù)目的選擇
6.2.2 K均值的不足之處
6.2.3 核化K均值
6.2.4 小結(jié)
6.3 混合模型
6.3.1 生成過程
6.3.2 混合模型似然函數(shù)
6.3.3 EM算法
6.3.4 例子
6.3.5 EM尋找局部最優(yōu)
6.3.6 組分?jǐn)?shù)目的選擇
6.3.7 混合組分的其他形式
6.3.8 用EM估計MAP
6.3.9 貝葉斯混合模型
6.4 小結(jié)
6.5 練習(xí)
其他閱讀材料
第7章 主成分分析與隱變量模型
7.1 一般問題
7.2 主成分分析
7.2.1 選擇D
7.2.2 PCA的局限性
7.3 隱變量模型
7.3.1 隱變量模型中的混合模型
7.3.2 小結(jié)
7.4 變分貝葉斯
7.4.1 選擇Q(θ)
7.4.2 優(yōu)化邊界
7.5 PCA的概率模型
7.5.1 Qτ(τ)
7.5.2 Qxn(xn)
7.5.3 Qwn(wm)
7.5.4 期望值要求
7.5.5 算法
7.5.6 例子
7.6 缺失值
7.6.1 缺失值作為隱變量
7.6.2 預(yù)測缺失值
7.7 非實值數(shù)據(jù)
7.7.1 概率PPCA
7.7.2 議會數(shù)據(jù)可視化
7.8 小結(jié)
7.9 練習(xí)
其他閱讀材料
詞匯表
索引
1.4節(jié)提出了1階與8階多項式哪個更好的問題。假定原來建立這些模型的目的是做預(yù)測,那么不難理解最好的模型就是可以使預(yù)測最精確的那個,即可以泛化訓(xùn)練樣本以外數(shù)據(jù)的模型(例如,到2008年的奧運會數(shù)據(jù))。理想情況下,我們更喜歡選擇在不可見數(shù)據(jù)上性能最好的模型(即最小化損失),但是由于問題本身的原因,數(shù)據(jù)無法得到。
圖1-10表明,可應(yīng)用訓(xùn)練數(shù)據(jù)上的損失選擇用于預(yù)測的模型。曲線顯示訓(xùn)練數(shù)據(jù)上8階多項式擬合男子100米數(shù)據(jù)的損失比1階多項式更低。而8階多項式對于未來奧運會的預(yù)測非常糟糕;8階多項式的模型過于關(guān)注訓(xùn)練數(shù)據(jù)(過擬合),因此不能很好地泛化新數(shù)據(jù)。由于模型越來越復(fù)雜,所以也越來越逼近可觀測數(shù)據(jù)。不幸的是,當(dāng)超過某點,預(yù)測的質(zhì)量就會迅速退化。為了克服過擬合,能夠很好地泛化,確定最優(yōu)模型的復(fù)雜度將會非常有挑戰(zhàn)性。這個折中問題經(jīng)常被認(rèn)為是偏置一方差平衡,將在2.8節(jié)中簡單地介紹。
1.5.1 驗證數(shù)據(jù)
克服過擬合問題的一般方法是使用第二個數(shù)據(jù)集,即驗證集。用驗證集來驗證模型的預(yù)測性能。驗證數(shù)據(jù)可以單獨提供或者從原始訓(xùn)練集中拿出一部分。例如,在100米數(shù)據(jù)中,可以從訓(xùn)練集中拿出1980年以后的所有奧運會數(shù)據(jù)作為驗證集。為了進(jìn)行模型選擇,可以在縮小的訓(xùn)練集上訓(xùn)練每一個模型,然后計算它們在驗證集上的損失。圖1-12a、b依次給出了訓(xùn)練和(10g)驗證損失的曲線。訓(xùn)練損失隨著多項式階(模型復(fù)雜度)的增加單調(diào)遞減。而驗證損失隨著多項式階的增加而快速增長,這表明1階多項式有最好的泛化能力,能夠產(chǎn)生最可靠的預(yù)測。很容易測試這個假設(shè)。在圖113中,可以看到數(shù)據(jù)集(已標(biāo)記的訓(xùn)練集和驗證集)與1階、4階和8階多項式函數(shù)(MATLAB腳本:olympval.m)。1979年已經(jīng)執(zhí)行了這個任務(wù),很明顯1階模型的確能夠給出最好的預(yù)測。
……