《數據挖掘中的集成方法:通過集成預測來提升精度》討論基于決策樹的集成,分析被視為當前現代集成算法高級性能的主要原因之一的正則化問題,描述集成方法領域近年來的兩個發展——重要性采樣(IS)和規則集成(RE),論述新數據信息集成在復雜性和更高精度方面的悖論等重要命題。《數據挖掘中的集成方法:通過集成預測來提升精度》面向前沿、文字簡練、論述充分、可讀性好。
Giovanni Seni,Seni是Elder Research公司的資深科學家,負責該公司的西部辦公室。作為硅谷活躍的數據挖掘領域的踐行者,他在統計模式識別、數據挖掘及人機交互應用領域具有逾1 5年的研發經歷。他既是大企業的技術人員,又是一些小規模企業的貢獻者。他擁有五項美國專利,發表了20余篇學術論文。
Seni是圣塔克拉拉大學計算機工程系兼職教師,教授“模式識別與數據挖掘導論”課程。
他于1989年在洛斯安第斯大學(波哥大,哥倫比亞)獲得計算機工程學士學位,1995年在紐約州立大學布法羅分校獲得計算機博士學位,是該校富布萊特學者。他還在斯坦福大學統計系獲得數據挖掘及應用證書。
John Elder,Elder博士就職于Charlottesville,Virginia,Washington DC和Mountain View,California的數據挖掘咨詢組。艾德研究公司成立于1995年,聚焦于聯邦、商業、投資、安全領域的高級分析,包括文本挖掘、股票選擇、圖像識別、生物信息學、過程優化、交叉銷售、藥物功效、信用評分、風險管理和贗偽檢測。ERI公司已成為最大、最有經驗的數據挖掘咨詢企業。
Elder于萊斯大學獲得電氣工程學士學位和電子電氣碩士學位,在弗吉尼亞大學獲得系統工程專業博士學位,他是該校數據挖掘課程的兼職教授。在赴ERI的前15年,他在航空國防咨詢界工作了5年,在一家投資管理公司任職4年,在萊斯大學計算與應用數學系任職2年。
Elder博士開發了創新性的數據挖掘工具,他本人是一位著名的特約報告人,也是在巴黎召開的“2009 Knowledge Discovery and Data Mining”會議的共同主席。他在許多大學、公司和政府實驗室教授的分析技術課程以明晰性和有效性著稱。Elder在一個由總統任命的委員會服務了5年——為國家安全作技術指導。他與Bob Nisbet、Gary Miner合著的面向實際工作者的獲獎書籍——《統計分析與數據控據應用手冊》于2009年5月出版。
譯者序
原書序一
原書序二
摘要
第1章 集成發現
1.1 建立集成
1.2 正則化
1.3 現實世界中的實例:信用評分+網飛挑戰
1.4 本書的組織架構
第2章 預測學習和決策樹
2.1 決策樹歸納縱覽
2.2 決策樹的性能
2.3 決策樹的缺陷
第3章 模型復雜度?模型選擇和正則化
3.1 什么是樹的“合適”規模
3.2 偏差-方差分解
3.3 正則化
3.3.1 正則化與成本-復雜度樹修剪
3.3.2 交叉驗證
3.3.3 運用收縮的正則化
3.3.4 通過構建增量模型的正則化
3.3.5 實例
3.3.6 正則化綜述
第4章 重要性采樣和經典集成方法
4.1 重要性采樣
4.1.1 參數重要性測度
4.1.2 擾動采樣
4.2 泛化集成生成
4.3 Bagging
4.3.1 實例
4.3.2 為什么Bagging有用
4.4 隨機森林
4.5 AdaBoost
4.5.1 實例
4.5.2 為什么使用指數損失
4.5.3 AdaBoost的總體最小值
4.6 梯度Boosting
4.7 MART
4.8 并行集成與順序集成的比較
第5章 規則集成和解釋統計
5.1 規則集成
5.2 解釋
5.2.1 仿真數據實例
5.2.2 變量重要性
5.2.3 偏相關
5.2.4 交互統計
5.3 制造業數據實例
5.4 總結
第6章 集成復雜性
6.1 復雜性
6.2 廣義自由度
6.3 實例:帶有噪聲的決策樹表面
6.4 廣義自由度的R代碼和實例
6.5 總結與討論
參考文獻
附錄A AdaBoost與FSF程序的等價性
附錄B 梯度Boosting和魯棒損失函數
《數據挖掘中的集成方法:通過集成預測來提升精度》:
第1章 集成發現
And in a multitude of counselors there is safety Proverbs24:6b
從數據中歸納模型,可找到大量經典方法,而且其處理能力各具特色,流行算法的精度依賴所處理問題的細節,如圖1.1所示(Elder和Lee(1997)),該圖揭示了五種算法用于六個公共領域問題的樣本外相對誤差,總體來說,神經網絡模型對這些問題表現最優,但需指出,每種算法都在六個數據集中的至少兩個上表現最優或次優。圖1.1五種算法用于六個公共領域問題的非樣本外相對誤差(基于Elder和Lee(1997))
對于給定問題哪種算法表現優異?Michie等(1994)對該問題展開了研究,他們開展了與前述問題相似但更多的工作——23種算法用于22個數據集,并且基于給定的數據集性能構建決策樹來預測最優算法,雖然該研究側重于樹——在23個算法中占9個,而且幾個數據集對樹易產生不可控閾值但仍然為算法選擇提供了有益指導。然而,還有一種提高模型精度的方式比選擇單一模型更容易且效果更顯著:將諸模型集成,圖1.2展示了圖1.1中模型以四種不同方式集成的非樣本精度,這些集成方式包括平均法,投票法和顧問感知器(Elder和Lee,1997),對于每個問題,顧問感知器集成技術都優于簡單的平均法,而與集成和單一模型相比,其差別很小,這里每種集成方法都比單一算法更有效。圖1.2四種集成方法在圖1.1問題上的非樣本相對誤差(基于Elder和Lee(1997))