本書第1章是關于數據及初等的描述,這是初識真實數據所必需的。第2章介紹概率論的基本知識, 這是描述隨機世界的數學工具, 對這部分熟悉的讀者可以僅僅作為參考。第3章介紹了傳統統計的基本思維方式, 這部分雖然和后續內容關系不大, 但由于是歷史, 應該保留, 但可以僅作為參考或討論。第4章介紹有監督機器學習基礎, 包括建模、模型解釋、模型預測、基于交叉驗證的模型比較等內容, 系統深入地介紹回歸及分類方法的概念及方法。作為監督學習載體的具體模型, 不但介紹了傳統統計中最常用的最小二乘線性回歸, 還從基本原理到編程全方位介紹了作為機器學習中最重要的基本學習器之一的決策樹, 為后面要引進的更精確的組合方法奠定了基礎.。第5章介紹了組合方法及若干重要的組合方法模型: bagging、隨機森林、梯度增強法和 AdaBoost。 第6章詳細地介紹了人工神經網絡的基本概念, 人工神經網絡是深度學習的基礎, 理解神經網絡對今后學習深度學習有很大的益處。
吳喜之 北京大學數學力學系本科畢業,北卡羅來納大學統計系博士。中國人民大學統計學院教授,博士生導師。曾在南開大學、北京大學、加利福尼亞大學、北卡羅來納大學等多所著名學府執教。
張敏,重慶工商大學青年教師。
第1章 體現真實世界的數據
1.1 數據: 對真實世界的記錄
1.2 變量的逐個描述
1.3 變量關系的描述
1.4 數據的簡單描述可能很膚淺甚至誤導
1.5 習題
1.6 附錄: 正文中沒有的 R 代碼
1.7 附錄: 本章的Python代碼
第2章 傳統統計: 參數推斷簡介
2.1 關于總體均值 μ 的推斷
2.2 關于伯努利試驗概率的推斷
2.3 習 題
2.4 附錄: 本章的 Python 代碼
第3章 有監督學習基礎
3.1 引 言
3.2 簡單回歸模型初識
3.3 最小二乘線性回歸模型
3.4 決策樹回歸
3.5 通過例子總結兩種回歸方法
3.6 簡單分類模型初識
3.7 Logistic回歸的數學背景
3.8 決策樹分類的更多說明
3.9 通過例子對兩種分類方法進行總結
3.10 多分類問題
3.11 習題
3.12 附錄: 正文中沒有的 R 代碼
3.13 附錄: 本章的 Python代碼
第4章 機器學習組合算法
4.1 什么是組合算法
4.2 bagging
4.3 隨機森林
4.4 梯度下降法及極端梯度增強回歸
4.5 AdaBoost 分類
4.6 組合算法對兩個數據的交叉驗證
4.7 習題
4.8 附錄: 正文中沒有的R代碼
4.9 附錄: 本章的Python代碼
第5章 神經網絡
5.1 基本概念
5.2 通過基礎編程了解神經網絡的細節
5.3 習題
5.4 附錄: 本章的Python代碼