近年來,機器學習領域受到越來越多的關注,相關的機器學習算法開始成為熱點。
本書專門介紹了有關機器學習的內容,全書共分3部分:第1部分是數據科學和Microsoft Azure Machine Learning導論,介紹了數據科學和Microsoft Azure Machine Learning的基本知識以及需要用到的語言的基本知識;第二部分是統計學和機器學習算法,系統地講解了統計學和機器學習的相關算法;第三部分是實用應用程序,這一部分介紹了新的微軟Azure機器學習服務,講解如何高效構建和部署預測模型,還講解了如何解決傾向建模、產品推薦等實用技能。
本書可供數據科學、商業分析和商業智能領域的開發人員,對機器學習感興趣的開發者閱讀。
本書是數據科學和機器學習領域的實用教程,專注于構建和部署預測模型,力圖幫助你學習如何使用新的微軟Azure Machine Learning快速構建和部署復雜的預測模型。
本書全面介紹2015年發布的微軟Azure Machine Learning服務,包含構建推薦器、傾向模型以及流失和預見性維護模型的實用指南。本書使用面向任務的描述和具體的端到端示例,確保讀者能夠快速上手。本書講述了Azure Machine Learning的各個方面,從數據入口到應用機器學習、評估模型以及把它們部署成Web服務。
書中新增以下精彩內容
● Cortana分析套件;
● Python整合;
● 數據準備和特征選擇;
● 使用Power BI的數據可視化;
● 推薦引擎;
● 在Azure市場上銷售你的模型。
通過閱讀本書,你將能夠
● 系統地了解數據科學及其zui佳實踐;
● 了解新的微軟Azure Machine Learning服務,掌握高效構建和部署預測模型的實用技能,例如,
如何解決傾向建模、流失分析、產品推薦和使用Power BI進行可視化等典型預測分析問題;
● 在Azure市場上銷售你的預測模型的實用指南。
Roger Barga是亞馬遜Web服務的總經理和開發總監。在加入亞馬遜之前,Roger是微軟的云與企業部門的云機器學習組的產品組程序經理,他的團隊負責Azure機器學習服務的產品管理。Roger于1997年加入微軟,在微軟研究院的數據庫產品組里擔任研究員,他領導數據庫、工作流和流處理系統的系統研究和產品開發。他提出了從基礎研究,通過原型驗證概念,到產品組孵化的設想。在加入微軟之前,Roger是Pacific Northwest National Laboratory的機器學習組的研究科學家,他構建和部署基于機器學習的解決方案。Roger還是華盛頓大學的助理教授,他是數據科學和機器學習課程的講師。
Roger擁有計算機科學的博士學位(PhD),專攻機器學習。從1991年到2013年,他發表了超過90份同行評審的技術論文和專書論文,和214個合著者共事,有1084個作者超過700個引述。
Valentine Fontama是微軟Cloud & Enterprise Analytics and Insights產品組的數據科學家經理。Val在數據科學和業務上有著超過18年的經驗。在獲得人工神經網絡的博士學位之后,他把數據挖掘應用到環境科學和信用行業。在加入微軟之前,Val是倫敦Equifax的新技術咨詢師,他zui先提倡把數據挖掘應用到消費信用行業的風險評估和市場營銷。他目前是華盛頓大學的數據科學助理教授。
他之前在微軟的職位是Data and Decision Sciences Group(DDSG)的主要數據科學家,為微軟客戶(包括ThyssenKrupp和Dell)提供外部咨詢。在那之前,他是一個資-深產品營銷經理,負責云的大數據和預測分析以及企業營銷。在這個角色里,他負責微軟Azure機器學習的產品管理;HDInsight,微軟的首-個Hadoop服務;Parallel Data Warehouse,微軟的首-個數據倉庫工具;Fast Track Data Warehouse的3個版本發布。
Val擁有沃頓商學院的戰略管理和市場營銷的MBA學位,擁有神經網絡的博士學位,擁有計算方面的碩士學位,擁有數學和電子的學士學位(獲得一等榮譽)。他合著了《Introducing Microsoft Azure HDInsight》一書,發表過11份學術論文,有超過227個作者152個引述。
Wee-Hyong Tok是微軟公司云與企業組的信息管理和機器學習(IMML)團隊的資-深程序經理。Wee-Hyong帶來了數十年跨行業和學術的數據庫系統經驗。
在獲得博士學位之前,Wee-Hyong是新加坡一個大型電信公司的系統分析師。Wee-Hyong是SQL Server方向的zui有價值專家(MVP),專注于商業智能和數據挖掘領域。他率先在東南亞開展數據挖掘訓練營,為IT專家帶來知識和技術,使他們可以在他們的組織里使用分析工具把原始數據轉成洞察。
他加入微軟并在SQL Server團隊里工作,負責塑造SSIS Server,并在SQL Server 2012里把它從概念變成實現。
Wee-Hyong擁有新加坡國立大學的計算機科學的博士學位和計算方面的碩士學位(獲得一等榮譽)。他發表過21篇同行評審的學術論文和期刊文章。他是以下書籍的合著者:《Predictive Analytics with Microsoft Azure Machine Learning》《Introducing Microsoft Azure HDInsight》和《Microsoft SQL Server 2012 Integration Services》。
目 錄
第1部分 數據科學和Microsoft Azure Machine Learning導論
第1章 數據科學導論3
1.1 數據科學是什么3
1.2 分析頻譜4
1.2.1 描述性分析4
1.2.2 診斷性分析5
1.2.3 預測性分析5
1.2.4 規定性分析5
1.3 為何重要,為何現在6
1.3.1 把數據看作競爭資產6
1.3.2 客戶需求的增長6
1.3.3 對數據挖掘技術認識的提高7
1.3.4 訪問更多數據7
1.3.5 更快、更廉價的處理能力7
1.3.6 數據科學流程8
1.4 常見數據科學技術10
1.4.1 分類算法10
1.4.2 聚類算法11
1.4.3 回歸算法12
1.4.4 模擬12
1.4.5 內容分析12
1.4.6 推薦引擎13
1.5 數據科學的前沿13
1.6 小結14
第2章 Microsoft Azure Machine
Learning導論15
2.1 你好,Machine Learning Studio15
2.2 實驗的組件16
2.3 Gallery簡介17
2.4 創建訓練實驗的5個簡單步驟18
2.4.1 第1步:獲取數據19
2.4.2 第2步:預處理數據20
2.4.3 第3步:定義特征22
2.4.4 第4步:選擇和應用學習
算法23
2.4.5 第5步:在新數據之上做
預測24
2.5 在生產環境里部署你的模型26
2.5.1 創建預測實驗26
2.5.2 把你的實驗發布成Web
服務28
2.5.3 訪問Azure Machine Learning的
Web服務28
2.6 小結30
第3章 數據準備31
3.1 數據清理和處理31
3.1.1 了解你的數據32
3.1.2 缺失值和空值37
3.1.3 處理重復記錄38
3.1.4 識別并移除離群值39
3.1.5 特征歸一化40
3.1.6 處理類別不均41
3.2 特征選擇43
3.3 特征工程46
3.3.1 分裝數據48
3.3.2 維度災難50
3.4 小結53
第4章 整合R54
4.1 R概覽54
4.2 構建和部署你的首個R腳本56
4.3 使用R進行數據預處理59
4.4 使用腳本包(ZIP)61
4.5 使用R構建和部署決策樹64
4.6 小結68
第5章 整合Python69
5.1 概覽69
5.2 Python快速上手70
5.3 在Azure ML實驗里使用Python71
5.4 使用Python進行數據預處理76
5.4.1 使用Python合并數據76
5.4.2 使用Python處理缺失值79
5.4.3 使用Python進行特征選擇80
5.4.4 在Azure ML實驗里運行
Python代碼82
5.5 小結86
第2部分 統計學和機器學習算法
第6章 統計學和機器學習算法概覽89
6.1 回歸算法89
6.1.1 線性回歸89
6.1.2 神經網絡90
6.1.3 決策樹92
6.1.4 提升決策樹93
6.2 分類算法94
6.2.1 支持向量機95
6.2.2 貝葉斯點機96
6.3 聚類算法97
6.4 小結99
第3部分 實用應用程序
第7章 構建客戶傾向模型103
7.1 業務問題103
7.2 數據獲取和準備104
7.3 訓練模型109
7.4 模型測試和驗證111
7.5 模型的性能112
7.6 確定評估指標的優先級115
7.7 小結116
第8章 使用Power BI可視化你的
模型117
8.1 概覽117
8.2 Power BI簡介117
8.3 使用Power BI可視化的三種
方案119
8.4 在Azure Machine Learning里給你的
數據評分,并在Excel里可視化120
8.5 在Excel里評分并可視化你的
數據123
8.6 在Azure Machine Learning里給你的
數據評分,并在powerbi.com里
可視化124
8.6.1 加載數據125
8.6.2 構建你的儀表板125
8.7 小結127
第9章 構建流失模型128
9.1 流失模型概覽128
9.2 構建和部署客戶流失模型129
9.2.1 準備和了解數據129
9.2.2 數據預處理和特征選擇132
9.2.3 用于預測流失的分類模型135
9.2.4 評估客戶流失模型的性能137
9.3 小結138
第10章 客戶細分模型139
10.1 客戶細分模型概覽139
10.2 構建和部署你的第一個K均值聚
類模型140
10.2.1 特征散列142
10.2.2 找出合適的特征142
10.2.3 K均值聚類算法的屬性144
10.3 批發客戶的客戶細分145
10.3.1 從UCI機器學習庫加載
數據145
10.3.2 使用K均值聚類算法進行批發
客戶細分146
10.3.3 新數據的聚類分配147
10.4 小結148
第11章 構建預見性維護模型149
11.1 概覽149
11.2 預見性維護場景150
11.3 業務問題150
11.4 數據獲取和準備151
11.4.1 數據集151
11.4.2 數據加載151
11.4.3 數據分析151
11.5 訓練模型154
11.6 模型測試和驗證155
11.7 模型性能156
11.8 改善模型的技術158
11.9 模型部署161
11.9.1 創建預測實驗161
11.9.2 把你的實驗部署成Web
服務162
11.10 小結163
第12章 推薦系統164
12.1 概覽164
12.2 推薦系統的方案和場景164
12.3 業務問題165
12.4 數據獲取和準備166
12.5 訓練模型170
12.6 模型測試和驗證171
12.7 小結175
第13章 使用和發布Azure Marketplace
上的模型176
13.1 什么是機器學習API176
13.2 如何使用Azure Marketplace的
API178
13.3 在Azure Marketplace里發布你
自己的模型182
13.4 為你的機器學習模型創建和
發布Web服務182
13.4.1 創建評分實驗183
13.4.2 把你的實驗發布成Web
服務183
13.5 獲取API密鑰和OData端點
信息184
13.6 把你的模型發布為Azure
Marketplace里的API184
13.7 小結186
第14章 Cortana分析187
14.1 Cortana分析套件是什么187
14.2 Cortana分析套件的功能187
14.3 示例場景189
14.4 小結190