东北往事第二季1-50集电视剧,久操免费在线观看,av在线dvd

PySpark實(shí)戰(zhàn)指南：利用Python和Spark構(gòu)建數(shù)據(jù)密集型應(yīng)用并規(guī)模化部署

定價(jià)：¥49

中教價(jià)：¥36.75 (7.50折）

庫存數(shù)： 0

叢書名：大數(shù)據(jù)技術(shù)叢書

購買數(shù)量：

    本文從Spark的基本特點(diǎn)出發(fā)，借助大量例子詳細(xì)介紹了如何使用Python調(diào)用Spark新特性、處理結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)、使用PySpark中基本可用數(shù)據(jù)類型、生成機(jī)器學(xué)習(xí)模型、進(jìn)行圖像操作以及閱讀串流數(shù)據(jù)等新興技術(shù)內(nèi)容。

　　據(jù)估計(jì)，2013年全世界產(chǎn)生了大約4.4ZB（詞頭Z代表1021）信息量的數(shù)據(jù)！而到2020年，預(yù)計(jì)人類將會產(chǎn)生10倍于2013年的數(shù)據(jù)量。隨著字面上的數(shù)字越來越大，加上人們需求的日益增長，為了使這些數(shù)據(jù)更有意義，2004年來自Google的Jeffrey Dean和Sanjay Ghemawat發(fā)表了一篇開創(chuàng)性的論文《MapReduce：Simplified Data Processing on Large Clusters》。至此，利用這一概念的技術(shù)開始快速增多，Apache Hadoop也開始迅速變得流行起來，最終創(chuàng)建了一個(gè)Hadoop的生態(tài)系統(tǒng)，包括抽象層的Pig、Hive和Mahout，都是利用了map和reduce的簡單概念。

　　然而，即使擁有每天都分析過濾海量數(shù)據(jù)的能力，MapReduce始終是一個(gè)限制相當(dāng)嚴(yán)格的編程框架。此外，大多數(shù)的任務(wù)還要求讀取、寫入磁盤。認(rèn)識到這些缺點(diǎn)，2009年Matei Zaharia將Spark作為他博士課題的一部分開始研究。Spark在2012年首次發(fā)布。雖然Spark是基于和MapReduce相同的概念，但其先進(jìn)的數(shù)據(jù)處理方法和任務(wù)組織方式使得它比Hadhoop要快100倍（對于內(nèi)存計(jì)算）。

　　在這本書中，我們將指導(dǎo)你使用Python了解Apache Spark的最新性能，包括如何看懂結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)，如何使用PySpark中一些基本的可用數(shù)據(jù)類型，生成機(jī)器學(xué)習(xí)模型，圖像操作，閱讀串流數(shù)據(jù)，在云上部署模型。每一章力求解決不同的問題，并且我們也希望看完這本書之后，你可以掌握足夠的知識來解決其他我們還沒來得及在書中講解的問題。

　　本書的主要內(nèi)容第1章通過技術(shù)和作業(yè)的組織等概念提供了對Spark的介紹。

　　第2章介紹了RDD、基本原理、PySpark中可用的非模式化數(shù)據(jù)結(jié)構(gòu)。

　　第3章詳細(xì)介紹了DataFrame數(shù)據(jù)結(jié)構(gòu)，它可以彌合Scala和Python之間在效率方面的差距。

　　第4章引導(dǎo)讀者了解Spark環(huán)境中的數(shù)據(jù)清理和轉(zhuǎn)換的過程。

　　第5章介紹了適用于RDD的機(jī)器學(xué)習(xí)庫，并回顧了最有用的機(jī)器學(xué)習(xí)模型。

　　第6章涵蓋了當(dāng)前主流的機(jī)器學(xué)習(xí)庫，并且提供了目前可用的所有模型的概述。

　　第7章引導(dǎo)你了解能輕松利用圖解決問題的新結(jié)構(gòu)。

　　第8章介紹了Spark和張量流（TensorFlow）領(lǐng)域中深度學(xué)習(xí)（Deep Learning）的連接橋梁。

　　第9章描述Blaze是如何跟Spark搭配使用以更容易地對多源數(shù)據(jù)進(jìn)行抽象化的。

　　第10章介紹了PySpark中可用的流工具。

　　第11章一步步地指導(dǎo)你運(yùn)用命令行界面完成代碼模塊化并提交到Spark執(zhí)行。

　　本書中我們隨意使用了Anaconda的預(yù)裝版Python模塊。GraphFrames和TensorFrames也可以在啟動(dòng)Spark實(shí)例時(shí)動(dòng)態(tài)加載：載入時(shí)你的電腦需要聯(lián)網(wǎng)。如果有的模塊尚未安裝到你的電腦里，也沒有關(guān)系，我們會指導(dǎo)你完成安裝過程。

　　本書的讀者對象想要學(xué)習(xí)大數(shù)據(jù)領(lǐng)域發(fā)展最迅速的技術(shù)即Apache Spark的每一個(gè)人，都可以閱讀此書。我們甚至希望還有來自于數(shù)據(jù)科學(xué)領(lǐng)域更高級的從業(yè)人員，能夠找到一些令人耳目一新的例子以及更有趣的主題。

　　本書約定警告或重要的筆記提示和技巧下載代碼示例你可以從http://www.packtpub.com下載代碼文件。你也可以訪問華章圖書官網(wǎng)通過注冊并登錄個(gè)人賬號，下載本書的源代碼。

　　下載本書彩圖我們還提供了一個(gè)PDF文件，其中包含本書中使用的截圖和彩圖，可以幫助讀者更好地了解輸出的變化。

Contents?目　　錄
譯者序
序
前言
關(guān)于作者
第1章　了解Spark  1
1.1　什么是Apache Spark  1
1.2　Spark作業(yè)和API  2
1.2.1　執(zhí)行過程  2
1.2.2　彈性分布式數(shù)據(jù)集  3
1.2.3　DataFrame  4
1.2.4　Dataset  5
1.2.5　Catalyst優(yōu)化器  5
1.2.6　鎢絲計(jì)劃  5
1.3　Spark 2.0的架構(gòu)  6
1.3.1　統(tǒng)一Dataset和DataFrame  7
1.3.2　SparkSession介紹  8
1.3.3　Tungsten Phase 2  8
1.3.4　結(jié)構(gòu)化流  10
1.3.5　連續(xù)應(yīng)用  10
1.4　小結(jié)  11
第2章　彈性分布式數(shù)據(jù)集  12
2.1　RDD的內(nèi)部運(yùn)行方式  12
2.2　創(chuàng)建RDD  13
2.2.1　Schema   14
2.2.2　從文件讀取  14
2.2.3　Lambda表達(dá)式  15
2.3　全局作用域和局部作用域  16
2.4　轉(zhuǎn)換  17
2.4.1　.map(...)轉(zhuǎn)換  17
2.4.2　.filter(...)轉(zhuǎn)換  18
2.4.3　.flatMap(...)轉(zhuǎn)換  18
2.4.4　.distinct(...)轉(zhuǎn)換  18
2.4.5　.sample(...)轉(zhuǎn)換  19
2.4.6　.leftOuterJoin(...)轉(zhuǎn)換  19
2.4.7　.repartition(...)轉(zhuǎn)換  20
2.5　操作  20
2.5.1　.take(...)方法  21
2.5.2　.collect(...)方法  21
2.5.3　.reduce(...)方法  21
2.5.4　.count(...)方法  22
2.5.5　.saveAsTextFile(...)方法  22
2.5.6　.foreach(...)方法  23
2.6　小結(jié)  23
第3章　DataFrame  24
3.1　Python到RDD之間的通信  24
3.2　Catalyst優(yōu)化器刷新  25
3.3　利用DataFrame加速PySpark  27
3.4　創(chuàng)建DataFrame  28
3.4.1　生成自己的JSON數(shù)據(jù)  29
3.4.2　創(chuàng)建一個(gè)DataFrame  29
3.4.3　創(chuàng)建一個(gè)臨時(shí)表  30
3.5　簡單的DataFrame查詢  31
3.5.1　DataFrame API查詢  32
3.5.2　SQL查詢  32
3.6　RDD的交互操作  33
3.6.1　使用反射來推斷模式  33
3.6.2　編程指定模式  34
3.7　利用DataFrame API查詢  35
3.7.1　行數(shù)  35
3.7.2　運(yùn)行篩選語句  35
3.8　利用SQL查詢  36
3.8.1　行數(shù)  36
3.8.2　利用where子句運(yùn)行篩選語句   36
3.9　DataFrame場景——實(shí)時(shí)飛行性能  38
3.9.1　準(zhǔn)備源數(shù)據(jù)集  38
3.9.2　連接飛行性能和機(jī)場  39
3.9.3　可視化飛行性能數(shù)據(jù)  40
3.10　Spark數(shù)據(jù)集（Dataset）API  41
3.11　小結(jié)  42
第4章　準(zhǔn)備數(shù)據(jù)建模  43
4.1　檢查重復(fù)數(shù)據(jù)、未觀測數(shù)據(jù)和異常數(shù)據(jù)（離群值）  43
4.1.1　重復(fù)數(shù)據(jù)  43
4.1.2　未觀測數(shù)據(jù)  46
4.1.3　離群值  50
4.2　熟悉你的數(shù)據(jù)   51
4.2.1　描述性統(tǒng)計(jì)  52
4.2.2　相關(guān)性  54
4.3　可視化  55
4.3.1　直方圖  55
4.3.2　特征之間的交互  58
4.4　小結(jié)  60
第5章　 MLlib介紹  61
5.1　包概述  61
5.2　加載和轉(zhuǎn)換數(shù)據(jù)  62
5.3　了解你的數(shù)據(jù)  65
5.3.1　描述性統(tǒng)計(jì)  66
5.3.2　相關(guān)性  67
5.3.3　統(tǒng)計(jì)測試  69
5.4　創(chuàng)建最終數(shù)據(jù)集  70
5.4.1　創(chuàng)建LabeledPoint形式的RDD  70
5.4.2　分隔培訓(xùn)和測試數(shù)據(jù)  71
5.5　預(yù)測嬰兒生存機(jī)會  71
5.5.1　MLlib中的邏輯回歸  71
5.5.2　只選擇最可預(yù)測的特征  72
5.5.3　MLlib中的隨機(jī)森林  73
5.6　小結(jié)  74
第6章　ML包介紹  75
6.1　包的概述  75
6.1.1　轉(zhuǎn)換器  75
6.1.2　評估器  78
6.1.3　管道  80
6.2　使用ML預(yù)測嬰兒生存幾率  80
6.2.1　加載數(shù)據(jù)  80
6.2.2　創(chuàng)建轉(zhuǎn)換器  81
6.2.3　創(chuàng)建一個(gè)評估器  82
6.2.4　創(chuàng)建一個(gè)管道  82
6.2.5　擬合模型  83
6.2.6　評估模型的性能  84
6.2.7　保存模型  84
6.3　超參調(diào)優(yōu)  85
6.3.1　網(wǎng)格搜索法  85
6.3.2　Train-validation 劃分  88
6.4　使用PySpark ML的其他功能  89
6.4.1　特征提取  89
6.4.2　分類  93
6.4.3　聚類  95
6.4.4　回歸  98
6.5　小結(jié)  99
第7章　GraphFrames  100
7.1　GraphFrames介紹  102
7.2　安裝GraphFrames  102
7.2.1　創(chuàng)建庫  103
7.3　準(zhǔn)備你的航班數(shù)據(jù)集  105
7.4　構(gòu)建圖形  107
7.5　執(zhí)行簡單查詢  108
7.5.1　確定機(jī)場和航班的數(shù)量  108
7.5.2　確定這個(gè)數(shù)據(jù)集中的最長延誤時(shí)間  108
7.5.3　確定延誤和準(zhǔn)點(diǎn)/早到航班的數(shù)量對比  109
7.5.4　哪一班從西雅圖出發(fā)的航班最有可能出現(xiàn)重大延誤  109
7.5.5　西雅圖出發(fā)到哪個(gè)州的航班最有可能出現(xiàn)重大延誤  110
7.6　理解節(jié)點(diǎn)的度  110
7.7　確定最大的中轉(zhuǎn)機(jī)場  112
7.8　理解Motif  113
7.9　使用PageRank確定機(jī)場排名  114
7.10　確定最受歡迎的直飛航班  115
7.11　使用廣度優(yōu)先搜索  116
7.12　使用D3將航班可視化  118
7.13　小結(jié)  119
第8章　TensorFrames  120
8.1　深度學(xué)習(xí)是什么  120
8.1.1　神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的必要性  123
8.1.2　特征工程是什么  125
8.1.3　橋接數(shù)據(jù)和算法  125
8.2　TensorFlow是什么  127
8.2.1　安裝PIP  129
8.2.2　安裝TensorFlow   129
8.2.3　使用常量進(jìn)行矩陣乘法  130
8.2.4　使用placeholder進(jìn)行矩陣乘法  131
8.2.5　討論  132
8.3　TensorFrames介紹  133
8.4　TensorFrames快速入門  134
8.4.1　配置和設(shè)置  134
8.4.2　使用TensorFlow向已有列添加常量  136
8.4.3　Blockwise reducing操作示例  137
8.5　小結(jié)  139
第9章　使用Blaze實(shí)現(xiàn)混合持久化

你還可能感興趣

我要評論

您的姓名	驗(yàn)證碼：
留言內(nèi)容

xxxfreesexmoves-haodiaocao这里只有精品视频-欧美性受黑人性爽-欧美性受xxxxxx黑人xyx性爽|www.jsyyzsb.com