本書描述了減少數(shù)據(jù)基礎設施成本和開發(fā)時間的技巧,適用于軟件工程師、數(shù)據(jù)工程師、開發(fā)者和系統(tǒng)管理員。你不僅可以從中獲得關于Spark的全面理解,也將學會如何讓它運轉自如。 n
n
在本書中你將發(fā)現(xiàn): n
* Spark SQL的新接口如何在SQL的RDD數(shù)據(jù)結構上改善性能 n
* Core Spark和Spark SQL之間的數(shù)據(jù)拼接選擇 n
* 充分發(fā)揮標準RDD轉換功能的技巧 n
* 如何處理Spark的鍵/值對范式的相關性能問題 n
* 編寫高性能Spark代碼,不使用Scala或JVM n
* 如何在應用建議的改進措施時測試功能和性能 n
* 使用Spark MLlib和Spark ML機器學習庫 n
* Spark的流組件和外部社區(qū)軟件包
Holden Karau是一位跨性別加拿大人,在IBM Spark技術中心擔任軟件開發(fā)工程師。她是Spark代碼貢獻者,并且經(jīng)常提交貢獻代碼,特別是PySpark和機器學習部分。Holden在多個國際活動中演講Spark相關話題。 n
Rachel Warren是Alpine Data的軟件工程師和數(shù)據(jù)科學家。在日常工作中,她使用Spark來處理真實世界的數(shù)據(jù)和機器學習問題。她也曾在工業(yè)界和學術界擔任分析師和導師。 n
n