人類已進入大數據時代。大數據是指具有海量(volume)、多模態(variety)、變化速度快(velocity)、蘊含價值高(value)和不精確性高(veracity)“5V”特征的數據。大數據給傳統的機器學習帶來巨大的挑戰,已引起學術界和工業界的高度關注。Hadoop和Spark正是在這種背景下產生的兩個大數據開源平臺。本書重點介紹基于這兩種大數據開源平臺的機器學習,包括機器學習概述、大數據與大數據處理系統、Hadoop分布式文件系統HDFS、Hadoop并行編程框架MapReduce、Hadoop大數據機器學習和Spark大數據機器學習。
ftp://124.17.26.93/curved-toc/9787030666871-curvedToc.pdf