本書先介紹大數據商業架構需要的各種技術知識,然后通過介紹一個虛擬的互聯網創業案例,逐步展開介紹各個階段可能遇到的業務需求,以及相對應的技術方案,甚至是技術難度。為了達到深入淺出,通俗易懂的效果,實戰章節一般是從業務需求的描述入手,然后進行需求分析,根據需求的特點,對備選技術方案進行科普、概述和探討,最后是技術方案確定和結論。
Contents 目 錄推薦序一推薦序二前 言第1章 抉擇1第2章 數據收集42.1 互聯網數據收集42.1.1 網絡爬蟲52.1.2 Apache Nutch簡介112.1.3 Heritrix簡介142.2 內部數據收集152.2.1 Apache Flume簡介172.2.2 Facebook Scribe和Logstash212.3 本章心得212.4 參考資料22第3章 數據存儲233.1 持久化存儲233.1.1 Hadoop和HDFS253.1.2 HBase簡介283.1.3 MongoDB353.2 非持久化存儲373.2.1 緩存和散列373.2.2 Memcached和Berkeley DB簡介413.2.3 Redis簡介413.3 本章心得443.4 參考資料44第4章 數據處理464.1 離線批量處理464.1.1 Hadoop的MapReduce474.1.2 Spark簡介524.1.3 Hive簡介534.1.4 Pig、Impala和Spark SQL564.2 提升及時性:消息機制584.2.1 ActiveMQ簡介604.2.2 Kafka簡介614.3 在線實時處理634.3.1 Storm簡介634.3.2 Spark Streaming簡介664.4 本章心得664.5 參考資料67第5章 信息檢索695.1 基本理念705.2 相關性705.2.1 布爾模型705.2.2 基于排序的布爾模型715.2.3 向量空間模型745.2.4 語言模型755.3 及時性775.4 與數據庫查詢的對比815.5 搜索引擎825.5.1 Web搜索中的鏈接分析835.5.2 電子商務中的商品排序865.5.3 多因素和基于學習的排序885.5.4 系統框架895.5.5 Lucene簡介935.5.6 Solr簡介985.5.7 Elasticsearch簡介1045.6 推薦系統1085.6.1 推薦的核心要素1095.6.2 推薦系統的分類1105.6.3 混合模型1155.6.4 系統架構1165.6.5 Mahout1165.7 在線廣告1195.7.1 在線廣告的類型1205.7.2 廣告投放機制1245.7.3 廣告的拍賣機制1255.7.4 廣告系統架構1265.8 本章心得1275.9 參考資料128第6章 數據挖掘1306.1 基本理念1316.2 數據的表示和預處理1336.2.1 數據的表示1336.2.2 數據的預處理1356.3 機器學習算法1366.3.1 監督學習—分類1376.3.2 監督學習—回歸1526.3.3 非監督學習—聚類1536.4 挖掘工具1576.4.1 Mahout簡介1576.4.2 R簡介1596.5 本章心得1656.6 參考資料165第7章 效能評估1677.1 效果評估1687.1.1 離線評估1697.1.2 非離線的評估1837.2 性能評估1907.2.1 計算復雜度1917.2.2 應用系統性能1937.2.3 JMeter工具1977.3 本章心得2027.4 參考資料202第8章 大數據技術全景204第9章 商品太多啦!需要搜索引擎2079.1 業務需求2079.2 產品設計和技術選型2089.3 實現方案2119.3.1 數據定義和配置2119.3.2 集群搭建2139.3.3 DIH配置216第10章 能否更主動?還需要推薦引擎22310.1 業務需求22310.2 產品設計和技術選型22510.3 實現方案23010.3.1 基于內容特征的衡量23010.3.2 基于行為特征的衡量23310.3.3 提供在線服務236第11章 這樣做的效果如何24111.1 業務需求24111.2 產品設計和技術選型24211.3 實現方案24311.3.1 行為數據的定義和記錄24311.3.2 Flume和HDFS的集成24611.3.3 通過Hive進行分析25211.3.4 Kafka和Storm的集成254第12章 這個搜索有點遜25812.1 業務需求:還要搜得更多25812.2 “還要搜得更多”:產品設計和技術選型25912.3 “還要搜得更多”的方案實現26112.3.1 HBase的部署26112.3.2 HBase和Solr的集成26412.4 業務需求:還要搜得更準26512.5 “還要搜得更準”:產品設計和技術選型26612.5.1 提升搜索排序的相關性26612.5.2 提升搜索排序的整體效果26812.6 “還要搜得更準”的方案實現27112.7 業務需求:還要更快27312.8 還要“變”得更快:產品設計和技術選型27412.9 還要“搜”得更快:產品設計和技術選型27512.10 業務需求:給點提示吧28012.11 給點提示吧:產品設計和技術選型282第13章 支持更高效的運營28713.1 業務需求:互聯網時代的CRM28713.2 互聯網時代的CRM:產品設計和技術選型28813.3 業務需求:抓住搗蛋鬼29113.4 抓住搗蛋鬼:產品設計和技術選型29213.4.1 識別分類錯放29213.4.2 識別SEO作弊29413.5 業務需求:銷售之戰29513.6 銷售之戰:產品設計和技術選型29613.6.1 設置合理的價格29613.6.2 識別黃牛298后記299