本書圍繞大數據采集與挖掘,對采集技術的相關基礎、技術原理、Python實現技術、大數據挖掘與應用方法進行了系統介紹。書中全面、完整地覆蓋了各種類型的網絡爬蟲及相關的信息處理挖掘技術,并提供了42個與爬蟲技術和應用相關的Python程序。全書共分為四大部分,即概述、基礎篇、技術與實現篇、大數據挖掘與應用篇。第一部分是概述,指出了利用Python采集互聯網大數據的重要性,介紹了相關技術研究、技術體系、Python爬蟲采集技術的合規性及應用現狀等;第二部分是基礎篇,包括Web服務器的應用架構以及HTTP、Robots、HTML、頁面編碼等相關協議和規范;第三部分是技術與實現篇,全面介紹了普通網絡爬蟲技術、動態頁面采集方法、主題爬蟲技術、DeepWeb爬蟲、微博信息采集、Web信息提取以及反爬蟲技術等,內容涵蓋了各種爬蟲技術實現方法及Python例子;第四部分是大數據挖掘與應用篇,介紹了文本、情感、社交網絡和時間序列等典型大數據處理與挖掘技術及應用模式,并以新聞采集與分析、Web自動化測試、酒店評估文本挖掘為例介紹了Python爬蟲應用構建方法,將本書介紹的一些關鍵技術、模型和工具貫穿在一起。