本書站在初學者的角度,從原理到實踐,循序漸進地講述了使用Python開發(fā)網(wǎng)絡(luò)爬蟲的核心技術(shù)。全書從邏輯上可分為基礎(chǔ)篇、實戰(zhàn)篇和爬蟲框架篇三部分。基礎(chǔ)篇主要介紹了編寫網(wǎng)絡(luò)爬蟲所需的基礎(chǔ)知識,分別是網(wǎng)站分析、數(shù)據(jù)抓取、數(shù)據(jù)清洗和數(shù)據(jù)入庫。網(wǎng)站分析講述如何使用Chrome和Fiddler抓包工具對網(wǎng)絡(luò)做全面分析;數(shù)據(jù)抓取介紹了Python爬蟲模塊Urllib和Requests的基礎(chǔ)知識;數(shù)據(jù)清洗主要介紹字符串操作、正則和Beautiful Soup的使用;數(shù)據(jù)入庫分別講述了MySQL和MongoDB的操作,通過ORM框架SQLAlchemy實現(xiàn)數(shù)據(jù)持久化,實現(xiàn)企業(yè)級開發(fā)。實戰(zhàn)篇深入講解了分布式爬蟲、爬蟲軟件開發(fā)與應(yīng)用、12306搶票程序和微博爬取,所舉示例均來自于開發(fā)實踐,可幫助讀者快速提升技能,開發(fā)實際項目。框架篇主要講述Scrapy的基礎(chǔ)知識,并通過爬取QQ音樂為實例,讓讀者深層次了解Scrapy的使用。
本書內(nèi)容豐富,注重實戰(zhàn),適用于從零開始學習網(wǎng)絡(luò)爬蟲的初學者,或者是已經(jīng)有一些網(wǎng)絡(luò)爬蟲編寫經(jīng)驗,但希望更加全面、深入理解Python爬蟲的開發(fā)人員。