本書共分4篇,針對Python爬蟲初學者,從零開始系統地講解了如何利用Python進行網絡爬蟲程序開發。
第1篇快速入門篇(第1~9章):本篇主要介紹了Python環境的搭建和一些Python的基礎語法知識、Python爬蟲入門知識及基本的使用方法、Ajax數據的分析和抓取、動態渲染頁面數據的爬取、網站代理的設置與使用、驗證碼的識別與破解,以及App數據抓取、數據的存儲方法等內容。
第2篇技能進階篇(第10~12章):本篇主要介紹了PySpider和Scrapy兩個常用爬蟲框架的基本使用方法、爬蟲的部署方法,以及數據分析、數據清洗常用庫的使用方法。
第3篇項目實戰篇(第13章):本篇以2個綜合實戰項目,詳細地講解了Python數據爬蟲開始與實戰應用。本篇對全書內容進行了總結回顧,強化讀者的實操水平。
第4篇技能拓展篇(第14章):本篇從數據爬取、數據清洗和數據分析三個角度,介紹了一常用AI技術的實用技巧。運用這些技巧,讀者可以提高網絡爬蟲程序的編寫速度和數據分析效率。
本書案例豐富,注重實戰,既適合Python程序員和爬蟲愛好者閱讀學習,也適合作為廣大職業院校相關專業的教學用書。
劉延林
知名論壇Python爬蟲專題管理員,擅長Python爬蟲技術,并對Python數據分析與挖掘有深入研究。在CSDN等多個知名博客網站發表多篇技術文章,深受讀者的喜愛。
徐清徽
曾供職于國內頭部智能銷售企業和跨境電商企業,對Python Web技術、爬蟲和大數據技術均有涉獵,深度參與日均百億級數據量的爬蟲系統和大數據系統研發。