《Python與數據科學》基于Python進行實踐開發,主要涉及的內容為:用敏捷式大數據開發方法論創建分析應用;用數據—價值棧,在一系列敏捷周期中創建價值;用多種數據結構從單個數據集中提取特征,獲取洞察;用圖表可視化數據,通過交互性報表從不同角度展示數據;用歷史數據進行預測,將預測轉化為行動。
《Python與數據科學》分為基礎編、分析編、挖掘編和提高編四部分。基礎編包括數據科學簡介(第1章)和Python基礎知識(第2章)兩章。涉及數據科學的概念、數據科學的學習方法、數據科學家的概念、數據科學家的應備技能、Python與數據科學的關系、數據科學領域中常用的Python包。分析編包括Python數據獲取和數據預處理(第3章)和利用Python進行數據分析(第4章)兩章。內容包括Python數據獲取的各種方式:從文件中、從數據庫中、從Web網頁中獲取數據,對獲取的數據可采用Python Pandas進行數據清洗、數據集成與數據轉換等數據預處理工作。挖掘編包括利用Python進行數據挖掘(第5章)和利用Python進行文本挖掘(第6章)兩章。在數據挖掘部分首先簡單介紹了Python的Scikit-Learn數據挖掘庫的安裝與使用,然后結合實例詳細介紹數據挖掘中常用的算法;在文本挖掘部分首先詳細介紹文本挖掘的一般流程,以及如何使用Python來進行文本挖掘,然后文本自動分類、文本聚類、文本情感分析、全文檢索這四個應用為例結合Python實例做具體介紹。提高編介紹了Python在海量數據分析處理上的應用(第7章)。首先介紹了大數據操作系統Spark的安裝使用,然后以PageRank和推薦系統這兩個典型的海量數據分析(大數據分析)為例來介紹Python在這一方面的應用。
王仁武,男,1968年4月出生,工科博士、副教授,現為華東師范大學商學院信息學系教師,主要研究方向為數據分析、數據挖掘和信息系統。
已出版(參編)主要著作:
商業分析華東師范大學出版社 2014年9月
序列構造神經網絡與多維數據分析上海社科院出版社 2008年11月