亚洲一二三av,国产又粗又猛又爽又黄海角,日韩精品中文字幕久久臀

零基礎入門Pandas—Python數據分析

定價：¥129

中教價：¥77.40 (6.00折）

庫存數： 1

購買數量：

基于實用、易學的原則，從功能、使用、原理等多個維度對Pandas做了全方位的詳細講解。本書是Python數據分析入門書，每個概念都通過簡單實例來闡述，便于讀者理解與上手。具體內容包括：Python及Pandas基礎知識，加載和查看數據集，Pandas的DataFrame對象和Series對象，使用matplotlib、seaborn和Pandas提供的繪圖方法為探索性數據分析作圖，連接與合并數據集，處理缺失數據，清理數據，轉換數據類型，處理字符串，應用函數，分組操作，擬合及評估模型，正則化方法與聚類技術等。

本書特色
（1）細致講解了Pandas的基礎知識和常見用法，用簡單實例闡述如何使用Pandas解決復雜的現實問題。
（2）提供了將Pandas與真實數據集結合使用的入門知識，涵蓋組合數據集、處理缺失數據以及構建數據集等，指導建立預測、聚類、推理和探索的模型，便于進行數據分析和可視化。
（3）從基本的字符串操作到跨數據幀同時應用函數，書中內容涉及強大的數據清理技術。
（4）介紹如何利用Matplotlib、Seaborn、Statsmodels和Sklearn等庫輔助進行Python數據分析，涵蓋數據處理、數據可視化、數據建模等內容。

我的數據科學教學生涯始于2013年第一次參加SoftwareCarpentry研討班。此后，就一直在從事這方面的教學工作。2019年，我有幸成為RStudio(現為PBC Posit)教育集團的一名實習生。那時，數據科學教育方興未艾。實習結束之后，我想將教學與醫學的結合作為我的博士學位論文選題。幸運的是，我認識學校的一位圖書管理員Andi Ogier，她把我介紹給了Anne M.Brown，Anne也對健康科學中的數據科學教學很感興趣。之后的故事大家都知道了。Anne成為了我的博士生導師，我和指導委員會的其他成員，包括Dave Higdon、Alex Hanlon和Nikki Lewis，一起研究醫學和生物醫學領域中的數據科學教育。本書第1版為我的學位論文研討班要講授哪些數據科學的相關內容奠定了基礎。本書第2版納入了我在學習和研究教育和教學法時學到的許多內容。

簡而言之，一定要交個圖書管理員做朋友，他的工作與數據之間聯系緊密。

2013年，我甚至對數據科學這個詞聞所未聞。當時我還在攻讀流行病學的MPH學位，對于本科專業背景為心理學和神經科學的我來說，t檢驗、方差分析以及線性回歸之外的各種統計學方法深深吸引了我。也正是在2013年秋天，我第一次參加了SoftwareCarpentry研討班，并擔任了MPH項目的定量方法(Quantitative Methods)課程(該課程是第一學期流行病學和生物統計學的一門綜合課)的助教，并第一次開始授課。自此，我便一直在從事數據科學領域的教學工作。

當年，我學習的第一門數據科學導論課程由Rachel Schutt博士、Kayur Patel博士和Jared Lander三位老師講授，回顧多年來走過的路程，感觸良多。三位老師打開了我的眼界。對我來說，之前那些貌似不可思議的事情都變得稀松平常，沒有做不到的，只有想不到的(盡管能做到的不一定是最好的)。數據科學的技術細節編碼方面是由Jared用R語言講授的。

當年，我一直想學R語言，Python和R語言之爭從未動搖過我的決心。一方面，我認為Python只是一種編程語言；另一方面，我并不知道Python有大量的分析工具(從那時起我已經學會了很多工具，并取得了長足的進步)。在了解了SciPy堆棧和Pandas后，我認為它們就像橋梁一樣連通了我學到的Python知識，以及我在流行病學研究和數據科學的學習中獲得的知識。當精通R語言后，我發現其與Python有很多相似之處。我也意識到很多數據清理任務(以及常規的編程任務)都涉及思考如何得到所需的東西，剩下的基本都是語法問題而已。在進行數據分析時，最重要的是設計好分析的步驟，不要被編程細節所困擾。我用過很多種編程語言，從來不糾結于哪種語言更好。話雖如此，本書面向的是Python數據分析領域的新手。

在過去的幾年中，我認識了很多人，參加了很多活動，也學到了很多的技能，本書就是對這些年經驗的總結。其中，我學到的比較重要的一件事情(除了先要搞清楚問題到底是什么，以便用谷歌來搜索相關的Stack Overflow（IT問答網站，面向編程人員群體）頁面之外)是：閱讀文檔非常必要。作為一個參與過協作課程并編寫過Python庫和R軟件包的人，我可以負責任地說，編寫文檔確實需要花費大量的時間和精力，這就是為什么整本書中不斷引用相關文檔頁面的原因。有些函數有非常多的參數，應用的場景也不相同，一一介紹是不現實的。如果本書過于關注這些細節，那么書名要改成Loading Data Into Python了。當然，隨著處理數據的增多、對各種數據結構越來越熟悉，你最終將會具備一定的預測能力。即使對之前從未見過的代碼，也可以合理地推斷出其執行結果。希望本書能為讀者提供一個堅實的基礎，助其自己進行探索，從而成為一個自學成才的學習者。

在撰寫本書的過程中，我遇到了很多人，也從他們身上學到了很多東西，其中很多都是關于最佳實踐的，比如編寫向量化語句以替代循環語句、測試代碼，以及組織項目目錄結構等。從實際的教學過程中我也學到了很多關于教學的知識，以教促學確實是學習新知識的最佳方法。在過去的幾年里，我學到的很多東西都是在我試圖弄清楚如何教別人時獲得的。一旦掌握了基礎知識，學習新內容就相對容易了。教與學的過程多次重復后，會驚訝于自己學會了很多，比如學會了用于谷歌搜索的很多術語，并能解讀Stack Overflow頁面的解答。很多高手也在搜索他人提出的問題。無論這是你學習的第幾種編程語言，希望本書都能為你提供一個堅實的基礎，為你搭建一座通往其他數據分析語言的橋梁。

本書結構

本書共分為五部分，還包括一系列的附錄。

第一部分

該部分基于真實的數據集介紹Pandas基礎知識。

第1章首先介紹如何使用Pandas加載數據集，并查看數據的行和列，還大致講解Python和Pandas的語法，最后給出若干具有啟發性的示例，展示Pandas的用途。

第2章深入探討Pandas的DataFrame和Series對象，還介紹布爾子集、刪除值以及導入和導出數據的不同方式。

第3章主要介紹使用Matplotlib、Seaborn和Pandas的繪圖方法以及如何創建探索性數據分析的繪圖。

第4章討論Hadley Wickham的論文《整潔數據》(Tidy Data)，該論文涉及常見的數據重塑和清理問題。

第5章側重于介紹對數據應用函數的內容，這是一項重要的技能，涵蓋了許多編程主題。當需要擴展數據操作的規模時，了解.apply()的工作原理將有助于編寫并行和分布式代碼。

第二部分

該部分重點介紹加載數據后如何進一步處理數據。

第6章側重于數據集的合并，即要么將它們連接在一起，要么合并不同的數據。

第7章介紹規范化數據以更穩健地存儲數據。

第8章介紹.groupby()操作(即拆分應用組合)。這些強大的概念，如.apply()，通常是擴展數據所必需的，也是高效聚合、轉換或過濾數據的好方法。

第三部分

該部分涵蓋存儲在列中的數據類型。

第9章介紹數據缺失會引發的問題、如何創建數據以填充缺失數據，以及如何處理缺失數據，特別是當對這些數據進行計算時可能會出現的問題。

第10章介紹數據類型，以及如何在DataFrame列中轉換類型。

第11章介紹字符串操作，這是數據清理任務中經常遇到的問題，因為數據通常被編碼為文本。

第12章探討Pandas強大的日期和時間功能。

第四部分

在數據全部清洗完畢并準備就緒后，下一步就是擬合模型。模型不僅可用于預測、聚類和推斷，還可用于探索性的目的。該部分的目標不是講授統計學(這方面的書已經很多了)，而是想展示這些模型的擬合方法，以及它們是如何與Pandas交互的。該部分內容對于使用其他編程語言進行模型擬合也頗具借鑒意義。

第13章的線性模型是一種較簡單的擬合模型。本章介紹如何使用statsmodels庫和Scikitlearn庫來擬合這些模型。

第14章的廣義線性模型，顧名思義，是更廣義上的一種線性模型。通過該模型我們可以用不同的響應變量來擬合模型，例如二元數據或計數數據。

第15章介紹生存模型，當出現數據刪失時需要用到它。

第16章，在擬合好核心模型之后需要進行模型診斷，對多個模型進行比較，并選出最佳模型。

第17章，當擬合的模型過于復雜或出現過擬合時，就要用到正則化技術。

第18章，當不知道數據中隱含的真實答案時可以使用聚類技術，但需要一種方法將相似的數據點聚類或進行分組。

第五部分

本書最后部分主要介紹Python的生態系統，并提供了一些額外的參考資料。

第19章簡單介紹Python的計算堆棧，并開啟了代碼性能和擴展的學習之路。

第20章提供一些額外的鏈接和參考資料。

附錄

可以將附錄視為Python編程的入門教程。雖然它們并不是Python的完整介紹，但各個附錄確實是對本書某些主題的有益補充。

附錄A為介紹性章節，提供了概念圖，以幫助分解概念并將其相互關聯。

附錄B～附錄J涵蓋與運行Python代碼相關的所有任務，從安裝Python到使用命令行執行腳本，再到組織代碼，還包括創建Python環境和安裝庫。

附錄K～附錄Y涵蓋與Python和Pandas相關的編程概念，是本書主要的補充參考。

附錄Z復制了R中的一些建模代碼，作為比較類似結果的參考。

如何閱讀本書

無論是Python新手還是經驗豐富的Python程序員，都建議從頭至尾閱讀整本書。擬將本書用作教材的讀者會發現，本書的章節安排很適合研討班或課堂教學。

對于初學者

對于初學者來說，建議先瀏覽附錄A～附錄J，因為這些附錄中講解了如何安裝Python并使其正常工作。完成這些步驟后，讀者就可以學習本書的主要內容了。前幾章在必要時均引用了相關附錄，并在開頭給出了概念圖和學習目標，有助于讀者了解該章要介紹的主要內容，同時指出了需提前閱讀的相關附錄。

對于經驗豐富的Python程序員

對于經驗豐富的Python程序員來說，前兩章的內容足以入門并掌握Pandas的語法，可以將本書其余的部分作為參考。前幾章開頭部分的學習目標指出了本章涵蓋的主題。第一部分中關于整潔數據的章節和第三部分的章節對數據操作特別有幫助。

對于培訓講師

對于培訓講師來說，若將本書用作教學參考可按書中順序來講授每一章。每章的教學時長約為45～60分鐘。本書在結構安排上盡量使各章不引用后續章節的內容，從而最大限度地減少學生的學擔但可以根據實際需要靈活調整章節的順序。

附錄A中的概念圖和前幾章中列出的學習目標有助于了解概念之間的關系。

設置

每個人的計算機設置都會有所不同，因此，要想獲得有關設置環境的最新說明可以訪問本書在GitHub的頁面，或者參考附錄B以獲取有關如何在計算機上安裝Python的信息。

獲取數據

獲取本書所有數據和代碼的最簡單方法是掃描下方二維碼。有關如何下載本書數據的最新說明可以在本書的存儲庫中找到，存儲庫及有關如何獲得本書的更詳細說明參見附錄B.3。

安裝Python

附錄G和附錄H分別給出了環境和安裝軟件包，可以從中找到如何設置Python的URL(Uniform Resource locator,URL,統一資源定位系統)和命令，以便編寫代碼。同樣，本書的存儲庫中始終包含最新的說明。

全書代碼

第一部分引言

第1章Pandas DataFrame基礎知識

1.1引言

1.2加載第一個數據集

1.3查看列、行和單元格

1.3.1根據列名選擇列并進行子集化

1.3.2對行進行子集化

1.3.3根據行號子集化行

1.3.4混合

1.3.5子集化行和列

1.4分組和聚合計算

1.4.1分組方式

1.4.2分組頻率計數

1.5基本繪圖

本章小結

第2章Pandas的數據結構

2.1創建數據

2.1.1創建Series

2.1.2創建DataFrame

2.2Series

2.2.1類似于ndarray的Series

2.2.2布爾型子集： Series

2.2.3自動對齊并向量化(廣播)

2.3DataFrame

2.3.1DataFrame的組成

2.3.2布爾子集化DataFrames

2.3.3自動對齊和向量化(廣播)

2.4更改Series和DataFrame

2.4.1添加列

2.4.2直接更改列

2.4.3使用.assign()方法修改列

2.4.4刪除值

2.5導出和導入數據

2.5.1Pickle

2.5.2逗號分隔值

2.5.3Excel

2.5.4Feather文件格式

2.5.5Arrow

2.5.6Dictionary

2.5.7JavaScript對象表示法

2.5.8其他數據的輸出類型

本章小結

第3章繪圖入門

3.1為什么要將數據可視化

3.2Matplotlib基礎

3.2.1圖對象和坐標軸子圖

3.2.2圖形剖析

3.3使用Matplotlib繪制統計圖

3.3.1單變量數據

3.3.2雙變量數據

3.3.3多變量數據

3.4Seaborn

3.4.1單變量數據

3.4.2雙變量數據

3.4.3多變量數據

3.4.4分面

3.4.5Seaborn的樣式和主題

3.4.6如何瀏覽Seaborn文檔

3.4.7下一代Seaborn接口

3.5Pandas繪圖方法

3.5.1直方圖

3.5.2密度圖

3.5.3散點圖

3.5.4蜂巢圖

3.5.5箱線圖

本章小結

第4章整潔數據

4.1包含值而非變量的列

4.1.1固定一列

4.1.2固定多列

4.2包含多個變量的列

4.2.1單獨拆分和添加列

4.2.2在單個步驟中進行拆分和組合

4.3行與列中的變量

本章小結

第5章函數的應用

5.1函數入門

5.2函數應用基礎

5.2.1Series的.apply()方法

5.2.2DataFrame的.apply()方法

5.3向量化函數

5.3.1使用NumPy

5.3.2使用Numba庫

5.4Lambda函數

本章小結

第二部分數據處理

第6章數據組合

6.1組合數據集

6.2連接

6.2.1查看DataFrame的組成

6.2.2添加行

6.2.3添加列

6.2.4不同索引下的連接操作

6.3跨多張表的觀測單元

6.3.1使用循環加載多個文件

6.3.2使用列表解析加載多個文件

6.4合并多個數據集

6.4.1一對一合并

6.4.2多對一合并

6.4.3多對多合并

6.4.4使用assert語句進行檢查

本章小結

第7章數據規范化

7.1一張表中的多個觀測單元

7.2數據規范化過程

本章小結

第8章分組操作：分割應用組合

8.1聚合

8.1.1基本的單變量分組聚合

8.1.2Pandas內置的聚合方法

8.1.3聚合函數

8.1.4同時傳入多個函數

8.1.5在.agg()方法中使用dict

8.2轉換

8.2.1zscore示例

8.2.2缺失值示例

8.3過濾器

8.4pandas.core.groupby.DataFrameGroupBy對象

8.4.1分組

8.4.2涉及多個變量的分組計算

8.4.3選擇分組

8.4.4遍歷分組

8.4.5多個分組

8.4.6平鋪結果

8.5使用多級索引

本章小結

第三部分數據類型

第9章缺失數據

9.1何為NaN值

9.2缺失值從何而來

9.2.1加載數據

9.2.2合并數據

9.2.3用戶輸入值

9.2.4重建索引

9.3處理缺失數據

9.3.1查找和統計缺失數據

9.3.2清理缺失數據

9.3.3缺失值計算

9.4Pandas內置的NA缺失值

本章小結

第10章數據類型

10.1常見的數據類型

10.2類型轉換

10.2.1轉換為字符串對象

10.2.2轉換為數值類型

10.3分類數據

10.3.1轉換為category類型

10.3.2操作分類數據

本章小結

第11章字符串和文本數據

11.1字符串

11.1.1子集化和字符串切片

11.1.2獲取字符串的最后一個字符

11.2字符串方法

11.3更多字符串方法

11.3.1.join()方法

11.3.2.splitlines()方法

11.4字符串格式化

11.4.1格式化的文字字符串

11.4.2格式化數字

11.5正則表達式

11.5.1匹配模式

11.5.2記住RegEx模式

11.5.3查找模式

11.5.4替換模式

11.5.5編譯模式

11.6regex庫

本章小結

第12章日期和時間

12.1Python的datetime對象

12.2轉換為datetime

12.3加載包含日期的數據

12.4提取日期的各個部分

12.5日期運算和timedeltas

12.6datetime方法

12.7獲取股票數據

12.8基于日期子集化數據

12.8.1DatetimeIndex對象

12.8.2TimedeltaIndex對象

12.9日期范圍

12.9.1頻率

12.9.2偏移量

12.10日期變動

12.11重新采樣

12.12時區

12.13arrow庫

本章小結

第四部分數據建模

第13章線性回歸

13.1簡單線性回歸

13.1.1使用statsmodels庫

13.1.2使用Scikitlearn庫

13.2多元回歸

13.2.1使用statsmodels庫

13.2.2使用Scikitlearn庫

13.3包含分類變量的模型

13.3.1statsmodels中的分類變量

13.3.2Scikitlearn中的分類變量

13.4帶Transformer Pipelines的Scikitlearn中的onehot編碼

本章小結

第14章廣義線性模型

14.1邏輯回歸

14.1.1使用statsmodels庫

14.1.2使用Scikitlearn庫

14.1.3注意Scikitlearn默認值

14.2泊松回歸

14.2.1使用statsmodels

14.2.2負二項回歸

14.3更多的GLM

本章小結

第15章生存分析

15.1生存數據

15.2KaplanMeier曲線

15.3Cox比例風險模型

本章小結

第16章模型診斷

16.1比較單個模型

16.1.1殘差

16.1.2QQ圖

16.2比較多個模型

16.2.1比較線性模型

16.2.2比較GLM模型

16.3K折交叉驗證

本章小結

第17章正則化

17.1為什么要正則化

17.2LASSO回歸

17.3嶺回歸

17.4彈性網

17.5交叉驗證

本章小結

第18章聚類

18.1K均值聚類

18.2層次聚類

18.2.1Complete聚類算法

18.2.2Single聚類算法

18.2.3Average聚類算法

18.2.4Centroid聚類算法

18.2.5Ward聚類算法

18.2.6手動設置閾值

本章小結

第五部分附錄

附錄A概念圖

附錄B安裝和設置

B.1安裝Python

B.1.1Anaconda

B.1.2Miniconda

B.1.3卸載Anaconda或Miniconda

B.1.4Pyenv

B.2安裝Python包

B.3下載本書數據

附錄C命令行

C.1安裝

C.1.1Windows系統

C.1.2macOS

C.1.3Linux系統

C.2基礎

附錄D項目模板

附錄EPython代碼編寫工具

E.1命令行和文本編輯器

E.2Python和iPython

E.3Jupyter

E.4集成開發環境

附錄F工作目錄

附錄G環境

G.1Conda環境

G.2Pyenv Pipenv

附錄H安裝程序包

H.1使用Conda安裝Python庫

H.2更新程序包

附錄I導入庫

附錄J代碼風格

附錄K容器：列表、元組和dict

K.1列表

K.2元組

K.3dict

附錄L切片值

附錄M循環

附錄N推導式

附錄O函數

O.1默認參數

O.2任意參數

O.2.1*args

O.2.2**kwargs

附錄P范圍和生成器

附錄Q多重賦值

附錄Rnumpy.ndarray

附錄S類

附錄TCopyWarning設置

T.1修改數據子集

T.2替換值

T.3更多的資源

附錄U方法鏈

附錄V計時代碼

附錄W字符串格式化

W.1C語言風格

W.2字符串格式化： .format()方法

W.3格式化數字

附錄X條件語句(ifelifelse)

附錄Y紐約ACS邏輯回歸示例

Y.1準備數據

Y.2使用Scikitlearn庫

附錄Z復制R語言中的結果

Z.1線性回歸

Z.2邏輯回歸

Z.3泊松回歸

你還可能感興趣

我要評論

您的姓名	驗證碼：
留言內容

xxxfreesexmoves-haodiaocao这里只有精品视频-欧美性受黑人性爽-欧美性受xxxxxx黑人xyx性爽|www.jsyyzsb.com