本書是“對(duì)比 Excel”的第 4 本書,全書依舊突出對(duì)比學(xué)習(xí)的特點(diǎn),通過(guò)對(duì)比 Excel 的方式來(lái)講解如何利用 Python 學(xué)習(xí)統(tǒng)計(jì)學(xué)知識(shí),即統(tǒng)計(jì)分析。本書是“對(duì)比 Excel”之前 3 本書的延續(xù),同時(shí)也是數(shù)據(jù)分析師技能樹的擴(kuò)展。本書的主線是圍繞統(tǒng)計(jì)學(xué)的理論知識(shí)展開(kāi)的,層層遞進(jìn),依次為描述性分析、概率和概率分布、抽樣推斷與參數(shù)估計(jì)、假設(shè)檢驗(yàn)、方差分析、卡方分析、回歸模型、相關(guān)性分析、時(shí)間序列。每個(gè)理論知識(shí)又由核心的 3 個(gè)部分組成:該理論知識(shí)在數(shù)據(jù)分析中的應(yīng)用、理論知識(shí)講解、Excel 和Python 工具的實(shí)現(xiàn),讓大家學(xué)完本書以后既學(xué)到了理論知識(shí),也知道如何將理論知識(shí)在數(shù)據(jù)分析中應(yīng)用,還知道如何用 Excel 和 Python 去實(shí)現(xiàn)。
張俊紅,某互聯(lián)網(wǎng)公司資深數(shù)據(jù)分析師,暢銷書《對(duì)比Excel,輕松學(xué)習(xí)Python數(shù)據(jù)分析》作者。對(duì)比學(xué)習(xí)法倡導(dǎo)者,入職數(shù)據(jù)分析師系列叢書作者。喜歡分享,致力于做一個(gè)數(shù)據(jù)科學(xué)路上的終身學(xué)習(xí)者、實(shí)踐者、分享者。公眾號(hào)“俊紅的數(shù)據(jù)分析之路”運(yùn)營(yíng)人。
第1章 認(rèn)識(shí)統(tǒng)計(jì)學(xué) / 1
1.1 統(tǒng)計(jì)學(xué)是什么 ................................................................................................... 1
1.2 統(tǒng)計(jì)學(xué)和數(shù)據(jù)分析有什么關(guān)系 ...................................................................... 1
1.3 Python 統(tǒng)計(jì)學(xué)和統(tǒng)計(jì)學(xué)有什么區(qū)別 .............................................................. 2
第2章 描述性分析 / 3
2.1 描述性分析在數(shù)據(jù)分析中的應(yīng)用 .................................................................. 3
2.2 數(shù)據(jù)類型 ........................................................................................................... 3
2.3 數(shù)據(jù)整理與展示 ............................................................................................... 3
2.3.1 分類型數(shù)據(jù)整理與展示 ...................................................................... 4
2.3.2 數(shù)值型數(shù)據(jù)整理與展示 ...................................................................... 7
2.4 概括性分析 ..................................................................................................... 17
2.4.1 集中趨勢(shì)指標(biāo) .................................................................................... 18
2.4.2 離散程度指標(biāo) .................................................................................... 23
2.4.3 分布情況指標(biāo) .................................................................................... 25
2.5 其他容易混淆的概念 ..................................................................................... 28
2.5.1 均值與期望 ........................................................................................ 28
2.5.2 比例和比率 ........................................................................................ 30
2.5.3 百分比和百分點(diǎn) ................................................................................ 31
第3章 概率和概率分布 / 33
3.1 概率和概率分布在數(shù)據(jù)分析中的應(yīng)用場(chǎng)景 ................................................ 33
3.2 常見(jiàn)概念 ......................................................................................................... 33
3.2.1 什么是隨機(jī)事件 ................................................................................ 33
3.2.2 什么是隨機(jī)變量 ................................................................................ 34
3.2.3 什么是概率 ........................................................................................ 34
3.3 離散型隨機(jī)變量概率分布 ............................................................................ 36
3.3.1 概率分布表與概率分布圖 ................................................................ 36
3.3.2 累積分布函數(shù)與百分點(diǎn)函數(shù) ............................................................ 37
3.3.3 期望與方差 ........................................................................................ 37
3.3.4 常見(jiàn)離散型概率分布 ........................................................................ 38
3.4 連續(xù)型隨機(jī)變量概率分布 ............................................................................ 46
3.4.1 概率密度與累積分布 ........................................................................ 46
3.4.2 期望與方差 ........................................................................................ 50
3.4.3 常見(jiàn)連續(xù)型概率分布 ........................................................................ 50
第4章 抽樣推斷與參數(shù)估計(jì) / 65
4.1 抽樣推斷與參數(shù)估計(jì)在數(shù)據(jù)分析中的應(yīng)用場(chǎng)景 ........................................ 65
4.2 抽樣的基本概念 ............................................................................................. 65
4.2.1 總體和樣本 ........................................................................................ 65
4.2.2 常用統(tǒng)計(jì)量 ........................................................................................ 66
4.3 常用的抽樣方式 ............................................................................................. 66
4.3.1 簡(jiǎn)單隨機(jī)抽樣 .................................................................................... 67
4.3.2 分層抽樣 ............................................................................................ 67
4.4 為什么樣本可以代表總體 ............................................................................ 68
4.4.1 中心極限定理 .................................................................................... 68
4.4.2 大數(shù)定理 ............................................................................................ 70
4.5 參數(shù)估計(jì)的基本方法 ..................................................................................... 71
4.5.1 點(diǎn)估計(jì) ................................................................................................ 71
4.5.2 區(qū)間估計(jì) ............................................................................................ 72
4.6 區(qū)間估計(jì)的類型 ............................................................................................. 72
4.6.1 一個(gè)總體參數(shù)的區(qū)間估計(jì) ................................................................ 72
4.6.2 兩個(gè)總體參數(shù)的區(qū)間估計(jì) ................................................................ 80
第5章 假設(shè)檢驗(yàn) / 88
5.1 假設(shè)檢驗(yàn)在數(shù)據(jù)分析中的應(yīng)用場(chǎng)景 ............................................................ 88
5.2 假設(shè)檢驗(yàn)基本思想 ......................................................................................... 88
5.3 假設(shè)檢驗(yàn)中常見(jiàn)的兩種錯(cuò)誤 ........................................................................ 90
5.4 顯著性水平和功效 ......................................................................................... 90
5.5 假設(shè)檢驗(yàn)的基本步驟 ..................................................................................... 91
5.6 一個(gè)總體參數(shù)的檢驗(yàn) ..................................................................................... 94
5.6.1 總體均值的檢驗(yàn) ................................................................................ 94
5.6.2 總體比例的檢驗(yàn) ................................................................................ 98
5.6.3 總體方差的檢驗(yàn) ................................................................................ 99
5.7 兩個(gè)總體參數(shù)的檢驗(yàn) ................................................................................... 101
5.7.1 兩個(gè)總體均值之差的檢驗(yàn) .............................................................. 101
5.7.2 兩個(gè)總體比例之差的檢驗(yàn) .............................................................. 106
5.7.3 兩個(gè)總體方差比的檢驗(yàn) .................................................................. 107
5.8 假設(shè)檢驗(yàn)中最小樣本量的確定 .................................................................. 109
5.9 A/B 測(cè)試的完整流程 .................................................................................... 111
第6章 方差分析 / 113
6.1 方差分析在數(shù)據(jù)分析中的應(yīng)用場(chǎng)景 ........................................................... 113
6.2 方差分析的 3 個(gè)假設(shè) .................................................................................... 113
6.3 正態(tài)性檢驗(yàn)方法 ............................................................................................ 113
6.3.1 直方圖檢驗(yàn) ....................................................................................... 113
6.3.2 Q-Q 圖檢驗(yàn)法 ................................................................................... 114
6.3.3 KS 檢驗(yàn) ............................................................................................. 114
6.3.4 AD 檢驗(yàn) ............................................................................................ 115
6.3.5 W 檢驗(yàn) .............................................................................................. 116
6.3.6 非正態(tài)數(shù)據(jù)轉(zhuǎn)換 ............................................................................... 116
6.4 方差齊性檢驗(yàn)方法 ........................................................................................ 118
6.4.1 方差比檢驗(yàn) ....................................................................................... 118
6.4.2 Hartley 檢驗(yàn) ...................................................................................... 118
6.4.3 Bartlett 檢驗(yàn) ...................................................................................... 119
6.4.4 Levene 檢驗(yàn) ...................................................................................... 119
6.5 方差分析的基本步驟 ................................................................................... 120
6.6 方差分析的多重比較 ................................................................................... 125
6.6.1 LSD 多重比較法 .............................................................................. 125
6.6.2 Sidak 多重比較法 ............................................................................ 127
6.6.3 Bonferroni 多重比較法 ................................................................... 128
6.7 多因素方差分析 ........................................................................................... 129
6.7.1 無(wú)交互作用的多因素方差分析 ...................................................... 129
6.7.2 有交互作用的多因素方差分析 ...................................................... 134
第7章 卡方分析 / 140
7.1 卡方分析在數(shù)據(jù)分析中的應(yīng)用 .................................................................. 140
7.2 理論講解 ....................................................................................................... 140
7.3 Excel 與 Python 實(shí)現(xiàn) ................................................................................... 142
第8章 回歸模型 / 144
8.1 回歸模型在數(shù)據(jù)分析中的應(yīng)用場(chǎng)景 .......................................................... 144
8.2 一元線性回歸 ............................................................................................... 144
8.2.1 多元回歸方程形式 .......................................................................... 144
8.2.2 最小二乘參數(shù)估計(jì)法 ...................................................................... 145
8.2.3 擬合程度判斷 .................................................................................. 147
8.2.4 顯著性檢驗(yàn) ...................................................................................... 147
8.2.5 Excel 與 Python 實(shí)現(xiàn) ....................................................................... 149
8.3 多元線性回歸 ............................................................................................... 151
8.3.1 回歸方程形式 .................................................................................. 151
8.3.2 最小二乘參數(shù)估計(jì) .......................................................................... 151
8.3.3 擬合程度判斷 .................................................................................. 151
8.3.4 顯著性檢驗(yàn) ...................................................................................... 152
8.3.5 多重共線性 ...................................................................................... 153
8.3.6 Excel 與 Python 實(shí)現(xiàn) ....................................................................... 153
8.4 協(xié)方差分析 ................................................................................................... 155
8.4.1 理論講解 .......................................................................................... 155
8.4.2 Excel 與 Python 實(shí)現(xiàn) ....................................................................... 157
第9章 相關(guān)性分析 / 159
9.1 相關(guān)性分析在數(shù)據(jù)分析中的應(yīng)用場(chǎng)景 ...................................................... 159
9.2 相關(guān)系數(shù)的種類 ........................................................................................... 159
9.2.1 皮爾遜相關(guān)系數(shù) .............................................................................. 159
9.2.2 斯皮爾曼相關(guān)系數(shù) .......................................................................... 162
9.2.3 肯德?tīng)栂嚓P(guān)系數(shù) .............................................................................. 162
9.2.4 Excel 與 Python 實(shí)現(xiàn) ....................................................................... 163
9.3 相關(guān)與因果 ................................................................................................... 164
第 10 章 時(shí)間序列 / 165
10.1 時(shí)間序列在數(shù)據(jù)分析中的應(yīng)用 ................................................................ 165
10.2 平穩(wěn)時(shí)間序列預(yù)測(cè) .................................................................................... 165
10.2.1 簡(jiǎn)單平均法 .................................................................................... 166
10.2.2 移動(dòng)平均法 .................................................................................... 167
10.2.3 指數(shù)平滑法 .................................................................................... 169
10.3 時(shí)間序列預(yù)測(cè)模型 .................................................................................... 172
10.3.1 AR 模型 .......................................................................................... 172
10.3.2 MA 模型 ......................................................................................... 174
10.3.3 ARMA 模型 ................................................................................... 175
10.3.4 ARIMA 模型 .................................................................................. 176
10.4 時(shí)間序列分解預(yù)測(cè) .................................................................................... 177
10.5 趨勢(shì)時(shí)間序列預(yù)測(cè) .................................................................................... 187
10.5.1 線性趨勢(shì)預(yù)測(cè) ................................................................................ 187
10.5.2 指數(shù)趨勢(shì)預(yù)測(cè) ................................................................................ 189