本書用于提升互聯網公司員工的數據應用能力,即數據化運營能力。首先,從最常用的數據圖表切入,幫助執行層正確地做圖,管理層正確地看圖;接著,梳理運營中最基本的數據應用知識,涉及數據獲取、數據清洗、數據認知、分析框架、指標體系、運營實驗等內容。然后,介紹了作者認為必要的統計學知識,包括假設檢驗、方差分析、回歸分析和時間序列分解,并引入了管理科學中的規劃求解方法。最后,介紹了數據分析工具的發展趨勢,并分享了作者近些年的工作及學習心得。
本書適讀人群:互聯網公司的數據分析師、運營人員、產品經理,以及中層管理人員。
●掌握基礎圖表的高級特性
●梳理數據化運營的基本方法、原則、思維模式
●深度量化分析方法(樸素貝葉斯模型、假設檢驗、方差分析、回歸分析、時間序列分析模型等)
●幫助你科學地決策
尊敬的讀者,您能翻開本書,是我的榮幸。雖然書名中含有“速成”兩字,但我相信理性的讀者都不會期待真的有學習捷徑。我發現,數據分析的入門者往往不能快速形成合適的知識框架,導致其走了許多彎路。因此,本書不遵從教科書邏輯,而從實際應用出發,相信能夠提高讀者的學習效率。總的來說,這是一本關于商業數據應用的書。希望本書的內容能給讀者的工作和生活帶來實質性的幫助。
為什么寫本書
長久以來,我都有成為數據科學家的夢想。雖然朝著這個目標奮斗了幾年,但是若問我數據科學家到底是什么,我依然沒有明確的答案。兩件事兒,是數據科學家必須做到的:一是運用合理的數據分析方法,從數據中形成商業決策;二是能讓越來越多的人正確地理解并應用數據分析方法。這兩件事兒,也就成為我的奮斗目標。所以,當電子工業出版社的編輯聯系我寫作本書時,我欣然應允了。
誰適合閱讀本書
“讓讀者正確地理解并應用數據分析”是本書的主要目的。廣義地說,本書的內容淺顯,適合所有對數據分析感興趣的人。但依我的初衷,本書是寫給互聯網公司的運營、產品和管理者的。畢竟,我的工作經驗均來自互聯網背景,因此認知會有一定的局限性,故而這些內容不一定適用于所有行業。
如何閱讀本書
首先,建議讀者在閱讀本書的同時上手操練。本書內容所涉及的實踐操作,全部基于Excel 2016。Excel上手簡單、功能全面且運行穩定,它的實用性無須多言。
本書的內容結構比較“怪異”。先通過前三章解決“如何正確地作圖”這個問題。為什么要將作圖放在最前面呢?因為,運營和產品人員要在工作中制作大量圖表,管理者要閱讀大量圖表;若圖表做得不正確,難免出現信息扭曲,導致管理者決策失誤。所以,作圖者應該正確地作圖,管理者應該正確地看圖。因此,作者從作圖切入,進而展開本書的內容,比較符合實際。
接著,在第4章介紹了運營中最基本的數據應用知識。本章涵蓋的內容較多。作者的寫作邏輯是“缺什么補什么”,即以作者的認知為基礎,填補作者認為本書目標讀者所欠缺的數據知識(涉及數據庫基本結構、數據獲取、數據清洗、數據認知、建立分析框架、構建指標體系、運營活動量化等)。
第5章介紹一些簡單實用且必不可少的統計學知識。通過這些知識,讀者能夠培養自己的量化分析思維,并能體會到統計學的強大。第6章篇幅不長,但希望能為讀者打開“管理科學”這扇大門,即應用運籌學中的規劃求解方法。讓讀者體會到:做決策絕不僅是定性分析,它可以一步步量化獲得最優解。
第7章簡單介紹了數據分析的工具和運營工具。里面的部分內容由GrowingIO創始人張溪夢先生和神策數據創始人桑文鋒先生執筆。第8章寫了一些作者近年的心得體會,希望這些經驗能幫助讀者少走彎路。
作者建議初次閱讀本書的讀者先按章節順序快速通讀。在通讀之后,若在工作中遇到了某些難處,可以有針對性地精讀某一部分。另外,本書中所提及的參考書目,希望讀者重視,這些書都是很好的學習資源。
建議讀者關注作者的微信公眾號“川術”。作者會不定期地分享自己的感悟。本書中的數據都是“模擬的”,建議讀者將本書所提的方法應用在自己的數據中。若有強烈的需要,讀者可以在作者的微信公眾號留言。
感謝
首先,感謝出版方電子工業出版社,給予我機會將自己的經驗分享給大家。接著,感謝本書的編輯鄭柳潔及其他工作人員,在本書的撰寫和出版過程中給予的極大幫助。然后,要感謝我的老師、朋友和同事們,沒有他們,就沒有我經驗的積累和認知的提高。還要感謝本書的推薦人和其他專家,是他們的指導和關懷,讓我能高效地前進。最后,感謝我的家人,尤其是我有孕在身的妻子,在每一個伏案寫作的夜晚,給予我莫大的理解和無微不至的照顧。
胡晨川,統計學碩士,一個對數據分析充滿熱愛并努力成為數據科學家的年輕人。在數據分析工作上積累了些許經驗。現任職于國內知名網上訂餐平臺“餓了么”。作者先后就讀于浙江工商大學、云南財經大學及立信會計學院。個人微信公眾號“川術”,希望通過工作經驗的總結和知識的積累,形成切實可用的數據分析內容,幫助越來越多的人從數據分析中受益。
第1章 全面認識數據圖表 1
1.1 詳解數據圖表的基本構成 1
1.2 控制數據圖表中的信息量 9
1.3 真的需要作圖嗎 10
第2章 建立數據圖表的認知 14
2.1 利用散點圖探究數據間的關系 14
2.1.1 最基本的散點圖樣例 15
2.1.2 散點圖的制作 16
2.1.3 散點圖的變種1:添加平滑線 19
2.1.4 散點圖的變種2:利用氣泡圖觀察更多指標間的關系 20
2.1.5 散點圖的變種3:用分類矩陣形成決策 22
2.1.6 散點圖的局限性 23
2.2 利用柱形圖將“對比”做到極致 24
2.2.1 利用累加柱形圖對比數據結構的變化 25
2.2.2 多指標組合對比 27
2.2.3 用平均值優化單指標的對比 29
2.2.4 用瀑布圖觀察總量分解后的對比 32
2.2.5 如何正確對比數值指標與比率指標 33
2.3 用折線圖觀察時間序列數據 35
2.3.1 如何觀察趨勢 36
2.3.2 探尋趨勢變化的原因 38
2.4 利用面積圖觀察數據結構的變化趨勢 44
2.4.1 觀察動態的數據結構變化:堆積面積圖 44
2.4.2 用于隊列分析:堆積面積圖 45
2.5 用雷達圖進行靜態的多維對比 48
2.6 其他類型圖表概述 50
2.6.1 使用餅圖的6個“坑” 50
2.6.2 提升視覺沖擊力:樹狀圖 52
2.6.3 量化流程各環節間的轉化率:漏斗圖 52
第3章 數據圖表進階 54
3.1 數據圖表到底是什么 55
3.2 如何正確地選擇圖表 59
3.3 數據圖表中的細節 60
3.3.1 圖表背景和繪圖區背景 60
3.3.2 坐標軸 65
3.3.3 靈活使用輔助線 68
3.3.4 線性趨勢線的應用 69
3.3.5 應用移動平均趨勢線做時間序列的預測 72
3.3.6 添加信息增強線 74
3.3.7 用標注線指示必要的信息 75
3.4 能讓圖表升級的高級技巧 76
3.4.1 運用組合圖表增加信息承載量 76
3.4.2 運用子母圖增加圖表中的信息量 79
3.4.3 條件格式中的幾項實用功能 80
3.4.4 使用迷你圖表壓縮空間 85
3.4.5 用不等寬技術優化柱形圖和條形圖 86
3.4.6 使用Bullet圖進行績效評價的可視化 89
第4章 數據化運營的基礎知識 93
4.1 最基本的數據獲取能力 94
4.1.1 認知數據庫的一般構造 94
4.1.2 能夠閱讀最基本的取數代碼 95
4.1.3 用Excel獲取數據 98
4.2 快速認知數據 105
4.2.1 仔細審核數據源的質量 106
4.2.2 提升數據集的質量 107
4.2.3 統一數據類型和單位 111
4.2.4 描述統計分析 111
4.2.5 利用相關系數理解數據之間的關系 122
4.2.6 通過多維交叉深入認知數據集 125
4.3 幾套有用的分析思維框架 132
4.3.1 66 法則與SQVID 原則 133
4.3.2 麥肯錫的“七步成詩” 135
4.4 創造指標,應用指標 141
4.4.1 什么是指標 142
4.4.2 如何設計高質量的指標 143
4.4.3 指標組合:綜合指數 143
4.4.4 需要關注哪些核心指標 144
4.5 運營活動的量化 148
4.5.1 優秀的運營活動應具備哪些要素 148
4.5.2 需要哪些過程型和結果型指標 149
4.5.3 如何評價運營活動 149
4.5.4 從縱向與橫向兩個角度全面對比 151
4.5.5 一種更嚴謹的測試效果量化方法:DID 154
4.5.6 相似活動間效果的對比 155
4.5.7 關于運營活動量化的小結 156
4.6 數據化運營的思維方式 156
4.7 運營數據報告的必備要素 167
4.8 小結 170
第5章 快速提升量化分析能力. 171
5.1 用樸素貝葉斯模型進行預測 171
5.1.1 利用全概率公式的一個例子 174
5.1.2 讓大數定律給你自信 175
5.1.3 窺一斑而見全豹:中心極限定理 176
5.2 使用假設檢驗進行理性的推斷 177
5.2.1 統計分布是一切推斷的基礎 179
5.2.2 以正態分布為例,闡述假設檢驗的過程 181
5.2.3 雙側檢驗與單側檢驗 183
5.2.4 假設檢驗的細節補充 184
5.3 利用方差分析辨別方案的有效性 185
5.3.1 用戶激活措施的有效性判斷 186
5.3.2 運用置信區間增強數值估計的可靠性 189
5.3.3 兩兩比較尋找最精確的結論 190
5.3.4 理解方差分析的思維 191
5.4 淺談回歸技術的應用 191
5.4.1 因變量與自變量的相關關系是回歸的基礎 191
5.4.2 線性回歸建模的詳細過程 192
5.4.3 線性回歸分析中的注意點 204
5.5 用時間序列分解模型觀察波動 204
5.5.1 怎樣觀察時間序列數據 205
5.5.2 何為時間序列分解 206
5.5.3 時間序列分解的步驟解析 208
5.5.4 時間序列分解方法的應用局限性 212
5.6 如何優化調查問卷 213
5.6.1 態度型問題,增加選項以支撐量化分析 214
5.6.2 問題要有必要且貼合業務需求 215
5.6.3 設置過濾器,識別無效回答 215
5.6.4 避免雙重問題和一重半問題 216
5.6.5 動態地調查,設置問題庫以保障多次調查的質量 216
第6章 科學地決策 217
6.1 從數據中形成決策 217
6.2 線性規劃是什么 219
6.3 線性規劃建模的操作過程 220
6.3.1 建立邏輯清晰的表格 220
6.3.2 設置輸出單元格、目標單元格與可變單元格之前的運算關系 221
6.3.3 設置線性規劃建模參數 222
6.4 如何從數據中形成決策 223
6.5 4 類典型且實用的線性規劃模型 223
6.5.1 資源分配模型 224
6.5.2 成本收益平衡模型 226
6.5.3 網絡配送模型 227
6.5.4 混合模型 229
6.6 線性規劃模型小結 231
第7章 應用優秀的工具 233
7.1 互聯網數據分析工具的演進 234
7.1.1 流量時代 234
7.1.2 用戶時代 235
7.1.3 訂單時代 235
7.2 行為事件分析工具的簡單介紹 236
7.3 數據分析平臺簡介及趨勢 238
7.3.1 數據展現 238
7.3.2 數據處理 238
7.3.3 數據收集 239
7.4 值得推薦的小工具 240
7.4.1 團隊協作工具 240
7.4.2 其他小工具 241
第8章 工作經驗雜談 242
8.1 這些年犯過的錯誤 242
8.1.1 迷信業務模型,浪費公司資源 243
8.1.2 活躍率陷阱 244
8.1.3 不加選擇地進行數據追蹤 245
8.1.4 為了KPI 而做數據分析 246
8.1.5 忽略數據質量的保障機制 247
8.1.6 輕視業務執行,重視數據表現 248
8.1.7 不重視數據認知,盲目建模 248
8.1.8 只重視完成任務,忽略了團隊成員的個人發展需求 249
8.2 認清數據分析的邊界 250
8.2.1 數據庫并不能記錄一切 250
8.2.2 不可能分離多重因素影響 251
8.2.3 數據不能替代邏輯推理 251
8.2.4 預測的根基未必牢固 251
8.2.5 大多數人會因數據而變懶 252
8.3 我們需要讀些什么書 252
推薦序1
隨著信息經濟生態的加速形成,數據的力量正在被不斷激發。智能設備、物聯網、云計算等技術幫助人類構建著一個日益豐富的數據世界,其越來越完整地反映出我們所在的現實世界的面貌,并且通過對數據的進一步分析和歸納,探尋其中蘊含的規律,使我們對世界的認知能夠達到過去幾千年從未企及的深度。
一直以來,阿里云致力于為客戶提供普惠的計算能力和服務能力,我們希望通過阿里云提供的技術和平臺,幫助客戶把握DT時代的入口,讓客戶的數據得以不斷沉淀,能夠產生更大的價值。今天,我們很欣喜地看到,越來越多的企業擁有了數據資產,擁有了通往未來無限想象的可能。但是我們也清楚地認識到,只有讓數據產生商業價值,數據才能真正為社會、為消費者、為各行各業產生力量。
在浩如繁星的數據之下,一雙能夠理解和利用數據的深邃明眸顯得尤其珍貴,在《數據化運營速成手冊》中,我看到了一個熱愛數據分析工作的年輕人,如何不斷回顧、總結、提煉、打磨自己的工作場景,盡他所能地融合統計科學、商業思維、視覺工具等多領域知識,以最具象的方式與我們分享他的所思所得。他分享的知識也許并非前沿,操作指南也并非殿堂級的嚴謹,但卻很有溫度。這些內容從最具體的工作中來,帶我們到最普遍也是最實用的應用場景中去,幫助我們在日常工作中感知和發掘數據的價值,相信會吸引并幫助更多的人認識和使用數據。
大數據時代的帷幕剛剛拉開,對于數據資源這座寶貴的礦藏,我們今天的所見也許只是九牛一毛,未來還有無限的可能等待我們去挖掘。但是我相信,與應用相結合,讓數據產生商業價值,永遠是數據的生命所在。希望有更多像晨川一樣對數據抱有熱忱的年輕人加入進來,共同探索如何讓數據最有效地為商業需求服務,從中激發和傳播數據的能量,推進新的變革,期待與你們同行。
阿里巴巴集團資深副總裁、阿里云總裁,胡曉明
推薦序2
和很多互聯網公司的CEO一樣,我也本能地重視數據。在數據化運營的蠻荒時代,所謂的運營工作也許只有一個簡單的訪問計數。即使這樣,無論是個人網站主、網店店主,還是博客作者都會忍不住刷屏,恨不得聽到網站運行的每一個脈動。
后來,我們有了Google Analytics這樣的工具,腳本一載入,就像擁有了上帝視角,把網站的角角落落和用戶的起起落落都看得一清二楚。我們曾經認為這已經是傳統商業難以企及的運營條件,它能夠幫助我們打敗對手,建立長久的競爭優勢。但互聯網商業發展的日新月異,讓它的運營水平也跟著一起神速推進。很快事情就不再那么簡單,數據運營工作的復雜度和專業度每年都在翻倍,仿佛昨天還在學習一元二次方程,今天就已經是微積分的難度。互聯網行業的發展速度在提供創富神話的同時,也給我們的學習能力下了最后通牒。
我們已經無法憑借直覺經驗和抓大放小這樣的簡單原則來應用數據化運營。任何一項網絡服務都面臨著復雜的數據觀測、分析和應用需求,從用戶獲取、激活、留存、轉化和再傳播,每一個環節都能夠派生出上百個數據點來提供不同維度的指標,我們面臨遴選指標、跟蹤和匯報指標,以及建立PDCA改進行動機制的高難度協作。這既不是一個人能夠埋頭做完的活兒,也不是人多就力量大的任務。有效的數據化運營工作考驗團隊的領導力,識別重要任務的能力,溝通和協作的能力;同時也必然需要有團隊成員專注在這個環節,完整掌握這一組專業能力。晨川的《數據化運營速成手冊》正是從他的專業崗位經驗出發,為從業人員提供的一本實務指南。
本書的亮點還在于作者對有效學習的理解,以及構建知識框架的基本方式和專業讀者的實踐需求。從基礎圖表這個具象的事物開始,再升級到圖表的高級特性。然后再介紹數據化運營的基本方法和原則,再抽象到更深入的數據化運營思維模式。這種淺—深—淺—深的節奏也是我特別認可的學習模式。本書也留出了相當的篇幅跳出了基本的數據化運營工作,延伸到有深度的量化分析和決策科學領域,這對有意愿更深入研究和開發數據化運營工具與模型的專業人員也有啟發作用。對于CEO來說,我們一直說重視數據,養成基于數據設定目標和決策的習慣,但是這一切需要掌握了基本的數據技能后才能奏效。如果你不夠了解數據,自然不會真正信任它。
晨川在明道工作時,用他的專業和熱情幫助明道建立了數據化運營的基本框架。如今,他又能為行業留下實務著作,我有必要對他致以雙重的感謝,并真誠地推薦讀者靜下心來,開啟這項重要能力的學習。
明道創始人,任向暉