如今大數據越來越熱,大小公司都希望能利用優秀的數據分析來實現產品驅動,為公司創造更多利潤。要做好數據分析,就必須掌握一定的統計學知識,這引發了人們對統計學的熱情。而絕大多數人是沒有統計學的專業技能訓練的。本書為您詳細介紹生活中的統計學內容。全書內容豐富,具有一定的知識性、理論性及閱讀性。
前言:就這樣愛上統計學
統計學是一門與實際生活十分貼近的學科,它起源于研究社會經濟問題,早在古希臘時期,亞里士多德就發明了以記錄各希臘城邦的歷史、行政、科學、藝術、人口、經濟等數據的城邦紀要,除去這些日常記錄外,統計學也很早就被應用在衛生監察和健康等方面。
約翰醫生平息霍亂是一個著名的統計學例子;魜y是19世紀最令人害怕的流行疾病,它在倫敦曾肆虐多次,奪走了數千萬人的生命。約翰·斯諾統計了一些霍亂死者的生活情況,發現霍亂的發生與水源有明顯關聯,凡是在百老大街的水泵取水的倫敦居民,發病率明顯要高很多。由此,約翰醫生證明水源是霍亂傳播的一大途徑,提出了實用的幾種預防措施,有效降低了霍亂的致死率。
另一個類似的例子發生于克里米亞戰爭期間。18451856年,南丁格爾為克里米亞交戰雙方的傷兵服務,將后方醫院的死亡率由42.7%下降至2.2%,以人道、慈善之心挽救了許多人的生命。同時,她還是英國皇家統計學會的第一名女性會員,她發明了極區圖,反映了不同時間段內戰斗死亡的士兵人數與受傷而缺乏治療死亡的士兵人數,清晰地說明前者的數量少于后者,從而使英國當局意識到改善傷兵醫療工作的必要性。
在現代社會,統計學逐漸推廣到社會科學、自然科學和工程技術科學等越來越多的領域,應用例子更是多如繁星、數不勝數。美國零售巨頭沃爾瑪歸納分析了消費者的購物小票,發現年輕爸爸們在購買尿布時,常常會搭兩瓶啤酒,好在晚上看電視時過過酒癮。于是,沃爾瑪將兩者放在一起銷售,使尿布和啤酒的銷量均大幅增加,這就是著名的啤酒與尿布案例。
生活中的統計學
前言:就這樣愛上統計學
而1936年美國總統大選則是一個統計學家津津樂道的反面案例。著名的《文學摘要》雜志社按照電話簿目錄和汽車俱樂部成員名單向外派發了1 000萬份調查問卷,調查結果顯示蘭登將獲勝,但實際結果恰好與調查結果相反。
這是由于當時電話和汽車十分昂貴,幾乎是中產階級的代名詞,《文學摘要》忽略了這點,它的調查結果只能說明中產階級更支持蘭登,而實際上人數更多的貧困階級則是羅斯福的忠實擁護者。這一疏忽直接導致《文學摘要》威信掃地,關門?
在亞里士多德之后,英國的威廉·配弟使用數字、重量和尺度將社會經濟現象數量化,并于1672年出版《政治算數》一書,這是近代統計學成立的標志。從此,統計方法與數學計算和推理方法開始結合。
統計學的兩個核心理論是大數定理和中心極限定理,前者證明了一小部分樣本即可代表全體,后者解釋了樣本量和結果可靠性之間的聯系。這兩個定理共同保證了抽樣分析的合理性。本書開篇便介紹了這兩個定理,以及如何挑選樣本,確保分析結果的可靠性。
抽取出樣本數據后,探索性分析是不能跳過的一個分析步驟。本書的第2章介紹了各種探索性分析方法,第3章則用圖表的形式來表現分析結果。這兩個章節的意義在于初步了解樣本數據的特點。
概率分布是現代統計學的理論基礎。從15世紀開始,數學家就對賭博問題產生了濃厚的興趣,最知名的賭博問題有分賭注問題和三門問題等。傳統的賭博問題引出的是離散概率,由離散概率進一步研究,又得到連續概率。本書第4章討論了幾種常用的概率分布。
在學習統計學的理論基礎后,一個自然而然的想法是使用樣本中的信息去估計總體中的信息。例如,燈泡廠抽樣檢查時,抽取的燈泡壽命和全部燈泡的壽命是什么關系?參數估計和非參數估計所關心的就是這樣的問題。第4章詳細地討論了這些內容,即如何用樣本中的信息來表達總體中的信息。
有了對總體的估計后,我們還關心這個估計是否可靠。同樣的估計方法在不同情況下的可靠性是不同的,第5章總結了如何判斷估計值的可靠性,即假設檢驗的內容。第6章的主題是方差分析,它是假設檢驗的進一步延伸。方差分析與實驗設計緊密相關,它最早用于解決農業問題,即改變各個培養條件,通過觀察產量找出最佳的麥子種植方法。
第5、6、7三章的內容彼此相關,第8章則較為獨立。它研究了一些變量是如何決定另一些變量的,相關分析和回歸分析是統計學中十分重要的部分,也是實際生活中應用最廣的兩種分析方法。
總之,統計學是一門發展時間較長、較成熟的學科。隨著大數據的崛起,統計學也被注入了新的元素。越來越多的人激發了對統計學的興趣。本書較全面地介紹了常見的統計學分析方法,包括描述性統計分析、參數估計、非參數估計、相關分析和回歸分析等部分。此外,本書還注重與實際案例的結合,生活中的許多常見現象都可以在本書中找到蹤影。在寫作本書過程中,我們也注意堅持以下特色。
本書特色
1. 案例貼近生活,語言生動有趣,實用性強
統計學出現在生活中的方方面面,一些大家常見的生活現象背后蘊含著深刻的統計學原理。本書通過討論這些活生生的案例,使用生動活潑的語言,形象地講解了10余種統計分析方法,這些案例能幫助讀者較容易地領略統計分析背后的原理,而這些方法反過來又可以解決許多生活中的實際問題。通過閱讀本書,讀者能夠深切地體會到統計學在生活中的各種用處。
2. 內容深入淺出,層層遞進,適合各個層次的讀者
本書從最簡單的描述性統計分析入手,由易到難,依次講解了統計圖表繪制、概率分布等基礎知識,以及參數估計、方差分析、相關分析和回歸分析等分析方法。而在每一章節中,作者也精心安排知識點分布,以達到層層遞進的效果。本書內容深入淺出,讀者既可以按照順序依次閱讀,也可根據自己的實際水平,單獨閱讀每一章節。
3.文章脈絡清晰,構建出一個完整的數據分析知識體系
統計學分析的各個分析方法之間存在遞進關系,如方差分析是在假設檢驗的基礎上發展得來的,而假設檢驗又是對參數估計的拓展與延伸。本書按照各個知識點的關系合理地組織了文章結構,各個章節間彼此關聯,構建出一個完整的數據分析知識體系,可幫助讀者對統計分析形成一個全面的認識。
本書體系結構
本書共由8章構成,每一章都有一個獨立的主題,分別為數據的收集、描述性統計分析、繪制統計圖表、常用的幾種概率分布、參數估計和非參數估計、假設檢驗、方差分析、相關與回歸問題。這8個章節又進一步可分為兩大部分。
第一部分為前4章。其中第1章討論了大數定律、中心極限定理和幾種常用的抽樣方法,解釋了統計分析中樣本數據通常是從何而來,以及統計分析方法為何有效。第2章討論了一些常見的統計量,如均值、方差、四分位差等,并從統計學角度嚴格地闡述了它們的不同,以及它們的特點,這一章節有助于讀者初步構建統計思想,從統計學的角度理解問題。第3章的主題是繪制圖表,這一章與第2章節前后呼應,向讀者展示了統計學的一個基本職能,即將分析結果簡潔明了地表達出來。第4章則是有關概率分布的基本知識,這是比較抽象而難以理解的一章,通過閱讀這一章節,讀者將正式踏入統計學的大門。
第二部分為后4章。在學習基礎知識后,讀者將開始接觸更高深的統計學分析方法。第5章包含兩個主題,即參數估計和非參數估計,它們研究的是如何用樣本中的信息去估計總體中的信息。第6章討論了樣本對總體的估計是否可靠。而第7章則是對第6章的拓展,將兩個樣本的情況拓展到多個樣本中去。
第5、6、7章的內容環環相扣、相輔相成,第8章則較為獨立。但相關分析和回歸分析是統計學中十分重要的部分,也是實際生活中應用最廣的兩種分析方法。第8章僅簡要討論了幾種常見的回歸方法,還有一些內容并未列出,如泊松回歸分析等。
以上劃分方法僅為一個參考,本書的8個章節互相聯系又彼此獨立,讀者可按照上述順序閱讀本書,也可優先閱讀某些章節,如在讀完前4章后,可直接閱讀第8章。
本書讀者對象
·
想要學習統計學的數據分析從業人員
·
統計學、金融學、計算機技術與科學等專業的學生
·
想要提高統計分析能力的數據分析師
·
希望系統學習統計分析方法的從業人員
·
其他對統計學有興趣愛好的各類人員
編者
2017年7月