本書結合現實中的市場營銷問題揭示了在市場研究分析中如何使用R。主要內容包含:R綜述,數據描述,連續變量之間的關系,表格和可視化,統計檢驗,線性模型,如何降低復雜度,驗證性因子分析和結構方程模型,聚類和判別,購物籃分析,模型選擇等。
前 言
我們將會幫助你在市場研究和分析中使用R。
R是市場分析師的絕佳選擇。它擬合統計模型的能力無與倫比,對于大型和小型數據集,它可擴展,能以不同形式分析來自不同系統的數據。R生態系統包括大量現存以及正在興起的統計方法和可視化技術。但是R在市場營銷中的應用程度不如其在統計、計量經濟、心理和生物信息領域。希望通過大家的努力能改變現狀!
本書是為兩類人設計的:想要學習R的市場研究從業人員和分析師,想要了解如何將R應用于市場營銷的其他領域的學生和研究人員。
閱讀本書需要哪些預備知識?很簡單,對R在市場營銷中的應用感興趣,對基礎統計模型(如線性回歸)有概念性的了解,并且愿意親自動手實踐學習。本書對已有一定編程經驗并希望學習R的分析師特別有幫助。我們會在第1章中介紹另外一些使用R的原因(以及一些可能不需要使用R的原因)。
動手實踐部分非常重要。我們將在前7章循序漸進地介紹(相關知識)并且讓讀者自行實踐書中的案例(代碼);本書不是食譜類型的參考書。我們會在第一部分花一些時間(盡量少)介紹R基礎知識,然后在第二部分介紹現實中的市場營銷問題以及如何應用R。第三部分包含一些高階市場營銷問題。每章都展示了R的分析能力。希望讀者在每章中都能學到新鮮有趣的知識。
本書有如下特點:
本書圍繞市場營銷組織內容。不是給出泛泛的示例,而是結合介紹的方法給出市場營銷案例。
我們假定讀者有基礎統計知識和少量的數學知識。本書是為分析實踐者設計的,因此并不會過多地介紹方程和統計模型背后的數學細節(但我們會給出相應參考書目)。
這是一本講解統計概念和R代碼的教科書。它旨在讓讀者明白我們在干什么以及學會如何避免在應用統計和R時的問題。對比市面上其他參考書和“食譜類”指南,我們的目標在于讓本書具有可讀性并且能夠滿足不同讀者的需求。
應用章節闡明了漸進的建模過程。我們并沒有提供“答案”,而是展示一個分析師在現實工作中可能按何種方式逐步展開分析。其中比較了不同模型的統計可靠性和實用性。
可視化內容是核心分析的一部分。我們并沒有將可視化當作獨立的話題,而是相信它是數據探索和建模的一個部分。
你從中學到的不僅僅是R。除了核心模型外,本書還涵蓋了一些或許對有經驗的分析師來說也很陌生的有用模型,如結構方程模型、交易分析。
本書同時介紹了傳統方法和貝葉斯方法。核心模型和傳統(頻率學派)模型一起介紹。但在后面的章節中會介紹線性模型和聯合分析中的貝葉斯方法。
大部分分析用模擬數據實踐R,并額外提供了關于市場數據結構的信息。根據個人意愿,可以改變模擬數據,看其對統計模型的影響。
在合適的時候我們會給出選學的編程內容或模型知識,讀者可根據自身情況選擇閱讀或跳過。這些小節用* 標注。
本書沒有包括什么?首先,本書介紹R在市場營銷中的應用但并不講述市場營銷方面的研究。我們會討論很多市場營銷話題但會忽略R中那些重復用到相同分析方法的話題。如前所述,我們從概念上介紹統計模型且并不關注數學細節。由于篇幅原因,本書省略了一些復雜的話題,包括顧客終身價值模型和計量經濟時間序列模型。總之,本書全面展示了市場營銷研究示例和分析方法。如果掌握了本書,你將能在許多市場營銷領域應用R。
為什么我們可以教這些知識?從1997年開始,我們使用R及其前身S語言近30年,這是我們主要的分析平臺。我們用R做各種市場分析,從簡單的數據總結到復雜的分析(需要自己編寫成千上萬行的代碼)和新模型。
我們也有豐富的R教學經驗。本書源自于筆者在美國營銷協會(AMA)、埃默里大學市場營銷學院和高級研究方法論壇(ART Forum)幾年來的課程講義。我們也在Sawtooth軟件會議上和沃頓商學院對學生和業界人士進行R教學。感謝許多學生的反饋意見,我們相信他們的經驗會對你們有益。
關于下載數據本書對應的.R代碼文件中的下載數據使用的是短鏈接地址,如“http://goo.gl/UDv12g” 。在一些國家和地區可能無法訪問該鏈接,會出現這樣的錯誤提示:“Error in file(file, "rt"): cannot open the connection”。如果出現這種情況,請嘗試對應的完整鏈接地址,如“http://r-marketing.r-forge.r-project.org/data/rintro-chapter2.csv”。下面是短鏈接和對應完整鏈接的表格。
章 號 完整鏈接地址 短鏈接地址2 http://r-marketing.r-forge.r-project.org/data/rintro-chapter2.csv http://goo.gl/UDv12g3 http://r-marketing.r-forge.r-project.org/data/rintro-chapter3.csv http://goo.gl/QPDdMl4,9 http://r-marketing.r-forge.r-project.org/data/rintro-chapter4.csv http://goo.gl/PmPkaG5、6、11、12 http://r-marketing.r-forge.r-project.org/data/rintro-chapter5.csv http://goo.gl/qw303p7 http://r-marketing.r-forge.r-project.org/data/rintro-chapter7.csv http://goo.gl/HKnl748 http://r-marketing.r-forge.r-project.org/data/rintro-chapter8.csv http://goo.gl/IQl8nc9 http://r-marketing.r-forge.r-project.org/data/rintro-chapter9.csv http://goo.gl/J8MH6A9 http://r-marketing.r-forge.r-project.org/data/rintro-chapter9conjoint.csv http://goo.gl/G8knGV10 http://r-marketing.r-forge.r-project.org/data/rintro-chapter10pies.csv http://goo.gl/yT0XwJ10 http://r-marketing.r-forge.r-project.org/data/rintro-chapter10sat.csv http://goo.gl/MhghRq12 http://fimi.ua.ac.be/data/retail.dat http://goo.gl/O495RV12 http://r-marketing.r-forge.r-project.org/data/retail.dat http://goo.gl/FfjDAO13 http://r-marketing.r-forge.r-project.org/data/rintro-chapter13conjoint.csv http://goo.gl/5xQObB致謝我們特別感謝為本書的問世做出貢獻的人。首先是這些年來我們教過的所有學生,他們提供了有價值的反饋。我們希望他們的經驗對你們有益。
在市場營銷學術領域和實踐者社區, Ken Deal、Fred Feinberg、Shane Jensen、Jake Lee、Dave Lyon和 Bruce McCullough提供了寶貴意見。
Chris在谷歌科研社區的同事對本書的一些部分提供了許多建議。我們感謝如下人的鼓勵和建議:Mario Callegaro、Marianna Dizik、Rohan Gifford、Tim Hesterberg、Shankar Kumar、Norman Lemke、Paul Litvak、Katrina Panovich、Marta Rey-Babarro、Kerry Rodden、Dan Russell、Angela Sch鰎gendorfer、Steven Scott、Bob Silverstein、Gill Ward、John Webb 和 Yori Zwols。
Springer的員工和編輯幫助我們順利展開工作,其中尤其要感謝Hannah Bracken、Jon Gurstelle和“Use R!”系列叢書編輯。
本書的大部分是在公共圖書館和大學圖書館完成的。我們感謝其為我們提供場所以及大量的文獻資源。本書部分是在晴朗的日子里于新奧爾良公共圖書館、紐約公共圖書館、紐約神學院的小克里斯托弗·凱勒圖書館、加州大學圣地亞哥分校的吉賽爾圖書館,華盛頓大學蘇塞羅和艾倫圖書館、森尼維爾公共圖書館完成的,尤其是東京都中心圖書館,我們在那里寫下了第一句話、第一行代碼、全書大綱以及后續許多內容。
家人對我們在周末和夜晚編寫本書給予了支持,他們還忍受了對門外漢來說關于R的過多討論。謝謝Cristi、Maddie、Jeff和Zoe。
最重要的是,我們感謝各位讀者。很高興你們決定研究R,且希望你們的努力有所收獲。讓我們開始吧!
—Chris Chapman、Elea McDonnell Feit
中 文 版 序我們非常高興看到本書中文版面世。本書英文版的主要目的是深入介紹R在市場研究中的應用。中文版是本書英文版之外的第一個版本,中文版和英文版上市的時間只相隔1年,所以書中的知識都是最新的。感謝譯者的翻譯!
R的應用在不斷飛速發展。如本書第1章提到的,在寫書時已經有6000多個R包可供使用。時至今日,R包的數目已經增長到8000個—平均每天增加3個包以上。與此同時R在市場營銷方面的學術論文、會議報告以及工業界的使用也在不斷增長。R的前景非常廣闊,現在是時候學習這門語言了。
我們特別感謝本書的譯者林薈和所有為本書中文版問世做出努力的人!我們還要感謝機械工業出版社的工作人員。如果本書能對你們有所幫助,便是對所有這些努力最好的回報。
最重要的是,希望你們能像我們一樣喜歡R并且將其用于自己的工作。學習R這樣的語言并不容易,我們希望本書能使你的學習輕松些,幫助中國的市場營銷人員掌握R。
—Chris Chapman,Elea McDonnell Feit2016年2月譯 者 序本書適合尋找R入門書籍的讀者以及那些想將數據科學應用到市場研究分析中的讀者。書中說明了如何載入數據,通過可視化技術探索數據,用統計模型分析數據,并且對模型結果給出了商業解釋。書中涉及了基礎的分析技能、可視化和一些高級別的分析,所以對普通讀者和專業讀者而言,本書都是絕佳的指南。2013年我從研究生物統計轉而進入杜邦公司從事專門的市場分析,從一個商業數據分析從業者的角度看,這本書確實給我非常大的幫助。
本書有以下特點:
這是第一本成功介紹將一些現代統計分析技術應用到市場研究分析的書。它不同于之前那些介紹市場分析中用到的傳統多元技術的書。雖然近年來有幾本和模型應用相關的非常優秀的書籍問世,如James、Witten、Hastie 和Tibshirani的《統計學習導論》,Kuhn 和Johnson的《應用預測建模》,但是這些書并不是專門針對市場研究的。本書的針對性是其一大優點。
作者并非從學術的角度解決一些虛假的市場問題。書中的例子都是現實市場分析中經常遇到的問題。作者使用的是模擬數據集,乍一看讓人感覺本書可能會脫離實際,畢竟用一些偽造的數據可以很容易給出模型效果很好的假象。其實不是這樣的。由于兩位作者在此之前都有著數十年的商業分析從業經驗,因此書中數據集的抽取都非常巧妙,能夠很好地反映作者在實踐中遇到的真實問題。
除了傳統的多元模型之外,書中還介紹了近年來逐漸流行的貝葉斯方法。雖然貝葉斯方法在市場分析中當前還不是主流,但我相信該方法的應用會越來越廣泛。書中還專門介紹了相對較新的分析技術,如隨機森林和樸素貝葉斯。
作者還在適當的地方對模型的應用進行了延伸。比如在講到因子分析時,作者討論了如何使用因子分析結果來繪制消費者“認知圖”,這在很多討論因子分析的文獻中極少看到。這也充分反映了作者豐富的實踐經驗,以及本書以具體實踐為導向的特點。
本書覆蓋的方法比較全面。基本涉及了市場分析中從初級數據探索到高級數據建模過程中可能用到的各種技術。
本書沒有很多數學公式,深入淺出。這使得本書適合于那些沒有很強的數學基礎但又想學習一些高級分析方法的市場研究人員。
對于R新手來說,本書是一本很好的入門指南。和單純的R指南不同,本書提供了一個應用的語境,使得讀者能夠在應用中學習,極大地增強了學習效果。本書不僅講到了基本的R數據操作,還介紹了一些常用的有效可視化方法。
書中沒有過多介紹現在流行的有效機器學習模型,關于這點,之前講到的兩本書《統計學習導論》和《應用預測建模》是極好的補充,如果能系統學習這3本書,就具備成為一個數據科學家的硬性技術條件了。
機械工業出版社的王春華編輯對本書的翻譯工作給予了支持和幫助。在此對所有為本書中文版問世做出努力的人表示感謝!限于譯者水平,書中難免有錯誤和不妥之處,懇請讀者批評指正。
—林薈
中文版序
譯者序
前言
第一部分 R語言基礎知識第1章 歡迎使用R2
1.1 R是什么2
1.2 為什么用R2
1.3 為什么不用R3
1.4 什么時候用R4
1.5 如何使用本書4
1.6 關鍵點6
第2章 R綜述7
2.1 開始7
2.2 R用途快速指南8
2.3 R命令基礎11
2.4 基礎對象12
2.5 數據框21
2.6 載入和存儲數據24
2.7 編寫函數*27
2.8 清理30
2.9 知識拓展*30
2.10 關鍵點31
第二部分 數據分析基礎知識第3章 數據描述34
3.1 模擬數據34
3.2 關于變量的函數38
3.3 概括數據框41
3.4 單變量可視化45
3.5 知識拓展*54
3.6 關鍵點55
第4章 連續變量之間的關系56
4.1 零售數據56
4.2 用散點圖探索變量間關系60
4.3 把多張圖合并為一張圖65
4.4 散點圖矩陣67
4.5 相關系數70
4.6 探索問卷調查回復間的相關性*76
4.7 知識拓展*78
4.8 關鍵點78
第5章 組比較:表格和可視化80
5.1 模擬客戶分組數據80
5.2 各組對應的描述統計量87
5.3 知識拓展*96
5.4 關鍵點97
第6章 組比較:統計檢驗98
6.1 用于比較的數據98
6.2 頻數檢驗:chisq.test()98
6.3觀測比例檢驗:binom.test()101
6.4 組均值檢驗:t.test()103
6.5 多組均值檢驗:ANOVA104
6.6 初識貝葉斯ANOVA *109
6.7 知識拓展*113
6.8 關鍵點114
第7章 識別結果變量的驅動因子:線性模型115
7.1 游樂場數據115
7.2 用lm()函數擬合線性模型117
7.3 擬合多元線性模型125
7.4 因子自變量129
7.5 交互效應131
7.6 避免過度擬合134
7.7 建議的線性模型擬合過程134
7.8 貝葉斯線性模型:MCMCregress()*135
7.9 知識拓展*136
7.10 關鍵點137
第三部分 高級營銷應用第8章 降低數據復雜度140
8.1 消費者品牌評分數據140
8.2 主成分分析和感知圖144
8.3 探索性因子分析151
8.4 高維標度化簡介157
8.5 知識擴展*160
8.6 關鍵點160
第9章 線性模型相關的其他話題162
9.1 處理高度相關的變量162
9.2 二項結果變量的線性模型:邏輯回歸166
9.3 分層線性模型175
9.4 貝葉斯分層線性模型*182
9.5 頻率學派和貝葉斯學派HLM模型的簡單比較*187
9.6 知識拓展*190
9.7 關鍵點191
第10章 驗證性因子分析和結構方程模型193
10.1 結構模型的出發點193
10.2 量級評估:CFA195
10.3 更一般的模型:結構方程模型204
10.4 PLS模型209
10.5 知識拓展*215
10.6 關鍵點216
第11章客戶分組:聚類和判別217
11.1 客戶分組的思想217
11.2 客戶分組數據219
11.3 聚類219
11.4 判別分析234
11.5 預測:識別潛在客戶*242
11.6 知識拓展*244
11.7 關鍵點245
第12章 關聯法則:購物籃分析247
12.1基礎關聯法則247
12.2零售交易數據:購物籃249
12.3搜尋并且可視化關聯法則252
12.4非交易數據中的規則:再次探索客戶分組259
12.5知識拓展*263
12.6關鍵點263
第13章 選擇模型264
13.1基于選擇的聯合問卷調查分析264
13.2模擬選擇數據*266
13.3擬合選擇模型269
13.4在選擇模型中加入消費者個體差異278
13.5分層貝葉斯選擇模型281
13.6基于選擇的聯合問卷調查設計*287
13.7知識拓展*289
13.8關鍵點289
結論291
附錄A R版本和相關軟件292
附錄B 縱向擴展298
附錄C 使用的包306
附錄D 在線資源和數據文件310
參考文獻312