本書(shū)共分為三大部分:Ⅰ基礎(chǔ)篇、Ⅱ案例研究、Ⅲ延伸。這其中包含10個(gè)章節(jié),作者結(jié)合眾多實(shí)驗(yàn)中的例子,探討如何解決缺失數(shù)據(jù)的問(wèn)題,此類(lèi)問(wèn)題廣泛存在于各個(gè)領(lǐng)域之中。書(shū)中算法結(jié)合統(tǒng)計(jì)軟件來(lái)實(shí)現(xiàn),主要內(nèi)容包括多元缺失填補(bǔ)、單變量數(shù)據(jù)缺失、多變量缺失數(shù)據(jù)、數(shù)據(jù)填補(bǔ)實(shí)踐、填補(bǔ)數(shù)據(jù)分析、測(cè)量、選擇、結(jié)論等。深入地討論了解決這類(lèi)問(wèn)題的方法,并分析了每種方法的適用范圍和有缺點(diǎn)。本書(shū)可作為高等院校統(tǒng)計(jì)學(xué)專(zhuān)業(yè)的本科高年級(jí)學(xué)生以及研究生用書(shū),也可作為與統(tǒng)計(jì)學(xué)專(zhuān)業(yè)相關(guān)的科研人員的參考書(shū)。
我們時(shí)常被缺失數(shù)據(jù)的情況所困擾。統(tǒng)計(jì)分析中由缺失數(shù)據(jù)所帶來(lái)的問(wèn)題長(zhǎng)期被掩蓋,現(xiàn)在這種情況正在慢慢結(jié)束。近十年間,處理缺失數(shù)據(jù)的技術(shù)迅速得到補(bǔ)充和發(fā)展。本書(shū)主要介紹一種方法:多重插補(bǔ)。
多重插補(bǔ)是統(tǒng)計(jì)科學(xué)領(lǐng)域重要的思想之一。這種技術(shù)簡(jiǎn)便、巧妙而且強(qiáng)大。說(shuō)它簡(jiǎn)便是因?yàn)樗钛a(bǔ)了由似是而非的數(shù)據(jù)造成的漏洞,說(shuō)它巧妙是因?yàn)槲粗獢?shù)據(jù)的不確定性被數(shù)據(jù)本身所標(biāo)記,說(shuō)它強(qiáng)大是因?yàn)樗梢越鉀Q那些被掩飾的數(shù)據(jù)缺失問(wèn)題。
在近二十年的時(shí)間里,我已經(jīng)將多重插補(bǔ)應(yīng)用到了更廣泛的研究領(lǐng)域中。我相信多重插補(bǔ)進(jìn)入統(tǒng)計(jì)學(xué)主流的時(shí)機(jī)已經(jīng)成熟。當(dāng)今計(jì)算機(jī)和軟件技術(shù)已能夠充分滿(mǎn)足計(jì)算的需要。我們所欠缺的是關(guān)于介紹這些基本思想及這些思想該如何應(yīng)用的書(shū)。我希望這本書(shū)能夠彌補(bǔ)這個(gè)欠缺。
本書(shū)正文的閱讀要求讀者通曉統(tǒng)計(jì)學(xué)基礎(chǔ)概念和多元統(tǒng)計(jì)方法。本書(shū)特別為如下兩類(lèi)讀者而設(shè)計(jì):
* 社會(huì)和健康科學(xué)領(lǐng)域的(生物)統(tǒng)計(jì)學(xué)家、流行病學(xué)家等;* 不稱(chēng)呼自己為統(tǒng)計(jì)學(xué)家,但擁有必要的技能來(lái)理解規(guī)則并使用一些統(tǒng)計(jì)方法的獨(dú)立的研究者。
在編寫(xiě)本書(shū)的時(shí)候,我盡量避免數(shù)學(xué)和技術(shù)上的細(xì)節(jié),出現(xiàn)公式的地方往往輔之以圖表,并用可視化的陳述來(lái)解釋該公式。我希望讀者朋友們可以較少去關(guān)注理論基礎(chǔ),而更多去抓住宏觀的總體上的思路。偏技術(shù)的內(nèi)容在本書(shū)中標(biāo)記了黑色桃心,這在第一次閱讀時(shí)可以暫時(shí)跳過(guò)。
我在烏得勒支大學(xué)采用了本書(shū)中的一些章節(jié)來(lái)教授研究生插補(bǔ)技術(shù)的課程,主要的基礎(chǔ)內(nèi)容體現(xiàn)在1~4 章,大約要花費(fèi)十個(gè)小時(shí)來(lái)講授這些材料,中間留出時(shí)間可以讓學(xué)生們完成書(shū)中的練習(xí)題。
本書(shū)采用了大量唐納德·魯賓(Donald Rubin)的理念,他是多元插補(bǔ)這個(gè)學(xué)科的奠基人之一。我非常有幸在很多場(chǎng)合與他見(jiàn)面、討論和工作。他富于邏輯的設(shè)想和貌似簡(jiǎn)單的想法是我的靈感的極佳的來(lái)源。同時(shí)要感謝楊·范·瑞吉克沃塞勒(Jan van Rijckevorsel),通過(guò)他我認(rèn)識(shí)了魯賓。他還在TNO 營(yíng)造了科學(xué)研究的氛圍,在那里我們能夠很愉快地完成缺失數(shù)據(jù)的插補(bǔ)工作。
很多人對(duì)本書(shū)的完成做出了貢獻(xiàn)。感謝TNO 的Nico van Meeteren 和Michael Holewijn 給了我極大的信任和支持。感謝烏得勒支大學(xué)的Peter vander Heijden 的支持。感謝Rob Calver 和Chapman & Hall/CRC 的工作人員的幫助和建議。許多人對(duì)本書(shū)的全部或者部分稿件提出了建議,他們分別是Hendriek Boshuizen,Elise Dusseldorp,Karin Groothuis-Oudshoorn,MichaelHermanussen,Martijn Heymans,Nicholas Horton,Shahab Jolani,GerkoVink,Ian White 和2011 春季班的碩士研究生們。他們的建議對(duì)于發(fā)現(xiàn)和排除書(shū)中的錯(cuò)誤起到了很有價(jià)值的作用,同時(shí)我也對(duì)剩下的錯(cuò)誤感到抱歉。
本書(shū)的主要部分是在一個(gè)為期六個(gè)月的旅行中完成的。其中有四個(gè)月在克魯克,瑞典的一個(gè)只有八間小房子的村子。感謝Frank van denNieuwenhuijzen 和Ynske de Koning 非常熱情地把他們的房子給我用。那里的設(shè)備非常完美,沒(méi)有雪崩,沒(méi)有瑣碎的麻煩。另外兩個(gè)月我在德國(guó)阿爾滕霍夫的Michael Hermanussen 和Beate Lohse-Hermanussen 的住宅里,我感謝他們的和善、創(chuàng)造力和聰慧,那是一段無(wú)比美好的時(shí)光。
最后,感謝我的家人,尤其是我深?lèi)?ài)的妻子Eveline,感謝他們溫暖的、一如既往的支持,支持我花費(fèi)大量的時(shí)間——晚上、周末,來(lái)完成這本書(shū)。
Eveline 喜歡告訴別人我正在完成“一本沒(méi)人能看懂的書(shū)”來(lái)與我開(kāi)玩笑。
我有時(shí)甚至懷疑她說(shuō)的是正確的,至少有99% 的人是看不懂的。那么,親愛(ài)的讀者,我真心希望你將屬于那剩下的1%。
作者:史蒂夫·范·布倫v
序(譯) iii
前言(譯) iv
關(guān)于作者 xxiv
符號(hào)描述 xxv
算法索引 xxvii
第I 部分 基礎(chǔ)篇 1
1 概述 3
1.1 數(shù)據(jù)缺失問(wèn)題 3
1.1.1 現(xiàn)行的方法 3
1.1.2 關(guān)于缺失數(shù)據(jù)的觀點(diǎn)變化 5
1.2 關(guān)于MCAR、MAR 和MNAR 的概念 6
1.3 并不總奏效的簡(jiǎn)單方法 8
1.3.1 個(gè)案剔除法 8
1.3.2 成對(duì)剔除法 9
1.3.3 均值替代法 10
1.3.4 回歸替代法 11
1.3.5 隨機(jī)回歸替代法 13
1.3.6 LOCF 和BOFC 方法 14
1.3.7 示性變量法 15
1.3.8 小結(jié) 15
1.4 多元數(shù)據(jù)填補(bǔ)簡(jiǎn)述 16
1.4.1 步驟 16
1.4.2 采用多元填補(bǔ)的原因 17
1.4.3 案例 18
1.5 本書(shū)的目的 20
1.6 本書(shū)未涵蓋的內(nèi)容 20
1.6.1 預(yù)防方法 21
1.6.2 權(quán)重程序 21
1.6.3 基于似然的處理方法 22
1.7 本書(shū)的結(jié)構(gòu) 23
1.8 練習(xí) 23
2 多元填補(bǔ) 25
3單變量缺失數(shù)據(jù)53
4多變量缺失數(shù)據(jù)95
5數(shù)據(jù)填補(bǔ)實(shí)踐123
6填補(bǔ)數(shù)據(jù)分析153
第II部分案例分析169
第III部分延伸247
附求A軟件263
A.1 R263
A.2 S-Plus265
A.3 Stata265
A.4 SAS266
A.5 SPSS266
A.6其他軟件266
參考文件269
作者索11 299
主題索引307