回歸分析是研究變量之間相互關系的一種統計推斷方法,它在社會、經濟、工程、醫藥衛生、工農業、氣象水文等領域有著廣泛的應用。《應用回歸分析》是高等院校"應用回歸分析"課程的教材,結合實際案例和統計軟件較全面系統地介紹應用回歸分析的基本理論、方法及其應用。《應用回歸分析》以最小二乘估計、極大似然估計、一元線性模型、多元線性模型、變量選擇以及缺失數據分析為主線,介紹數據建模過程及其預測。《應用回歸分析》力求通俗易懂和實用性原則,注重理論與實際應用相結合、盡可能多地引入應用回歸分析的最新進展和發展動態。每章均配有適量的習題和計算機作業,可供教師和學生選用。
隨著計算機技術的快速發展與統計軟件的開發使用,統計學在各行各業的應用越來越廣泛。在這些應用中,如何用統計的理論和方法對給定的數據建立一個與之相符的回歸模型呢?這是數據分析人員極為關心的一個重要問題。為了回答這個問題,本書首先從數據和變量的概念人手,深入淺出地介紹建立回歸模型的一般步驟,一元線性回歸模型與多元線性回歸模型的參數估計理論和方法以及自變量選擇,影響點和異常點的識別及處理,異方差性診斷和自相關性問題及處理、多重共線性問題及處理,多元線性回歸模型的有偏估計,非線性回歸模型和含定性變量的回歸模型的參數估計理論、方法及算法,以及廣義線性回歸模型和缺失數據模型的統計分析等。這些內容為數據分析人員提供了一個完整的數據處理過程以及建立統計回歸模型的技巧和方法。
盡管國內已有一些介紹回歸分析的專著和教材,但他們大都用常見的統計軟件,如SPSS、EXccl、Matlab等來介紹其回歸分析的理論和方法。由于R軟件不僅免費使用,而且它還擁有世界各地統計學家貢獻的大量最新軟件包且這些軟件包的代碼都是公開的,因此,R軟件備受各國統計學家的廣泛關注。目前國內也有一些基于R軟件來介紹數據分析的教材,但沒有系統地介紹回歸分析的理論和方法。而本書所有的分析都是通過R軟件來實現的,這就大大地增加了本書的實用性,這也是本書的一大特色。
為使學生了解回歸分析的最新發展和適應新時期下社會對統計學發展的新需要,本書增加了一些國內其他回歸分析教材中沒有的,但是新近發展的且學生不難理解并富有實用價值的內容,如缺失數據模型的自變量選擇、參數估計及其應用、廣義線性回歸模型及其參數估計和應用等。這些內容在社會學、經濟學、教育學、心理學和抽樣調查等領域有著廣泛的應用。
本書收集、編寫大量的實際例子,所用的數據例子都可以在《中國統計年鑒》網站上找到,并且包括最新的數據,如20u年的數據等,每一數據例子都配有相應的R程序。這些例子還反映了回歸分析方法應用的很多方面的問題。同時,本書各章還附有習題。這對培養學生的動手能力和應用所學知識解決實際問題的能力都是非常有益的。
本書力求理論結合實際例子講授回歸分析方法的直觀意義、來龍去脈、什么問題用什么方法解決以及證明的思路。有的證明放在本書習題中,請學生參閱有關書目或自行完成。
本書除了作為統計學專業本科生的教學用書,還可作為應用統計碩士的教學用書,也可作為從事統計理論研究和實際應用的統計工作者、教師和學生的教學參考書。此外,本書還可作為從事社會學、教育學、心理學、經濟學、金融學、人口學、生物醫學以及臨床研究等領域的理論研究者和實際應用者的參考書。
感謝科學出版社成都有限責任公司郝玉龍編輯。
由于編寫時間緊且編者水平有限,書中難免有不足之處,敬請讀者和同行批評指正。
唐年勝 李會瓊
2013年9月17日于昆明
前言
第1章 一些基本概念
1.1 數據和變量
1.2 變量之間的關系
1.2.1 定量變量間的關系
1.2.2 定性變量間的關系
1.2.3 定性和定量變量間的混合關系
1.3 回歸分析與相關分析
1.3.1 回歸分析
1.3.2 相關分析
1.3.3 相關分析的內容
1.3.4 相關關系的種類
1.4 建立回歸模型的步驟
復習思考題
第2章 一元線性回歸分析
2.1 一元線性回歸模型
2.1.1 一元線性回歸模型的數據例子
2.1.2 一元線性回歸模型的數學形式
2.2 參數估計及其性質
2.2.1 最小二乘估計
2.2.2 極大似然估計
2.2.3 參數估計的性質
2.2.4 實例分析及R軟件應用
2.3 顯著性檢驗
2.3.1 回歸方程的顯著性檢驗
2.3.2 實例分析及R軟件應用
2.4 預測與決策
2.4.1 點預測
2.4.2 區間預測
2.4。 3 控制問題
2.5 因變量缺失的一元線性回歸模型
2.5.1 缺失數據機制
2.5.2 處理缺失數據的常用方法
2.5.3 填充最小二乘估計
復習思考題
第3章 多元線性回歸分析
3.1 多元線性回歸模型
3.2 參數估計及其性質
3.2.1 最小二乘估計
3.2.2 最大似然估計
3.2.3 估計量的性質
3.2.4 實例分析及R軟件應用
3.3 多元線性回歸模型的假設檢驗
3.3.1 回歸方程的顯著性檢驗
3.3.2 回歸系數的顯著性檢驗
3.3.3 實例分析及R軟件應用
3.4 多元線性回歸模型的廣義最小二乘估計
3.5 相關陣及偏相關系數
3.6 預測與控制
3.7 因變量缺失的多元線性回歸模型
復習思考題
第4章 自變量選擇
4.1 自變量選擇對模型參數估計及預測的影響
4。 1.1 關于全模型與選模型
4.1.2 自變量選擇對回歸模型的參數估計及預測的影響
4.2 自變量選擇準則
4.2.1 所有子集的數目
4.2.2 自變量選擇準則
4.3 自變量選擇方法
4.3.1 向前法
4.3.2 向后法
4.3.3 逐步回歸法
4.3.4 案例分析及R軟件應用
4.4 缺失數據回歸模型的自變量選擇
復習思考題
第5章 多元線性回歸模型的統計診斷
5。 1 異常點和影響點
5.2 殘差及其性質
5.3 異常點的診斷
5.3.1 殘差圖
5.3.2 基于數據刪除模型的異常點檢驗
5.3.3 基于均值漂移模型的異常點檢驗
5.4 強影響點的診斷
5.4.1 診斷統計量
5.4.2 實例分析及R軟件應用
5.5 異方差性診斷
5.5.1 異方差產生的原因及背景
5.5.2 異方差性檢驗及其處理
5.5.3 實例分析
5.6 自相關性問題及其處理
5.7 多重共線性問題及其處理
5.7.1 多重共線性產生的背景及原因
5.7.2 多重共線性對回歸分析的影響
5.7.3 多重共線性的診斷
5.7.4 消除多重共線性的方法
5.7.5 多重共線性實例分析
復習思考題
第6章 多元線性回歸模型的有偏估計
6.1 引言
6.2 嶺估計
6.2.1 嶺估計的定義
6.2.2 嶺估計的性質
6.2.3 嶺參數的選取
6.2.4 實例分析
6.3 主成分估計
6.4 Stein壓縮估計
復習思考題
第7章 非線性回歸模型
7.1 引言
7.2 非線性回歸模型的定義
7.3 非線性回歸模型的參數估計及其算法
7.4 非線性回歸模型的統計診斷
7.4.1 基于數據刪除模型的影響分析
7.4.2 診斷模型分析
7.4.3 方差齊性檢驗
7.5 帶有缺失數據的非線性回歸模型
復習思考題
第8章 含定性變量的回歸模型
8.1 引言
8.2 自變量含有定性變量的回歸模型
8.3 因變量含有定性變量的回歸模型
8.4 Logistic回歸模型的參數估計及其算法
復習思考題
第9章 廣義線性回歸模型
9.1 引言
9.2 廣義線性模型
9.2.1 單參數指數分布族及其性質
9.2.2 廣義線性模型的參數估計
9.3 實例分析
復習思考題
參考文獻
附表1 相關系數臨界值ra表
附表2 t分布表
附表3 F分布表
附表4 DW檢驗上下界表
1.4 建立回歸模型的步驟
一般來說,對一個實際問題建立回歸模型,需要考慮下面六個步驟。
第一步:根據研究目的,設置指標變量
回歸模型主要是用來揭示事物間相關變量的數量關系。首先要根據所研究的問題設置因變量y,然后再選取與y有統計關系的一些變量作為自變量。
通常情況下,我們希望因變量與自變量之間具有因果關系。尤其是在研究具體實際問題時,我們必須根據實際問題的研究目的,確定實際問題中各因素之間的因果關系。
對于一個具體的問題,當研究目的確定后,被解釋變量容易確定,被解釋變量一般直接表達、刻畫研究目的。另外,不要認為一個回歸模型所涉及的解釋變量越多越好。一個經濟模型,如果把一些主要變量漏掉肯定會影響模型的應用效果,但如果引入的變量太多,可能會選擇一些與問題無關的變量,還可能由于一些變量的相關性很強,它們所反映的信息有嚴重的重疊,這就有可能出現共線性問題。當變量太多時,計算工作量太大,計算誤差就大,估計的模型參數精度自然不高。
總之,回歸變量的確定是一個非常重要的問題,是建立回歸模型最基本的工作。這個工作一般一次并不能完全確定,通常要反復比較,最終選出最適合的一些變量。
第二步:收集、整理統計數據
回歸模型的建立是基于回歸變量的樣本統計數據。當確定好回歸模型的變量之后,就要對這些變量進行收集、整理和統計數據。數據的收集是建立回歸模型的重要環節,數據質量如何,對回歸模型有至關重要的影響。
常用的樣本數據分為時間序列數據和橫截面數據。
時間序列數據,就是按時間順序排列的統計數據。如最近10年的CPI、PPI統計數據。時間序列數據容易產生模型中隨機誤差項的序列相關,這是因為許多經濟變量的前后期之間總是有關系的。如在建立需求模型時,人們的消費習慣、商品短缺程度等具有一定的延續性,它們對相當一段時間的需求量有影響,這樣就產生隨機誤差項的序列相關。對于具有隨機誤差項序列相關的情況,最常用的處理方法是差分法,我們將在后面章節中詳細介紹。
橫截面數據,即為在同一時間截面上的統計數據。如同一年份全國35個大中城市的物價指數等都是橫截面數據。當用截面數據作樣本時、容易產生異方差性。這是因為一個回歸模型往往涉及許多解釋變量,如果其中某一因素或一些因素隨著解釋變量觀測值的變化而對被解釋變量產生不同影響,就產生異方差性。對于具有異方差性的建模問題,數據整理就要注意消除異方差性,這常與模型參數估計方法結合起來考慮,
不論是時間序列數據還是橫截面數據的收集,樣本容量的多少一般要與設置的解釋變量數目相配套。通常為了使模型的參數估計更有效,要求樣本容量n大于解釋變量的個數p。樣本容量的個數小于解釋變量數目時:普通的最小二乘法失效。
……