R語言有著眾多優勢, 例如完全免費、完備的統計分析功能等等, 這使得R語言成為當前最流行的統計分析軟件之一。使用、學習R語言的人群本身就是一個龐大的市場。
本教程主要基于統計學、經濟金融、生物醫學等專業人才培養的基本要求,有針對性地對R 語言的浩瀚內容進行了系統整理,全面介紹R 軟件的使用.在此基礎上,我們對一些現代統計方法的理論與R 軟件的實現進行了系統闡述,嘗試編寫一本符合高級統計數據分析人才培養目標的R 軟件學習教程.
R 語言作為一種免費的開源統計軟件,已經在統計學、運籌學、生物信息學、經濟學、金融學以及工程技術等諸多領域得到廣泛應用.翻開任何一本關于R 語言的書籍,都會看到R 語言有著眾多優勢:完全免費、完備的統計分析功能、交互式數據分析平臺、強大的制圖功能、無與倫比的幫助系統以及無私奉獻的R 語言開發核心團隊有力支撐等,這使得R 語言成為當前最流行的統計分析軟件之一.事實上,R 語言體系龐大,應用領域廣闊,程序包種類繁多,完全掌握R 語言幾乎是一項無法完成的挑戰.本教程主要基于統計學、經濟金融、生物醫學等專業人才培養的基本要求,有針對性地對R 語言的浩瀚內容進行了系統整理,全面介紹R 軟件的使用.在此基礎上,我們對一些現代統計方法的理論與R 軟件的實現進行了系統闡述,嘗試編寫一本符合高級統計數據分析人才培養目標的R 軟件學習教程.R 語言的發展可以稱得上是日新月異:一方面體現在使用R 軟件的人越來越多;另一方面也體現在R 語言的程序包不斷地更新換代,R 軟件版本的更新速度也越來越快.我們在編寫過程中,盡量追隨R 的發展步伐,力圖反映R 語言最新發展成果.全書內容共分 15 章,其中第1~5 章由劉強編寫,第6~10 章、12 章由裴艷波編寫,第10~11 章、13~14 章由張貝貝編寫,第15 章由編寫組共同編寫,最后由劉強負責統一定稿.在本書的撰寫過程中,中國科學院數學與系統科學研究院的陳敏研究員、北京工商大學的曹顯兵教授、北京工業大學的薛留根教授、程維虎教授、李高榮教授,昆明理工大學的吳劉倉教授,首都經濟貿易大學統計學院的張寶學教授、馬立平教授等都給予了極大的支持和熱心的幫助.首都經濟貿易大學的王琳老師也為本書的編寫做了大量工作.本書的編寫與出版也得到了清華大學出版社劉志彬主任和彭欣女士的鼓勵和關心,在此一并表示衷心的感謝. 本書的編寫也得到了北京市青年拔尖人才培育計劃項目(CIT&TCD201404133)、國家自然科學基金項目(11201315)的資助,在此表示感謝.由于作者水平有限,書稿中一定存在許多不足甚至錯謬之處,歡迎讀者和同行批評指正,電子郵件地址:cuebliuqiang@163.com.作者
第 1 章
R 語言簡介111 R 語言的特點112 R 語言運行平臺1121 工作目錄2122 工作空間3123 歷史命令4124 幫助系統413 R 程序包的安裝使用7131 R 軟件的下載與安裝7132 程序包的安裝與加載7133 與程序包有關的一些函數814 初識R 語言9141 對象的命名9142 對象的賦值9143 一個實例10第2 章R 數據結構1221 向量12211 向量的建立與賦值12212 向量的運算13213 向量的下標運算14214 與向量有關的一些函數1522 R 的數據結構16221 對象及屬性16222 數據對象的類別17223 與對象有關的一些函數1723 向量問題的擴展18231 字符型向量18232 邏輯型向量20IV R 語言與現代統計方法233 復數型向量2024 因子及其運算21241 因子的建立與賦值21242 與因子運算有關的一些函數2325 數組與矩陣23251 數組的建立23252 矩陣的建立24253 數組(矩陣)的下標運算25254 數組(矩陣)的運算25255 矩陣的代數運算26256 與矩陣運算有關的一些函數3026 數據框31261 數據框的建立31262 數據框元素的引用32263 數據框的編輯33264 與數據框有關的一些函數3527 列表35271 列表的建立36272 列表元素的引用36273 列表元素的相關運算37274 不同數據結構間的轉換38第3 章數據的輸入與輸出4031 數據的輸入40311 利用鍵盤錄入數據40312 讀取固定格式的文本文件40313 讀取復雜格式的文本文件43314 讀取其他格式的數據文件44315 R 中數據集的讀取4732 數據的輸出48321 運行結果的定向輸出48322 數據的定向輸出50323 圖形的定向輸出52第4 章數據管理與R 編程5341 缺失值問題53目錄V411 缺失值的識別53412 缺失值的處理5442 日期值問題5543 變量的整理56431 變量的重新編碼56432 變量的重新命名5944 數據的整理59441 數據的合并59442 數據的排序60443 數據的匯總與重構6145 控制結構63451 循環結構63452 條件結構6546 定義自己的函數6647 R 編程基礎68第5 章R 圖形管理6951 一個引例6952 graphics 圖形系統簡介70521 繪圖函數概述71522 圖形參數72523 圖形設備7453 基本圖形的繪制76531 散點圖76532 折線圖77533 直方圖80534 箱線圖84535 條形圖88536 餅形圖89537 透視圖9154 自定義圖形92541 添加擬合曲線92542 繪制多圖93543 添加圖例和標注94544 添加多邊形及填充顏色95VI R 語言與現代統計方法55 lattice 繪圖系統96551 lattice 包簡介97552 lattice 繪圖函數98553 lattice 圖形的定制99第6 章概率與抽樣分布 10461 常用的概率分布104611 離散分布的分布律104612 連續分布的密度函數10562 與分布相關函數的R 實現109621 概率密度函數109622 分布函數110623 分位數函數 111624 隨機數產生函數 11163 隨機抽樣112第7 章探索性數據分析11471 常用描述統計量114711 數據集中程度的描述114712 數據離散程度的描述117713 數據分布形狀的描述119714 兩組樣本相關性分析12072 圖形描述122721 莖葉圖123722 Q?Q 圖124723 經驗分布函數圖124第8 章參數估計 12681 點估計126811 矩估計126812 極大似然估計12982 區間估計133821 區間估計的定義134822 正態總體參數的區間估計134823 比率p 的區間估計143目錄VII第9 章假設檢驗 14791 參數假設檢驗147911 單個正態總體的參數檢驗148912 兩個正態總體參數的檢驗151913 單總體比率的檢驗156914 兩個總體比率的檢驗15992 非參數假設檢驗160921 單個樣本的非參數檢驗160922 兩樣本的獨立性檢驗165923 兩樣本的非參數檢驗168924 多樣本的非參數檢驗174第10 章回歸分析 177101 一元線性回歸1771011 一元線性回歸模型1771012 參數估計1781013 回歸方程的顯著性檢驗1801014 預測182102 多元線性回歸1831021 回歸模型1831022 估計1841023 回歸模型的顯著性檢驗1841024 預測1851025 自變量的選擇185103 回歸診斷1911031 高斯?馬爾科夫假定的診斷1911032 多重共線性的診斷1951033 異常值和影響點的診斷198104 二分類Logistic 回歸2041041 回歸模型2041042 參數的估計2051043 模型的預測2061044 擬合優度的測度206第11 章方差分析 208111 單因素方差分析209VIII R 語言與現代統計方法1111 單因素方差分析模型2091112 單因素方差分析的R 實現2111113 方差齊性檢驗2131114 多重比較213112 雙因素方差分析2141121 不考慮交互作用2141122 考慮交互作用2161123 雙因素方差分析的R 函數和實例分析218113 方差分析在模型選擇中的應用219第12 章生存分析 221121 R 程序包的載入及生存對象的建立222122 非參數建模方法2231221 KM 估計2231222 生存曲線的比較226123 參數建模方法227124 半參數模型方法229第13 章貝葉斯計算 233131 貝葉斯統計推斷的基本概念2331311 貝葉斯公式2331312 參數估計2341313 假設檢驗2341314 預測235132 單參數模型2351321 離散先驗分布2361322 貝塔先驗分布2371323 直方圖先驗239133 多參數模型2411331 均值和方差均未知的正態模型2411332 多項模型242134 蒙特卡洛抽樣方法2441341 拒絕抽樣2451342 重要性抽樣248135 馬爾可夫鏈?蒙特卡洛抽樣方法2521351 馬爾可夫鏈252目錄IX1352 Metropolis-Hastings 算法2551353 Gibbs 抽樣方法260第14 章時間序列分析 266141 時間序列的探索性分析2661411 時間序列實例2661412 傳統的分解方法272142 時間序列的相關概念與簡單時序模型2741421 平穩性2741422 可逆性2751423 自協方差函數和自相關函數2751424 白噪聲模型2761425 隨機游走277143 自回歸移動平均模型2791431 AR 模型2791432 MA 模型2831433 ARMA 模型285144 非平穩時間序列模型2951441 帶漂移的隨機游走過程2951442 ARIMA 模型2961443 單位根檢驗296145 季節模型2991451 季節ARMA 模型2991452 航空模型2991453 乘法季節模型302146 條件異方差模型3071461 模型的結構與模型的建立3071462 ARCH 模型3101463 GARCH 模型313第15 章統計方法進階317151 非參數密度估計3171511 直方圖法3171512 核密度估計法3201513 窗寬的選擇方法323152 多重借補方法326X R 語言與現代統計方法153 Bootstrap 方法330154 EM 算法333155 變量選擇3391551 嶺回歸3391552 Lasso 方法3421553 自適應Lasso 方法3461553 SCAD 方法347附錄A 圖形用戶界面 349A1 R Commander 349A2 RStudio 353A21 RStudio 的安裝353A22 RStudio 界面介紹353A23 嘗試使用RStudio356附錄B 數據集 359