朱建平主編的《應用多元統計分析(第2版)》為普通高等教育“十一五”國家級規劃教材,同時也是教育部高等學校統計學專業教學指導分委員會推薦教材。本書努力貫徹“少而精”的原則,力求以統計思想為主線,以SPSS軟件為工具,深入淺出地介紹各種多元統計方法的理論和應用。主要內容包括:多元分析概述、多元正態分布的參數估計、多元正態分布均值向量和協差陣的檢驗、判別分析、聚類分析、主成分分析、因子分析、相應分析、典型相關分析、多維標度法、多變量的可視化分析等。特別是,本書將SPSS軟件的學習和案例分析有機結合,體現了多元統計分析方法的應用。 《應用多元統計分析(第2版)》配備多媒體教學課件,可作為經濟類、管理類各專業本科生教材,同時也適合自學多元統計分析的讀者閱讀參考。
朱建平主編的《應用多元統計分析(第2版)》是在原《應用多元統計分析》的基礎上修訂編寫而成。通過案例分析進一步加強統計理論和方法的應用,注重訓練學生解決實際問題的能力,提高綜合分析問題的素質。通過對原教材的部分習題進行調整、替換和增加新的數據,使得習題更貼切地反應實際問題,從而進一步提高學生的學習興趣和學習效率。
總序
第二版前言
第一版前言
第一章 多元分析概述
第一節 引言
第二節 應用背景
第三節 計算機在統計分析中的應用
思考與練習
第二章 多元正態分布的參數估計
第一節 引言
第二節 基本概念
第三節 多元正態分布
第四節 多元正態分布的參數估計
第五節 實例分析與計算機實現
思考與練習
第三章 多元正態分布均值向量和協差陣的檢驗
第一節 引言
第二節 均值向量的檢驗
第三節 協差陣的檢驗
思考與練習
第四章 判別分析
第一節 引言
第二節 距離判別法
第三節 貝葉斯判別法
第四節 費希爾判別法
第五節 實例分析與計算機實現
思考與練習
第五章 聚類分析
第一節 引言
第二節 相似性的量度
第三節 系統聚類分析法
第四節 K均值聚類分析
第五節 有序樣品的聚類分析法
第六節 實例分析與計算機實現
思考與練習
第六章 主成分分析
第一節 引言
第二節 主成分的幾何意義及數學推導
第三節 主成分的性質
第四節 主成分方法應用中應注意的問題
第五節 實例分析與計算機實現
思考與練習
第七章 因子分析
第一節 引言
第二節 因子分析模型
第三節 因子載荷矩陣求解
第四節 公因子重要性的分析
第五節 實例分析與計算機實現
思考與練習
第八章 相應分析
第一節 引言
第二節 列聯表
第三節 相應分析的基本理論
第四節 相應分析中應注意的問題
第五節 實例分析與計算機實現
思考與練習
第九章 典型相關分析
第一節 引言
第二節 典型相關的基本理論
第三節 樣本典型相關分析
第四節 典型相關分析應用中的幾個問題
第五節 實例分析與計算機實現
思考與練習
第十章 多維標度法
第一節 引言
第二節 古典多維標度法
第三節 權重多維標度
第四節 實例分析與計算機實現
思考與練習
第十一章 多變量的可視化分析
第一節 引言
第二節 折線圖分析法
第三節 條形圖分析法
第四節 散點圖分析法
第五節 雷達圖分析法
第六節 星座圖分析法
思考與練習
參考文獻
附錄 常用統計表
附表1 正態分布概率表
附表2 t分布臨界值表
附表3 x2分布臨界值表
附表4 F分布臨界值表
第一章 多元分析概述
第一節 引言
多元統計分析是運用數理統計方法來研究解決多指標問題的理論和方法。近30年來,隨著計算機應用技術的發展和科研生產的迫切需要,多元統計分析技術被廣泛地應用于地質、氣象、水文、醫學、工業、農業和經濟等許多領域,已經成為解決實際問題的有效方法。然而,隨著電子計算的日益普及,各行各業都開始采用計算機及相應的信息技術進行管理和決策,這使得各企事業單位生成、收集、存儲和處理數據的能力大大提高,數據量與日俱增,大量復雜信息層出不窮。在信息爆炸的今天,人們已經意識到數據最值錢的時代已經到來。顯然,大量信息在給人們帶來方便的同時也帶來了一系列問題。例如,信息量過大,超過了人們掌握、消化的能力;一些信息真偽難辨,從而給信息的正確應用帶來困難;信息組織形式的不一致性導致難以對信息進行有效統一的處理,等等,這種變化使傳統的數據庫技術和數據處理手段已經不能滿足要求。Internet的迅猛發展,也使得網絡上的各種資源信息異常豐富,在其中進行信息的查找真如大海撈針。這樣又對多元統計分析理論的發展和方法的應用提出了新的挑戰。
多元統計分析起源于20世紀初,1928年Wishart發表論文《多元正態總體樣本協差陣的精確分布》,可以說是多元分析的開端。20世紀30年代R.A.Fisher、H.Hotelling、S.N.Roy、許寶等人做了一系列的奠基性工作,使多元分析在理論上得到了迅速發展。40年代多元分析方法在心理、教育、生物等方面有不少應用,但由于計算量大,使其發展受到影響,甚至停滯了相當長的時間。50年代中期,隨著電子計算機的出現和發展,多元分析方法在地質、氣象、醫學、社會學等方面得到廣泛的應用。60年代通過應用和實踐又完善、發展了理論,由于新的理論、新的方法不斷涌現,又促使它的應用范圍更加擴大。70年代初期多元統計分析在我國才受到各個領域的極大關注,并在理論研究和應用上也取得了很多顯著成績,有些研究工作已達到國際水平,并已形成一支科技隊伍,活躍在各條戰線上。在20世紀末與21世紀初,人們獲得的數據正在以前所未有的速度急劇增加,產生了很多超大型數據庫,遍及超級市場銷售、銀行存款、天文學、粒子物理、化學、醫學以及政府統計等領域,多元統計與人工智能和數據庫技術相結合,在經濟、商業、金融、天文等領域得到了成功的應用。
為了讓讀者更好、更系統地掌握多元統計分析的理論與方法,本書重點介紹多元正態總體的參數估計和假設檢驗以及常用的統計方法。這些方法包括判別分析、聚類分析、主成分分析、因子分析、對應分析、典型相關分析、多維標度法以及多變量的可視化分析等。與此同時,我們將利用在我國廣泛流行的SPSS統計軟件來實現實證分析,做到在理論的學習中體會應用,在應用的分析中加深理論。
第二節 應用背景
統計方法是科學研究的一種重要工具,其應用頗為廣泛。特別地,多元統計分析方法常常被應用于自然科學、社會科學等領域的問題中。為了進一步體現多元統計分析方法的應用,我們首先從宏觀的角度認識統計學應用的背景,然后從微觀的角度顯示多元統計分析應用的廣泛性。
一、統計學的生命力在于應用
(一)統計學產生于應用統計學的發展過程可以看出統計學產生于應用,在應用的過程中發展,它的生命力在于應用。
300年前,威廉•配第(1623~1687)寫的《政治算術》,從其研究方法看,被認為是一本統計學著作。政治算術學派的統計學家將統計方法應用于各自熟悉和感興趣的研究領域,都還是把其應用對象當做肯定性事物之間的聯系來進行研究的。
他們確信,事物現象存在著簡單明了的數量關系,需要用定性與定量的方法將這種關系(規律)揭示或描述出來,使人們能夠更具體、真切地認識世界。
數理統計學派的奠基人凱特勒在統計學中引入了概率論,把它應用于自然界和社會的許多方面,從而為人們認識和說明不確定現象及其相互之間的聯系開辟出了一條道路。在自然科學和社會科學的許多領域,都留下凱特勒應用統計學研究的烙印。自從凱特勒把概率論引入了應用中的統計學,人們對客觀世界的認識及描述更全面、更接近于實際了。他在廣泛應用拉普拉斯等人概率論中的正態曲線、誤差法則、大數法則等成果的過程中,為統計學增添了數理統計方法,進而又擴展了統計學的應用范圍。
在應用中對發展統計方法貢獻顯著的當推生物統計學派的戈爾登(1822~1921)、皮爾遜(1857~1936)和農業實驗學派的孟德爾(1822~1884)、戈塞特(1876~1937)等。戈爾登六年中測量了近萬人的“身高、體重、闊度、呼吸力、拉力和壓力、手擊的速率、聽力、視力、色覺及個人的其他資料”。在探究這些數據內在聯系的過程中提出了今天在自然科學和社會科學領域中廣泛應用的“相關”思想。
他將大量數據加以綜合描述和比較,從而能使其遺傳理論建立在比較精確的基礎上,并為統計學引入了中位數、四分位數、分布、回歸等極為重要的概念和方法。皮爾遜在檢驗他老師戈爾登的“祖先遺傳法則”和自然選擇中“淘汰”對器官的相關及變異的影響中,導入了復相關的概念和方法。在討論生物退化、反祖、遺傳、隨機交配等問題中,展開了回歸與相關的研究,并提出以χ2檢驗作為曲線配合適合度的一種量度的思想。
農業實驗學派的孟德爾和戈塞特同樣是在嘗試回答各自應用領域中出現的新問題的過程中,發展了統計思想和統計分析方法。孟德爾及其后繼者貝特森等人創建的遺傳試驗手段,比通過記錄生命外部聯系曲折反映事物內在本質的描述統計更加深刻。他們運用推斷的理論與實驗的方法,通常只用小樣本來處理。戈塞特的t分布與小樣本思想更是在由于“有些實驗不能多次地進行”,從而“必須根據極少數的事例(小樣本)來判斷實驗結果的正確性”的情況下產生的。今天,這些統計思想和分析推斷方法已經成為了科學家們不可缺少的基本研究工具。
近現代,統計學已經空前廣泛應用于最高級的運動形式――社會,其結果便是出現了一系列與其應用對象指導理論和其他相關學科交織在一起的邊緣學科,如在社會經濟方面的投入產出經濟學、經濟計量學、統計預測學、統計決策學等。在這些邊緣學科中,統計學與其應用對象結合更緊密、更自然。這些學科的專家學者至少在兩個或兩個以上的專業領域里有比較深厚的學術造詣。統計學的應用幫助他們在各自的應用領域中取得輝煌的成就。
可見,統計學的發展一刻也離不開應用。它在應用中誕生,在應用中成熟、獨立,在應用中擴充自身的方法內容,同時擴展了應用領域,又在應用中與其他學科緊密結合形成新的邊緣學科。一部統計理論發展史同時又是一部應用統計發展史,正因如此,統計學的生命力在于應用。
(二)理論研究為統計學的應用奠定了基礎
統計理論問題的研究和應用研究從總體看,如果理論不成熟,方法不完善,統計應用研究也很難達到較高的水平。因此,充分發揮統計學的生命力,必須建立在統計理論研究的基礎之上。
從國際上看,近十幾年來,統計分析技術的研究有了新的發展。這些研究的總體特征是,廣泛吸收和融合相關學科的新理論,不斷開發應用新技術和新方法,深化和豐富了統計學傳統領域的理論與方法研究,并拓展了統計研究的新領域。這些都充分地體現了統計學強有力的生命力,其具體表現在:第一,統計學和計算機科學相互促進。通過計算機協助的電子通信、網絡創新、資源及信息統計中的統計軟件等,在統計信息搜集、存儲和傳遞過程中利用計算機提高工作效能,使統計信息時空結構有了新的發展。在網絡推斷、統計軟件包、統計建模中的計算機診斷等方面,提出了統計思想直接轉化為計算機軟件,通過軟件對統計過程實行控制,以及利用計算機程序識別模型、改善估計量性質的新方法。這些研究成果使人們興奮地看到計算機技術正在促使統計科研工作發生革命性變化。在軟件的質量評估和統計程序及方法對軟件可靠性的檢驗等方面也有了新的發展。
第二,統計理論與分析方法的新發展。近年來,統計方法成果豐碩,反映了統計理論與分析方法在不斷的發展中趨于成熟和完善。在貝葉斯方法、非線性時間序列、多元分析、統計計算、線性模型、穩健估計、極值統計、混沌理論及統計檢驗等方面,內容廣泛而翔實,可以歸納為三個方面:①理論上有新的開拓。如應用混沌理論提出混沌動態系統、混沌似然分析;引入數學中象分析、譜分析的方法,探討象分析中同步模型化的方法,建立經驗譜類函數的假設檢驗方法等;②不同的分析方法相互滲透、交叉結合運用,衍生新的分析方法。如馬爾可夫鏈,蒙特卡羅方法在葉貝斯似然計算中的應用,參數估計方法的非參數校正,狀態空間模型與月份時間序列的結合運用等;③借助現代計算機技術活躍新的研究領域。在計算機技術迅速發展的帶動下,模擬計算理論和方法有了長足的發展,這給非線性模型等因計算煩瑣而沉悶多時的研究領域注入了新的活力,提出了非線性結構方程模型的特征向量估計方法,非線性回歸中的截面有效性逼近,帶噪聲的非線性時間序列的識別等富有見地的新思路。Logistic模型、向量時間序列模型的研究也因計算技術的解決而不乏新成果。
第三,統計調查方法與記述的創新。調查方法是統計方法論的重要組成部分,近年來,在抽樣理論與方法、抽樣調查、實驗設計等方面如何改進調查技術、減少抽樣誤差等問題是人們十分關心的。在調查過程的綜合管理、不等概率抽樣設計、分層總體的樣本分配、抽樣比例的回歸分析和實驗設計正交數組的構造方法等方面也有了新見解。再抽樣及隨機加權方法、隨機模型及連續調查報告的趨勢計量、輔助信息和抽樣方法等,則涉及多種統計分析和計算方法的應用,在轉換樣本調查設計等方面也取得了一定成果,計算機輔助調查也有了新的發展。
眾所周知,理論來源于實踐,反過來又服務于實踐。統計理論的研究和分析技術的發展,無疑對統計的實踐起到了一定的指導作用。從另一角度也顯示出統計理論和分析技術的不斷完善,為統計學的應用奠定了基礎,確保了統計學強大的生命力。
二、多元統計分析方法的應用
這里我們要通過一些實際的問題,解釋選擇統計方法和研究目的之間的關系,這些問題以及本書中的大量案例能夠使讀者對多元統計分析方法在各個領域中的廣泛應用有一定的了解。多元分析方法從研究問題的角度可以分為不同的類,相應有具體解決問題的方法,參看表1.1。
多元統計分析方法在經濟管理、農業、醫學、教育學、體育科學、生態學、地質學、社會學、考古學、環境保護、軍事科學、文學等方面都有廣泛的應用,這里我們列舉一些實際問題,進一步了解多元統計分析的應用領域,讓讀者從感性上加深對多元統計分析的認識。
(1)城鎮居民消費水平通常用八項指標來描述,如人均糧食支出、人均副食支出、人均煙酒茶支出、人均衣著商品支出、人均日用品支出、人均燃料支出、人均非商品支出。這八項指標存在一定的線性關系。為了研究城鎮居民的消費結構,需要將相關強的指標歸并到一起,這實際就是對指標進行聚類分析。
(2)在企業經濟效益的評價中,涉及的指標往往很多,如百元固定資產原值實現產值、百元固定資產原值實現利稅、百元資金實現利稅、百元工業總產值實現利稅、百元銷售收入實現利稅、每噸標準煤實現工業產值、每千瓦時電力實現工業產值、全員勞動生產率、百元流動資金實現產值。如何將這些具有錯綜復雜關系的指標綜合成幾個較少的因子,既有利于對問題進行分析和解釋,又能便于抓住主要矛盾做出科學的評價,可用主成分分析和因子分析法。
(3)某一產品是用兩種不同原料生產的,試問此兩種原料生產的產品壽命有無顯著差異?又比如,若考察某商業行業今年和去年的經營狀況,這時需要看這兩年經營指標的平均水平是否有顯著差異以及經營指標之間的波動是否有顯著差異。可用多元正態總體均值向量和協差陣的假設檢驗。
(4)按現行統計報表制度,農村家庭純收入是指農村常住居民家庭總收入中扣除從事生產和非生產經營用支出、稅款和上交承包集體任務金額以后剩余的、可直接用于進行生產、非生產性建設投資、生產性消費的那一部分收入。如果我們收集某年各個省、自治區、直轄市農民家庭人均純收入的數據,可以用相應分析,揭示全國農民人均純收入的特征以及各省、自治區、直轄市與各收入指標的關系。
(5)某醫院已有100個分別患有胃炎、肝炎、冠心病、糖尿病等病的病人資料,分別記錄了他們每個人的若干項癥狀指標數據。如果對于一個新病人也測得這若干項癥狀指標時,可以利用判別分析方法判定他患的是哪種病。
(6)有100種酒,品嘗家可以對每兩種酒進行品嘗對比,給出一種相近程度的得分(越相近得分越高,相差越遠得分越低),希望用這些得分數據來了解這100種酒之間的結構關系。這樣的問題就可以用多維標度法來解決。
(7)在地質學中,常常要研究礦石中所含化學成分之間的關系。設在某礦體中采集了60個標本,對每個標本測得20個化學成分的含量。我們希望通過對這20個化學成分的分析,了解礦體的性質和礦體形成的主要原因。
(8)在生態學的研究中,對1000個類似的魚類樣本,我們可以利用聚類分析方法根據測量的特征如體重、身長、鰭數、鰭長、頭寬等,將這類魚分成幾個不同品種。
(9)考古學家通過挖掘出來的人頭蓋骨的高、寬等特征來判斷是男或女;根據挖掘出的動物牙齒的有關測試指標,判別它是屬于哪一類動物牙齒,是哪一個時代的。
(10)在高考招生工作中,我們知道每個考生的基本情況,通過分析,我們不僅可以了解到學生喜歡學習的科目,還可以進一步從考生每門課程的成績分析出學生的邏輯思維能力、形象思維能力和記憶力等因素對學習成績的影響。