第1章 什么是統計學
【學習目標】
l 解答初學者最關注的5個問題。
l 通過解讀實例來掌握統計術語。
l 通過解讀熱帖來認識統計運用。
統計學是一門充滿智慧和樂趣的學問。要不然,才懶得讓生命在這兒漫游呢!
統計的語言是數據,統計是助人為樂的常用法寶。統計,讓生活實在而精彩!
1.1 你來問我來答
許多學生學習統計是因為他們知道,老板在看一份求職者材料時會對統計學課程留下印象,還因為事實上,任何研究領域都會從統計方法的應用中獲益。
——[美]特里奧拉
學統計,教統計,用統計,這已成了我生活中的一部分。每當站在講臺上,開始第一堂統計課的時候,我就想知道:你最想問的一個問題是什么?于是,用寫小紙條的形式,我搜集到了這類信息。有意思的是,經過歸類,我發現,他們提到的問題,基本上大同小異,主要集中在3個方面——統計學是什么、有什么用、怎么學,只是表達的風格不同而已。
下面就是精選出來的5個提問,在漫談式的一問一答中,讓我們輕松步入統計學的世界吧!
(1) 問:統計學就是所謂的調查報告嗎?
答:統計學是用數據來認識外界和內心世界的一門學問。統計學是通過搜集、整合、分析數據,以提交和管理統計成果。而調查報告只是統計成果中的一種。
統計成果的形式多著呢!除了調查報告的形式,還有電視劇本的形式,如電視劇《數說北京》等;有統計論文的形式,如《統計研究》、《中國統計》、《管理世界》、《經濟研究》等中文核心期刊上的論文;還有網上調查的問卷形式,如有的網上調查并不形成文字成果,只是即時表達網民的一種意向意愿而已。
不過,可別小瞧了調查報告這種形式。調查報告可也是值錢的,有人因此求職成功,有人以此經營謀生。調查報告有免費的,也有明碼標價的。調查報告怎么看、怎么寫,可參看本書第9章“數據文章的寫法”。
(2) 問:是不是數學沒學好,統計學也學不好?
答:如果數學沒學好,只要如此這般,基礎統計學照樣可以學好。
瞧,1 1=2,這是數學算式,卻不是統計學算式。因為統計學與數據打交道,探討的都是實際問題,自然,每個數據都是帶計量單位的,數據是多少都有原因。統計學的數據來源于生活,又服務于生活,選例做題的資料都取材于實際,你置身其間,猶如漫游花園,看得到園中花,聞得到園中香,嘗得到園中果。統計學帶給你的就是實在的享受和感覺。
同時,我們的學習目標是懂得解讀統計結果,這可以靠計算機幫忙,跳過繁瑣的公式推導。本書用的是一款最簡單的軟件——Excel,計算作圖等,只在點擊之間。
其實,求職市場上,很多招聘單位在職務描述中都提到:要求熟練使用計算機常用辦公軟件(Word、Excel、PowerPoint等)。關于Excel,有位實習生發來郵件說:“到了實際工作中需要的太多,我們有的沒有學好甚至是沒學過,要不是您在統計課上教會了我們一些Excel,現在我恐怕連Excel都不知道怎么使用,外面對Excel 的要求很高也很精,昨天應聘回來,我自己在計算機上操作了近兩個小時,才終于把那些函數什么的弄清楚了,以后肯定還會有很多不知道的地方要向老師請教,到時候又要麻煩老師了。”
當然,要精鉆統計學,數學必定是頂級優秀的。例如,1969年,第一屆諾貝爾經濟學獎就是獎給了兩位喜歡統計學的專家:計量經濟學創始人拉格納·弗里希(挪威人)和宏觀計量模型創始人簡·丁伯根(荷蘭人)。
(3) 問:您能告訴我學統計學的訣竅嗎?
答:成績優秀=誠實 自信 勤學勤練 活學活用。這是主旋律,統計學也不走調。
統計學學什么呢?舉例來講,長假來了,想去旅游。可世界之廣,往哪兒去呢?于是,先得有個設想,再查找資料,整合信息,待準備就緒,就欣然出行。統計學以量化的認識幫助人,這個認識過程,一般也是先全盤設計,再搜集和整合信息,最后提交分析的結果。
統計學學習的內容,也就是量化的認識過程。運用統計認識主觀、客觀,不論規模大小,一般都有這樣一個程序:統計設計→數據搜集→數據整理→數據分析→數據傳播。
(4) 問:有與本課程相關的有趣的書籍和網站嗎?
答:當然有啊。以下提供的是一些網絡信息。
l 在線測試:;。
l 統計學人:;;;;。
l 統計學習:;;。
l 統計應用:;;;;;。
統計書籍:相關書目參見圖1-1。
由于數據無所不在,而統計學又與數據打交道,這就注定了統計學大有用武之地。
(5) 問:想想看,還有什么與數據無關呢?有人笑笑說,情感呀,難道情感也能量化?
答:當然能。《心理統計學》早就上架了,早就成為大學里研讀的課本了。
統計學的科目,分為統計學原理和專業統計學。《心理統計學》屬于專業統計學,本書講述的是統計學原理部分,統計學原理是專業統計學的基礎。如果你發現所學的專業或其他方面,還有什么沒被加上統計學后綴的話,那么,恭喜你,你有了新發現,你要趕快把新發現變成新成果,也寫一本什么統計學。哈哈,其實,有所發現,有所創造,原來并不遙遠。只要有心,只要有趣,只要有益,何樂而不為?
每年,都有專業統計學教材新鮮上市,如《體育統計學》、《心理統計學》、《旅游統計學》、《傳播統計學》、《醫學統計學》、《生物統計學》、《物流統計學》、《財務統計》、《貨幣與金融統計學》、《統計學原理與營銷統計》、《統計學:以Excel為分析工具》等。
每年,還有大量的統計讀物可供漫游,如《數海臨風》、《看漫畫,學統計》、《愛上統計學》、《統計,讓數字說話》、《統計使人更聰明》、《統計如何“表達”統計》、《統計思想》、《統計學的世界》、《世界統計名人傳記》、《漫游數據王國》、《生活中的統計學》、《統計連著我和你》等。下面,展示幾本統計讀物的封面(見圖1-1),以增加一點觀感。
圖1-1 統計讀物的封面
1.2 統計語言初步
統計的思維方法,就像讀和寫的能力一樣,有一天會成為效率公民的必備能力。
——[英]威爾斯
人很聰明,為了交流,創造了語言;為了研究,創造了術語。每門學科,都有自己獨特的語言,比如音樂中豆芽菜式的五線譜。統計學也有自己的術語,這些術語充滿了生命力,因為它們來源于生活,提煉于生活,又施惠于生活。
講到概念,有人常喜歡咬牙切齒地去記。其實,這是不得要領。本節是用一個實例來解讀一串統計學基本概念,1.3節是用現學的這些知識來解讀生活中的熱門話題。學了就用,就這么簡單。
漫游統計王國,掌握了統計學的幾個基本概念就如同拿到了入場券,有了它,就可以慢慢享受和發現其中的樂趣了。
1.2.1 統計、統計學和數據
由于統計學是與數據打交道的科學,那么統計、統計學和數據這三者之間的關系,也有必要挑明一下。
1. 什么是統計
“統計”一詞有名詞和動詞之分。有人說:“把這個或那個給統計一下。”這里說的統計用作動詞,表示算一算的意思。有人講:“我專業學的是統計呀。”這里說的統計用作名詞,表示統計這個領域的學問。
什么是統計呢?從狹義上看,動詞上的統計,常稱為統計實踐;名詞上的統計,視同于統計學。從廣義上看,統計是統計數據、統計實踐和統計學三者的統一體。統計學與統計實踐是理論與實踐的關系,統計學與統計實踐都離不開數據。統計數據是統計學研究的依據,是統計實踐最后的成果。離開了數據,統計和統計學就成了無源之水。
從“算一算”的統計到形成統計學,其間經歷了許多年。“算一算”含義上的“統計”,可以追溯到人類結繩記事的時代了。從那時起,統計一直都在延續著它的薪火。古代埃及為了建造金字塔,古代中國為了修建長城,都對本土當時的田畝、人口等做了調查,掌握了相應的數據。統計實踐的歷史是很悠久了,而統計學還很年輕,系統研究統計實踐并將其上升到統計理論,距今只有300多年。
2. 統計實踐的簡史
人類的統計實踐是隨著計數活動而產生的。因此,對統計實踐發展的歷史可追溯到人類社會初期的打繩結、畫道道計數,這可算是最初的統計。而統計實踐的真正萌芽是在古代奴隸社會。當時的統治階級為了滿足治理國家的需要,常常進行征稅、征兵等統治活動,因此有了了解社會基本情況的需要。
中國在公元前2000多年的夏朝,就有了人口與土地數字的記載,當時全國分為九州,人口13 553 923人;埃及在公元前3000年,已經有人口與居民財產統計;羅馬在公元前400年,建立了人口普查和經常性人口出生、死亡登記制度。這些是原始形態的統計。
進入封建社會后,隨著人類社會生產的發展,統計的范圍逐漸由人口、土地發展到社會經濟生活的各個方面。但由于自給自足的自然經濟占主導地位,生產力低下,經濟落后,長期的封建生產關系阻礙了社會生產力的發展,相應地也阻礙了統計實踐的發展。
統計實踐的廣泛發展始于資本主義社會。17世紀以來,資本主義國家由于工業、商業、農業、貿易、交通的發展,統計實踐從國家管理領域擴展到社會經濟活動的許多領域。從18世紀起,各資本主義國家先后設立專業的統計機關,搜集各方面統計資料,定期或不定期舉行人口、工業、農業、貿易、交通等項調查,出版統計刊物,建立國際統計組織,召開國際統計會議。
3. 統計學說的簡史
統計學源于統計實踐。統計學誕生于17世紀中葉,創始人是英國的威廉·配第。翻開統計學的典籍,有以下這么幾個很牛的學派載入了史冊。
第一個時期:獨立的統計學派(17世紀中葉—19世紀中葉)。
統計學說源于以下兩個學派的貢獻:記述學派、政治算術學派。
記述學派——有名無實的統計學派。17世紀中葉,記述學派誕生于嚴謹的德國,代表人物是康令(1606—1682)等。他們主張用記述的方法記錄國家的重大事項,諸如政治、軍事、經濟等,希望從中理出歷代興亡之跡,從而為統治者效勞。后來,德國人阿亨瓦爾(1719—1772)首次在大學開講《國勢學》課程,首次提出了“統計學”這個學名,并將“統計”定義為記述國家顯著事項的學問。記述學派也稱國勢學派,它以社會經濟現象作為研究對象,以社會調查作為研究基礎,因其只注重文字分析,而被稱為有名無實的統計學派。
政治算術學派——有實無名的統計學派。17世紀中葉,政治算術學派誕生于風雅的英國,代表人物是威廉·配第(1623—1687)等,代表作有《政治算術》。他們主張用數量對比分析的方法,對英國與法國、荷蘭的國情進行比較,以明確英國的國際地位。由于最早提出并實踐了數量分析的方法,威廉·配第被尊稱為“政治經濟學之父”和“統計學的創始人”。后來,威廉·配第的朋友約翰·格朗特(1620—1674)寫出了第一本關于人口統計的著作,即《死亡率報告》,對倫敦50多年的人口出生和死亡資料進行了計算和分析。政治算術學派以社會經濟現象作為研究對象,以社會調查作為研究基礎,注重數量分析,為統計學的創立奠定了方法論基礎,但由于在其所有著述中并沒有提到“統計學”3個字,因此這個學派也被稱為有實無名的統計學派。
現在,《統計學原理》、《人口統計學》、《保險統計學》已成了大學里常開的課程。而“中國人壽保險業經驗生命表”,即反映社會平均年齡及不同年齡人群的生存概率和死亡概率的數據表格,已廣泛應用于壽險產品定價、風險管理等各個方面,是保險行業防范風險的重要手段和條件。
第二個時期:融而不合的統計學派(19世紀中葉—20世紀中葉)。
社會經濟統計學派——迅速發展的統計學派。19世紀,社會經濟統計學派興起于德國,是政治算術學派的延伸,代表人物是恩格爾(1821—1896)和梅爾(1841—1925)。他們主張統計學是研究社會現象的社會科學,融會了記述學派和政治算術學派的觀點,并把政府統計和社會調查融合起來,進而形成社會經濟統計學。社會經濟統計學派在理論上比政治算術學派更加完善,在時間上比數理統計學派提前成熟,因此在國際統計學界影響很大。
數理統計學派——融合卻走偏的統計學派。19世紀,數理統計學派誕生于美麗的比利時,代表人物是阿道夫·凱特勒(1796—1874)等,代表作有《統計學的研究》、《關于概率論的書信》。他們主張將概率論應用于人口、人體測量和犯罪等問題的研究,創建了抽樣理論、相關和回歸理論等,完成了統計學和概率論的結合。數理統計學派把記述學派、政治算術學派、概率統計學派的分析方法,融合為一門統計學,但主張概率論就是統計學,否認社會經濟統計學的存在。
1851年,第一屆國際統計學會議由凱特勒組織,在比利時首都召開。從1855年起,這個學會改名為國際統計學會。
1979年,中國統計學會成立,同年經國務院批準參加國際統計學會第42屆會議,并被接納為該會的團體會員。1995年,在北京成功舉辦國際統計學會第50屆大會,出席這次會議的有來自85個國家、地區和國際機構的1070名代表,中國統計學界代表380多人,特邀企業界列席代表近200人,規模超過國際統計學會歷屆會議。2013年,國際統計學會第59屆世界統計大會在中國香港舉行。
圖1-2所示為統計學的創始人威廉·配第和他的著作,圖1-3所示為中國統計學會創始人李成瑞和學會的網站。
圖1-2 統計學的創始人威廉·配第和他的著作
圖1-3 中國統計學會創始人李成瑞和學會的網站
第三個時期:合流的統計學派(20世紀中葉至今)。
這一時期,社會經濟統計學派和數理統計學派出現了融合的趨勢,強調相互借鑒,共同發展。這一時期,統計學界人才輩出,方法層出不窮。比如,英國人費希爾(1890—1962)提出了假設檢驗、方差分析等方法,中國人薛暮橋(1904—2005)創新了劃類選典等調查方法。同時,非參數統計、多元統計分析、時間序列分析等方法也應運而生并蓬勃發展。
在我國,1949年以前,統計工作無序,統計學基本上是照抄西方統計理論,傳播的主要是數理統計學派的觀點。1949年以后的近30年,統計學基本上是照搬蘇聯的統計理論,傳播的是社會經濟統計學派的觀點,而數理統計學派遭到批判。1979年以后,全國思想大解放,百家爭鳴,統計學界經過激辯,終于達成了共識,認為數理統計學與社會經濟統計學一樣,都是獨立的統計學科。現在,社會經濟統計學和數理統計學出現了融合的趨勢,數理統計方法在社會經濟統計中得到了廣泛的應用。目前,統計學已劃入國家一級學科,隨著大統計學學科體系的建立,統計學作為一門獨立的科學,其運用已滲透到了各個領域。
諾貝爾經濟學獎大多授予了計量經濟學領域的領軍人物。計量經濟學研究的是統計學在經濟學中的應用。2003年,諾貝爾經濟學獎由美國人恩格爾和英國人格蘭聯手獲得,獎金為130萬美元,獲獎理由是在處理“時間序列”變量的研究方法上取得了重大突破。2008年,諾貝爾經濟學獎得主以數據為基礎預言經濟危機而摘冠。2009年,諾貝爾經濟學獎得主以經濟治理分析方面的貢獻而折桂。2011年,諾貝爾經濟學獎得主以解答了許多有關經濟政策與宏觀經濟變量之間的關系問題而奪魁。2012年,諾貝爾經濟學獎頒給了從事“預期”研究的學者。2014年,諾貝爾經濟學獎頒給了研究“對市場力量和監管的統計分析”的學者。本書第6章將介紹時間序列即動態數列的基本知識。
未來統計學將是怎樣的走勢,筆者預計,統計學將更具全球化、人性化和生活化(參見圖1-4)。隨著電子網絡的存在與發展,全球統計學將應運而生,以地球為村落進行統計,各國統計界的交往和合作將更為頻繁。同時,個體統計學也將會走俏。統計學將青睞個人領域,如《幸福統計學》、《愛情統計學》、《網絡統計學》、《個人理財統計學》等,個人將因此而受惠更多。可以滿懷自信地憧憬,隨著新生活的豐富多彩,隨著時日的不斷推移,新的統計方法也將不斷被發現,這些新發現將為人們帶來新驚喜,并將為新生活帶來更多的充實和愉悅。
圖1-4 首屆“世界統計日”和“中國統計開放日”宣傳展板(制作:中國國家統計局)
4. 統計學的定義
《不列顛百科全書》的定義:統計學是搜集、分析、表述和解釋數據的科學。
全國中級統計師考試用書中的定義:統計學是一門研究數據的科學。任務是有效地搜集、整理和分析這些數據,探索數據內在的數量規律性,為決策提供依據。
本書的定義:統計學是一門設計、搜集、整理、分析和傳播數據的藝術和科學。
說統計學是科學,具有科學性,這個沒問題。說統計學是科學,具有藝術性,是科學性和藝術性的二合一,這個嘛,自然也沒有問題。
關于統計學的藝術性,由于說的人比較少,平常關注得也不多,所以一旦挑起這個話頭,就自覺還有一點兒新奇。其實,統計學的藝術性早就存在了,它與統計學的科學性一樣,和統計學相伴而生,并和統計學的科學性相輔相成。打個比方,統計學的藝術性就好像大地的鮮花,哪怕在無人抵達的幽谷里,哪怕在人跡罕至的僻靜處,它都一樣開得蓬勃旺盛,開得花團錦簇、滿面春風。統計學既是一朵平常的花,也是一朵藝術的奇葩。統計學藝術上的美需要更多的發現和挖掘,在信息時代,可以預見,統計學的藝術性必將大放異彩。
1) 統計學藝術性的基礎是科學性
統計學是設計、搜集、整理、分析和傳播統計數據的學問。統計學的科學性,表現在科學的思維、科學的計算、科學的表達和傳播。統計活動的全過程,都要用科學來支撐。
統計學作為一門科學,其科學性主要表現在3個方面,即科學的規律性、嚴密的程序性、先進的技術性。現分述如下。
其一,統計學具有科學的規律性,這是指統計學理論來源于統計實踐,是對統計活動規律的總結,統計科學中的原理,包括基本程序、原則、方法等,對統計活動有普遍的指導意義,而統計活動的發展,又不斷催生統計理論的升華。
其二,統計學具有嚴密的程序性,是指從一次認識過程來看,統計活動必然經歷設計、搜集、整理、分析和傳播數據這5個環節,而統計理論對統計活動的指導也是嚴格按照這個程序,對各環節予以探討和更新的,統計設計要全盤考慮,其他環節要落在實處。
其三,統計學具有先進的技術性,是指要獲得準確、真實、及時、全面的數據,必須要有先進的方法和技術。為了獲得優質的數據,為了透過數據看到事物的外貌、內核和未來,智慧的人們總在不斷地尋求更好的途徑。各種統計方法在不同領域廣泛運用,各種統計軟件在提升統計效能方面神通廣大,可以這么說,只有科學的統計,才能贏得統計的信譽。
統計活動如果不講科學,不按統計規律辦事,而是隨心所欲地安排統計活動,隨隨便便地估摸那么幾下,隨意率性地向外張揚和吹噓,那么得到的統計結果即數據,可想而知就是不科學的,就是有百害而無一利的數據垃圾。是遵循統計學的科學性,還是違反統計學的科學性,得到的結果完全不同。
遵循統計學的科學性,統計學才會有進步,才會充滿生機活力。這方面的例子俯拾即是,各領域的統計學紛紛興起就是實證。違反統計學的科學性,統計學將會遭到滅頂之災。20世紀50年代,中國大地上刮起的那股浮夸風,不管何時提起,都一樣令人膽寒。“人有多大膽,地有多大產”、“只怕想不到,不怕做不到”之類的狂言甚囂塵上。按理,有合適的天時、地利、人力和科技,才會達到相對較高的產量,而盲目夸大人的力量,不按統計的科學辦事,不遵循自然規律,想有多少就有多少,想是多少就是多少,這種攀比和浮夸,結果自然是害人誤國。提起當年的荒唐鬧劇,過來人更深有感觸。筆者的父親,一位老實本分的知識分子,經歷了那個年代,并被下放到“五七干校”勞動改造。在“五七干校”,分派他去豬棚喂豬,每頭豬每天長了多少都要上報。筆者的父親堅持說,就算把豬每天吃的喝的加一塊,也長不了那么多啊。因為上報的生豬增重的數字遠遠大于它吃喝的數字。聽父親講非常年代的事兒,我們都還有些后怕,因為那年月,誰說實話誰倒霉。浮夸風的年代,是反科學的年代,是人性扭曲的年代。在那樣的年代,和其他科學一樣,統計學也被窒息得喑啞無聲。
到如今,尊重科學、科學發展,已成共識。統計學不僅要嚴守科學性,還要大力倡導其藝術性。大體上講,統計學的科學性是內容,統計學的藝術性是形式。統計學的科學性和統計學的藝術性,這兩者是內容與形式的關系,好的內容離不開好的形式來表現,好的形式需要有好的內容作基礎。統計學的科學性和藝術性同時并重,將能更好地傳播統計學,能化刻板的數據為靈動的數據,能化抽象為具體,能以鮮活的形式走入尋常百姓家,讓人樂于理解和接受,讓人感受到數據之美和有用。
2) 統計學的藝術性無所不在
統計學的藝術性是指統計作品通過各種藝術手段反映生活,表現數據所達到的鮮明、準確、生動的程度。主要包括藝術形象的鮮明具體性和典型性、藝術情節的生動性和曲折性、藝術語言的準確性和鮮明性、藝術手法的精當性和多樣性。
科學性注重實實在在,藝術性講究藝術表現,這兩者在統計學中能融合到一起嗎?這里,不妨到統計活動的現場走一趟,感受一下統計學中藝術的魅力。統計活動的現場,也就是常說的統計活動的基本過程:設計→搜集→整理→分析→傳播數據。現分述如下。
其一,在統計設計的起始階段,統計學的藝術性主要表現在設計統計指標體系結構的完整性和嚴謹性上。和其他設計一樣,統計設計也是一個思維創造的過程。統計設計是為統計活動的全程勾勒出一幅藍圖,其中心要務就是設計統計指標體系。在家居設計中,可以根據住宅的風格設計相應的情調,或淡然雅致,或濃墨重彩,或濃淡相宜,盡可別具一格。但在統計設計中,既要有科學的才情來捕捉主題,也要有藝術的眼光來洞察整體。以設計統計指標為例,一系列統計指標怎么選擇,統計指標體系是怎樣的構架,其中必有人文情懷,必有獨特品位。可以這么說,優質的統計指標體系的結構,本身就是科學和藝術聯手創作的絕妙藍圖,體現了藝術結構的完整性和嚴謹性。
其二,在搜集數據的基礎環節,不論是搜集一手數據,還是搜索二手數據,統計學的藝術性也是融入其間、無所不至,表現在搜集數據過程中的靈動性上。在搜集一手數據的時候,常用問卷的方法,問卷的版面設計需要講求藝術,問卷的語言和結構也要講究藝術。尤其是把問卷放到網上時,更給統計藝術的發揮提供了極好的平臺。比如,動態設計的問卷、植入相應音樂和視頻的問卷,問卷語言的生動化,優美高雅的互動環境的布置,凡此種種,都閃耀著藝術的光輝。可以說,新穎獨特又風格實在的問卷,才會吸引上網游逛者飄忽的目光,才更有可能獲得更多鮮活的數據,才更有可能讓問卷之旅不虛此行。愛美之心人皆有之,好奇之心人皆有之,問卷的外在美與內在美兼修,將會美不勝收。在搜索二手數據的時候,同樣的道理,權威的并輔之以藝術性表達的數據,才更容易為人們所采用并津津樂道。
其三,在整理數據的中間環節,統計學的藝術性主要表現在圖表的風貌上。統計圖和統計表是顯示整理數據結果的兩種形式。統計圖表不管是在制作還是在顯示方面,都飽含著藝術的元素。當世間出現了網絡和統計軟件以后,統計圖表的藝術品位也越來越濃。統計圖表本身就具有直觀生動、一目了然的特性,當有了網絡以后,原來手工繪制的圖表變成了計算機繪制的,這一轉變,使得一般統計圖表的繪制也能被人們廣為接受和操作,使得專業統計圖表的繪制更為精良和美妙。動態的統計圖、象形的統計圖,點綴和豐富著我們的生活。統計圖表色澤的選擇和搭配,離不開色彩學等藝術的理念和實踐。制作成的精美的統計圖表,自然是藝術品,是統計科學和藝術的完美結晶。當然,不論何時,統計的科學性必須擺在首位,如果打著藝術的幌子,歪曲真實的數據,那么,就算統計圖表做得再好看,那也是誘人上當、遮人眼目的騙局。這樣的例子很多,比如,生拉硬扯統計折線圖,把死水微瀾的業績畫得直沖云霄,或者偷偷截去縱軸上的數據,不從0開始顯示,而是任選一個自己喜歡的起點,這些不為人所見的小動作,都是違反統計科學性的。顯然,統計圖表的藝術性可以為統計數據的傳播增色,但如果沒有統計科學性的強力支撐,那些藝術性就算揮灑得再好,也不過是偽裝得更高明罷了。看來,要欣賞統計圖表,還要有鑒賞的能力。主題鮮明的、貨真價實的、風格迷人的統計圖表,才是統計藝術中的珍品。
其四,在分析數據出成果的階段,統計學的藝術性表現在數據文章的語言所具有的鮮活性。在不辭勞苦,當然也是樂在其中地搜集和整理好數據以后,接下來就是寫作數據文章,將所思所想和所經所歷,把來之不易的各種形式的數據,用文字語言和數字語言交織成一篇文章,這個階段是出成果的階段。打個比方,有了氣鼓鼓的籃球,有了打籃球的所有行頭,還得要有技術,投籃一出手,就知有沒有。要把數據文章寫好,寫得好看耐看,需要藝術的修煉和功底。藝術的表達同樣需要以數據的科學性為前提,如果不真不實不準的數據,偏要生硬地添上藝術的光環,就會落個華而不實、嘩眾取寵的名聲。藝術感強的數據文章,表現在文章的數字標題醒目、給數字打比方生動有趣、穿插的圖表整體風格一致、文字語言與數字語言的有機融合、全篇結構的張弛有度等方面。
這里拿幾個實例來窺其一斑。
例如,《市民春節消費刷卡額增近五成》一文,來源于2010年2月23日的《信息時報》,文章寫道:“中國銀聯日前發布最新統計數據,大年三十至正月初六(2月13—19日),境內銀行卡跨行交易達569億元,比去年春節增長47%。”在這里,數字標題的提煉就很到位,將“47%”替換成“近五成”,既簡化了讀音,又讓人看得順眼。適當地用成數取代百分數作標題,就是一種遵循科學的藝術性表達。當然,如果統計數據為42%,表達為近五成就失真了。
又如,《趣談中西文化之差異》這篇文章,發布在山東外事的網站上,文中提到,“中國人喜歡講數字,西方人喜歡講故事”,并建議“在對外宣傳時,我們要善于把數字和故事結合起來,以便讓西方人更好地了解中國”。擺數字是實,講故事是虛,將虛、實結合,在入情入理的描述中傳揚數據,做到了這一層,估計不管東方還是西方,肯定普天下的人都會鼓掌歡迎、拍手叫好。這講故事,就需要藝術。要以準數為基礎,講得活靈活現,講得深入人心,講得頭頭是道,這是需要下功夫的。而那種一味鋪陳數字的做法,只會讓人感到枯燥。其實,以數字為依據講故事,這故事不是杜撰出來的,而是講數字背后的真人真事,讓人明白數字的來歷和背景,讓人珍惜眼前數字的來之不易。要講好數字的故事,就要有科學的精神,還要有藝術的情懷。
至于用打比方的藝術手法來解讀數字,或者用數字打比方來解讀世理,這樣的例子就太多了。“健康是1,其他是0。”這就是用簡單的數字來解說“健康最重要”這樣一個道理。“中國以8億件襯衫換1架飛機”,這一度觸目驚心的事實,現已成為過去式了。
其五,在傳播數據的最后環節,統計學的藝術性表現在傳播手法的精當性和多樣性上。統計的數據成果出來以后,一般是需要通過相應的平臺進行傳播的,這樣才能發揮其效用。在計算機出現以前,統計數據成果的發布或發表,渠道比較單一,主要是通過報紙雜志,受眾面有限,傳播也不快,統計服務的對象主要是政府。全球網絡化以后,凡有點知識、有點條件的人都成了網民,統計數據的傳播速度空前加快,統計的服務對象既有政府也有民眾。統計數據影響政府決策,政府決策影響民眾生活,民眾以前所未有的熱情關注著統計數據的發布,關注著股市、房市、車市、物價等統計數據的走勢,關注著與自己生活息息相關的統計數據的來龍去脈。在這種情勢下,統計數據的傳播不講求多樣化的精當表達就跟不上時代需求,那種程式化的千篇一律的套話和官腔已經混不下去了。
官方統計數據的傳播,現在已是豐富多彩,走多部門合作的路子,建立共存共贏的模式已成現實。比如,2005年開始由北京市統計局與北京電視臺合作拍攝的《數說北京》,近年國家統計局與新華網等聯手調查“全國最受關注的統計數據”,統計官員來到新華網等網站以現場解讀人們關注的數據,等等這些,反響都很好。統計傳播的渠道,由原來單一的紙質傳播到現在利用網絡的多樣化傳播,統計傳播的對象由政府機關到人民大眾。
統計傳播的手段和受眾等的變化,使得統計傳播中講求藝術的氛圍越來越濃。《數說北京》是以輕喜劇的形式來講讀統計數據對京城生活的影響,統計官員來到門戶網站是以通俗易懂的語言形式來解說大家關注的數據變化。如果統計數據沒有吸引力和生命力,如果發布統計數據的平臺沒有一定的藝術表現力和感染力,那么,《數說北京》就不會登上城市公交的移動電視一播再播,統計官員就不會被央視等主流媒體頻繁邀請并瀟灑上鏡侃侃而談。
關于統計的傳播,在實踐中早就開始了,但理論上的探討卻很少,這從教科書和百科全書給統計學的定義就可以看到。現成的關于統計學的定義,最后一個環節都是分析或者提交,沒有明確指出統計傳播。隨著統計實踐的發展,統計理論滯后的現狀必須正視。可以預見,統計傳播的重要性,統計學的藝術性,將會越來越為人們所重視,并不斷被開拓出新意和美的境界。
3) 統計學是科學性和藝術性的統一
統計學是科學性和藝術性的統一,也就是客觀規律與主觀能動性的統一。統計學的科學性反映了統計活動的規律,統計學的藝術性反映了人的主觀能動性。
在信息社會,如何把數據搞準,如何讓民眾把數據搞懂,還真不是一件容易的事。官方統計數據的權威性,首先取決于數據的準確性,這需要科學的理念和方法、科學的態度和行動。要讓民眾把數據搞懂,就要特別注重藝術形式的調用,尤其在統計產品的花樣和傳播上,要講究方式方法,要找到生動活潑、通俗易懂的形式,接近貼近民眾,滿足人們對數據日益增長的需求。
網絡時代,是崇尚科學、追求藝術、數據化管理的時代。統計學與生俱來的藝術性,必將在統計科學的沃土上,綻放出更加芬芳迷人的花朵。
圍繞統計設計的目標,將搜集的數據經過整理和分析以后,所傳播的數據是統計信息。政府統計信息的傳播,常見的有統計公報、統計年鑒、資料匯編等形式。非政府統計信息的傳播,常見的有幻燈片演示、調研報告的發布等。
1.2.2 統計學中的基本概念
統計學是研究什么的?統計學的研究對象是現象總體的數量方面。那么,什么是總體?在步入統計學世界時,遇到的第一個統計學的基本概念就是總體。
統計的魅力在數據,數據生生不息。蕓蕓數據,可以從多個角度來分類,按調查范圍來看,可分為個體數據和總體數據,總體數據來源于個體數據。
下面用一個簡單的例子,把常用的統計術語串聯在一起。
【例1-1】“班長的小報告”。統計專業這個班有30名同學,男女各半,平均年齡18歲。同學們愛好廣泛,平常喜歡上網呀,運動什么的。我們每一位都有特長:帥哥陳帥19歲,是計算機高手;班花李美18歲,天生喜歡涂鴉……噢,換個形式說吧,下面是兩份清單(參見表1-1和表1-2),請過目。
表1-1 個體數據表
學 號 | 姓 名 | 性 別 | 年 齡 | 愛 好 |
1 | 陳帥 | 男 | 19 | 計算機 |
2 | 李美 | 女 | 18 | 畫畫 |
| | | | |
↓匯總
表1-2 總體數據表
性 別 | 人數(人) | 各組人數所占比例(%) | 平均年齡(歲) |
男 | 15 | 50 | 18 |
女 | 15 | 50 | 18 |
合計 | 30 | 100 | 18 |
↑ ↑ ↑
總量數 相對數 平均數
由以上兩個清單,可得到該班學生的基本情況,如表1-3所示。
表1-3 某班學生的基本情況
認識 目的 | 個體 | 個體數據(標志):說明個體 | 總體 | 總體數據(統計指標): 說明總體 |
品質標志 (文本型數據) | 數量標志 (數值型數據) | 數量 指標 | 質量指標 |
名稱 | 表現 | 名稱 | 表現 | 總量數 | 相對數 | 平均數 |
學生 情況 | 每個 學生 | 學號 性別 愛好 | 1,2…… 男、女 計算機、畫畫…… | 年齡 | 19歲、 18歲…… | 全部 學生 | 總人數 30人 | 男女各占50% | 平均年齡18歲 |
例子在上,以下各統計術語之意,請對號入座。
1. 個體和個體數據
個體是指構成總體的單位,又叫總體單位。個體由個體名稱和個體表現構成。在例 1-1中,每一個學生是個體,都是這個班集體中的一員。姓名是個體的名稱,“陳帥”等是個體名稱的表現。
個體數據是指說明個體的數據,又叫標志。標志由標志名稱和標志表現構成。標志按說明個體特征的不同,分為品質標志和數量標志。
品質標志是指說明個體的屬性特征。品質標志的取值就是品質標志表現。在例 1-1中,每個學生的性別是品質標志的名稱,男、女是品質標志的表現。
數量標志是指說明個體的量化特征,數量標志的取值叫標志值。在例 1-1中,年齡是數量標志的名稱,19歲是數量標志的取值,陳帥19歲,19歲就是標志值。
請注意,品質標志又叫文本型數據,數量標志又叫數值型數據。
文本型數據是指不能相加,或加起來沒意義的數據,常用文字、序號等表示。在例 1-1中,每個學生的學號、性別、愛好,這些品質標志的表現是不能相加的。
數值型數據是指可以計算、計算結果有意義的數據,用數值表示。在例 1-1中,由全班每個學生的年齡,可以算出全班學生的平均年齡。
2. 總體和總體數據
總體是由許多具有共同性質的個體所構成的。總體又叫統計總體。總體的形成必須具備一定的條件,主要有3條。其一,客觀性,即總體和個體必須是客觀存在的,可以實際觀察和計量的;其二,同質性,即組成總體的所有個體必須在某些性質上是相同的;其三,差異性,即組成總體的每個個體在某些方面是有差異的。成語“求同存異”,有助于理解和記憶總體的三性。
在例1-1中,總體是全班學生,全班學生是由每一個學生所組成的集體。每一個學生,既有共性又有個性。共性表現在他們都是同一年級、同一專業的,這些共同點使他們有緣成為同班同學。而每一個學生又有個性,又存在個體差異,如果每個學生各方面都一模一樣,那就不需要統計了。同時,要了解全班的特點,只用兩三個學生的情況來說明顯然是不夠的。
總體數據是指說明總體的數據,術語叫統計指標,又叫統計數據。統計的語言是統計指標。統計指標的表現形式有3種,即總量指標、相對指標和平均指標。總量指標表示總體的總量規模,相對指標表示總體的對比程度,平均指標表示總體的一般水平。總量指標、相對指標和平均指標,分別又稱總量數、相對數和平均數。總量數、相對數和平均數,簡稱“三數”。在例1-1中,說明全班學生這個總體的“三數”有總人數30人(即總量數)、男女各占50%(即相對數)、平均年齡18歲(即平均數)。
統計指標由八要素構成,這八要素缺一不可,模糊一個也不行。舉例說明如下:
2008年,中國 奧運健兒 獲金牌數量 達51 枚。(中國奧委會官方網站提供)
↓ ↓ ↓ ↓ ↓ ↓ ↓
時間 空間 總體 指標名稱 計量單位 資料來源
讀寫數據文章,任何一條總體數據,都要分清楚總體與個體、總體數據與個體數據的關系。記住總體數據的基本結構都必須具備八要素:時間、空間、總體、指標名稱、指標數值、計算方法、計量單位、資料來源。
統計指標八要素中,時間和空間這兩個要素是最基本的,獲得數據的時間必須挑明,調查范圍必須講清,這說明統計的數據都是實在的,不是虛空的假設。同時,說明的對象是誰,即總體要明確。指標名稱這個要素,它所代表概念的含義必須界定清楚,定義不同,取得的結果就不一樣。根據指標的概念,指標數值可按相應計算方法得到,這些指標數值是具體的,當然都有相應的計量單位來表示。也有這樣的情況,同是權威機構發布的同樣的指標,結果卻不一樣,這時,與其盲目起哄,還不如關注一下它們對指標的定義是否相同,調查方法是否一樣。資料來源必須寫明,數據的來源是否權威,可不可信,讀者都很在乎。
如果一個統計指標中的八要素缺少了一個,就可以一票否決,對它不予理睬。還有一點要注意的就是,一個統計指標只能說明總體的一個方面,要全面認識總體,就要用多個相聯系的指標來說明。
3. 統計指標體系
統計指標體系是指由若干相互聯系的統計指標構成的有機整體。設計統計指標體系時,要遵循以下原則。
1) 總則
依據哲學、經濟學等學科知識,深入分析現象之間的內在聯系,結合統計調研目的,將其中的重要特征量化為指標,再從整體上搭建完整的統計指標體系,以全面反映現象的數量特征及其相互關系。
2) 細則
其一,整體性。即統計指標體系的設計,是從整體出發,把調查總體與相關總體視為一個大的系統,通過若干指標全方位反映總體的各層次結構。在指標體系中,要有中心指標,注意各指標之間的內在聯系與主次關系,要盡力避免簡單、孤立地羅列指標。
其二,可比性。統計指標體系的設計內容,并不是固定不變的。這是因為統計指標體系的設計,一方面受人們認識的限制,需要不斷修改和完善;另一方面,受現象本身變化特點的制約,需要不斷調整和改進。當然,在調整中,要注意保持統計指標體系中前后資料的銜接與可比。不管什么地區、國家、時期、群體,選擇的指標性質要相同,并且指標口徑要統一,以便和國內外相同指標進行橫向或縱向對比。
其三,協調性。統計指標體系中所需要的資料,有不少是來源于會計核算和業務技術核算等。例如:有關固定資金和流動資金等資料,大部分來源于會計核算;有關設備和技術經濟、教育、科技、文化、藝術等資料,大部分來源于業務核算。因此,在設計統計指標體系時,要注意本部門內部與相關部門之間的協調關系。
其四,可操作性。要求大多數指標可從統計部門直接或間接獲取。依據社會的發展可以推出一些新指標,但計算盡可能簡單易行。
值得一提的是,變量這個概念來自數學領域。變量為統計所用之后,用得很亂。變量是指什么?目前流行三派意見:一派認為變量是指個體數據;一派認為變量是指總體數據;一派認為變量既指個體數據,又指總體數據。每一派都攤出一堆理由。我們覺得,統計已有了自己的術語,外面來的,歡迎。對于變量,不妨采取包容之心,讓它代表個體數據和總體數據。在運用變量時,只要對個體和總體、個體數據和總體數據的關系進行留意就好了。
與統計術語過招,還行吧。行不行,練一下就知道了。
【例1-2】選擇題。
(1) 構成統計總體的每一個事物稱為( )。
A. 標志 B. 標志值 C. 調查單位 D. 總體單位(個體)
(2) 以某單位全體職工為總體,每個職工為總體單位,則下列選項中屬于統計指標的是( )。
A. 職工總人數 B. 職工性別 C. 職工工齡
D. 職工平均工資 E. 男女職工人數比例
(資料來源:全國統計師考試真題)
答案:
(1) D。知識點:總體與個體的關系。
說明:總體是由個體構成的,總體數據是由個體數據匯總而成的。標志說明個體的特征,標志值是指數量標志的取值。
(2) ADE。知識點:標志和統計指標的關系。
說明:標志和統計指標的區別有兩點。一是說明的對象不同,標志說明個體,統計指標說明總體;二是表現的形式不同,標志可用文字和數值表示,統計指標一般只用數值表示。兩者的聯系在于,總體數據來源于個體數據。
本題中,A、D、E選項,分別表示職工總人數、職工平均工資、男女職工人數比例,這3項都是說明總體的,都是統計指標,從統計指標的表現形式來看,這3項分別是總量指標、平均指標、相對指標。而B、C兩項都是說明個體的,職工性別屬于品質標志,職工工齡屬于數量標志。