大數(shù)據系列叢書大數(shù)據導論周蘇王文編著清華大學出版社北京內容簡介這是一個大數(shù)據爆發(fā)的時代。面對信息的激流、多元化數(shù)據的涌現(xiàn),大數(shù)據已經為個人生活、企業(yè)經營,甚至國家與社會的發(fā)展都帶來了機遇和挑戰(zhàn),大數(shù)據已經成為IT信息產業(yè)中*具潛力的藍海。
“大數(shù)據導論”是一門理論性和實踐性都很強的課程。本教材針對信息管理、經濟管理和其他相關專業(yè)學生的發(fā)展需求,系統(tǒng)、全面地介紹了關于大數(shù)據技術與應用的基本知識和技能,詳細介紹了大數(shù)據與大數(shù)據時代、大數(shù)據的可視化、大數(shù)據的商業(yè)規(guī)則、大數(shù)據時代的思維變革、大數(shù)據促進醫(yī)療與健康、大數(shù)據激發(fā)創(chuàng)造力、大數(shù)據預測分析、大數(shù)據促進學習、大數(shù)據在云端、支撐大數(shù)據的技術、數(shù)據科學與數(shù)據科學家和大數(shù)據的未來等內容,具有較強的系統(tǒng)性、可讀性和實用性。
本書是為高等院校相關專業(yè)“大數(shù)據基礎”“大數(shù)據導論”等課程全新設計編寫,具有豐富實踐特色的主教材,也可供有一定實踐經驗的軟件開發(fā)人員、管理人員參考和作為繼續(xù)教育的教材。
“大數(shù)據系列叢書”由多本既獨立又有豐富內在聯(lián)系的大數(shù)據時代思維、技術與應用的教材組成。《大數(shù)據導論》是其中的一本,也是入門篇。
2012年以來,由于互聯(lián)網和信息行業(yè)的快速發(fā)展,大數(shù)據越來越引起人們的關注,已經引發(fā)自云計算、互聯(lián)網之后IT行業(yè)的又一大顛覆性技術革命。人們用大數(shù)據來描述和定義信息爆炸時代產生的海量數(shù)據,并命名與之相關的技術發(fā)展與創(chuàng)新。企業(yè)內部的經營信息、互聯(lián)網世界中的商品物流信息,互聯(lián)網世界中人與人的交互信息、位置信息等,數(shù)據量將遠遠*越現(xiàn)有企業(yè)的IT架構和基礎設施的承載能力,實時性要求也將大大*越現(xiàn)有的計算能力。盤活這些數(shù)據資產,使其為國家治理、企業(yè)決策乃至個人生活服務,是大數(shù)據的核心議題,也是云計算內在的靈魂和必然的升級方向。
本書系統(tǒng)、全面地介紹大數(shù)據的基本知識,包括大數(shù)據與大數(shù)據時代、大數(shù)據的可視化、大數(shù)據的商業(yè)規(guī)則、大數(shù)據時代的思維變革、大數(shù)據促進醫(yī)療與健康、大數(shù)據激發(fā)創(chuàng)造力、大數(shù)據預測分析、大數(shù)據促進學習、大數(shù)據在云端、支撐大數(shù)據的技術、數(shù)據科學與數(shù)據科學家以及大數(shù)據的未來等內容,具有較強的系統(tǒng)性、可讀性和實用性。
人類正在迅速進入大數(shù)據時代,大數(shù)據的理念、技術與應用是理論性和實踐性都很強的“必修”課程。本書為高等院校相關專業(yè),尤其是信息管理、經濟管理類專業(yè)開設“大數(shù)據”相關課程全新設計編寫,是具有豐富實踐特色的主教材。全書理論聯(lián)系實際,結合一系列了解和熟悉大數(shù)據理念、技術與應用的學習和實踐活動,把大數(shù)據的相關概念、基礎知識和技術技巧融入實踐中,使學生保持濃厚的學習熱情,提高學習興趣,加深對大數(shù)據技術的認識、理解和掌握。
大數(shù)據導論
數(shù)據與大數(shù)據時代1
1.1什么是大數(shù)據2
1.1.1天文學——信息爆炸的起源3
1.1.2大數(shù)據的定義6
1.1.3用3V描述大數(shù)據特征7
1.1.4廣義的大數(shù)據9
1.2大數(shù)據變革思維9
1.3大數(shù)據的結構類型10
1.4大數(shù)據的發(fā)展11
1.4.1硬件性價比提高與軟件技術進步11
1.4.2云計算的普及12
1.4.3大數(shù)據作為BI的進化形式12
1.4.4從交易數(shù)據分析到交互數(shù)據分析13第2章大數(shù)據的可視化19
2.1數(shù)據與可視化21
2.1.1數(shù)據的可變性22
2.1.2數(shù)據的不確定性23
2.1.3數(shù)據所依存的背景信息24
2.1.4打造最好的可視化效果25
2.2數(shù)據與圖形25
2.2.1數(shù)據與走勢26
2.2.2視覺信息的科學解釋28
2.2.3圖片和分享的力量29
2.3公共數(shù)據集30
2.4實時可視化31
2.5挑戰(zhàn)圖像的多變性32
2.6數(shù)據可視化的運用332.6.1可視化對認知的幫助34
2.6.27個數(shù)據類型35
2.6.37個基本任務36
2.6.4數(shù)據可視化的挑戰(zhàn)38第3章大數(shù)據的商業(yè)規(guī)則45
3.1大數(shù)據的跨界年度46
3.2谷歌的大數(shù)據行動47
3.3亞馬遜的大數(shù)據行動49
3.4將信息變成一種競爭優(yōu)勢50
3.4.1數(shù)據價格下降,數(shù)據需求上升51
3.4.2大數(shù)據應用程序的興起52
3.4.3實時響應,大數(shù)據用戶的新要求53
3.4.4企業(yè)構建大數(shù)據戰(zhàn)略53
3.5大數(shù)據營銷54
3.5.1像媒體公司一樣思考54
3.5.2營銷面對新的機遇與挑戰(zhàn)55
3.5.3自動化營銷56
3.5.4為營銷創(chuàng)建高容量和高價值的內容57
3.5.5內容營銷57
3.5.6內容創(chuàng)作與眾包58
3.5.7用投資回報率評價營銷效果59第4章大數(shù)據時代的思維變革65
4.1大數(shù)據時代的大挑戰(zhàn)67
4.2轉變之一: 樣本=總體68
4.2.1小數(shù)據時代的隨機采樣68
4.2.2大數(shù)據與喬布斯的癌癥治療71
4.2.3全數(shù)據模式: 樣本=總體72
4.3轉變之二: 接受數(shù)據的混雜性74
4.3.1允許不精確74
4.3.2大數(shù)據的簡單算法與小數(shù)據的復雜算法76
4.3.3紛繁的數(shù)據越多越好77
4.3.4混雜性是標準途徑78
4.3.5新的數(shù)據庫設計79
4.3.65%的數(shù)字數(shù)據與95%的非結構化數(shù)據81
4.4轉變之三: 數(shù)據的相關關系81
4.4.1關聯(lián)物,預測的關鍵81
4.4.2“是什么”,而不是“為什么”84
4.4.3通過因果關系了解世界84
4.4.4通過相關關系了解世界86第5章大數(shù)據促進醫(yī)療與健康93
5.1大數(shù)據與循證醫(yī)學95
5.2大數(shù)據帶來的醫(yī)療新突破96
5.2.1量化自我,關注個人健康97
5.2.2可穿戴的個人健康設備98
5.2.3大數(shù)據時代的醫(yī)療信息99
5.2.4CellMiner——對抗癌癥的新工具100
5.3醫(yī)療信息數(shù)字化102
5.4搜索: 超級大數(shù)據的最佳伙伴104
5.5數(shù)據決策的成功崛起105
5.5.1數(shù)據輔助診斷106
5.5.2你考慮過……了嗎106
5.5.3大數(shù)據分析使數(shù)據決策崛起107第6章大數(shù)據激發(fā)創(chuàng)造力112
6.1大數(shù)據幫助改善設計114
6.1.1少而精是設計的核心115
6.1.2與玩家共同設計游戲116
6.1.3以人為本的汽車設計理念116
6.1.4尋找最佳音響效果118
6.1.5建筑,數(shù)據取代直覺119
6.2大數(shù)據操作回路119
6.2.1信號與噪聲120
6.2.2大數(shù)據反饋回路120
6.2.3最小數(shù)據規(guī)模121
6.2.4大數(shù)據應用程序的優(yōu)勢與作用121
6.3大數(shù)據資產的崛起122
6.3.1大數(shù)據催生嶄新的應用程序122
6.3.2尋找大數(shù)據“空白”,提取最大價值122第7章大數(shù)據預測分析126
7.1什么是預測分析130
7.1.1預測分析的作用130
7.1.2行業(yè)應用舉例131
7.2數(shù)據情感和情感數(shù)據132
7.2.1從博客觀察集體情感132
7.2.2預測分析博客中的情緒133
7.2.3影響情緒的重要因素——金錢135
7.3數(shù)據具有內在預測性136
7.4情感的因果關系137
7.4.1焦慮指數(shù)與標普500指數(shù)137
7.4.2驗證情感和被驗證的情感138
7.4.3情緒指標影響金融市場139第8章大數(shù)據促進學習149
8.1打造網絡教育體系152
8.1.1典型的網絡教育形式152
8.1.2未來的教育: 線上線下結合153
8.1.3跟蹤教學效果154
8.1.4形成學習能力155
8.2機器學習及其研究155
8.2.1什么是人工智能156
8.2.2什么是機器學習157
8.2.3基本結構159
8.2.4研究領域160
8.3機器學習的分類160
8.3.1基于學習策略的分類160
8.3.2基于所獲取知識的表示形式分類161
8.3.3按應用領域分類162
8.3.4按學習形式分類162第9章大數(shù)據在云端171
9.1云端大數(shù)據173
9.1.1什么是云計算173
9.1.2云計算的服務形式174
9.1.3云計算與大數(shù)據175
9.1.4云基礎設施176
9.2計算虛擬化176
9.3大數(shù)據存儲177
9.3.1傳統(tǒng)存儲系統(tǒng)時代178
9.3.2大數(shù)據時代的新挑戰(zhàn)178
9.3.3分布式存儲180
9.3.4云存儲180
9.3.5大數(shù)據存儲的其他需求181
9.4網絡虛擬化182
9.4.1網卡虛擬化182
9.4.2虛擬交換機183
9.4.3接入層的虛擬化184
9.4.4覆蓋網絡虛擬化184
9.4.5軟件定義的網絡184
9.4.6對大數(shù)據處理的意義185
9.5數(shù)據即服務185
9.5.1數(shù)據應用185
9.5.2數(shù)據清理185
9.5.3數(shù)據保密186
9.6云的挑戰(zhàn)186第10章支撐大數(shù)據的技術193
10.1開源技術的商業(yè)支援195
10.2大數(shù)據的技術架構196
10.3什么是Hadoop197
10.3.1什么是分布式系統(tǒng)197
10.3.2Hadoop的由來199
10.3.3Hadoop的優(yōu)勢200
10.3.4Hadoop的發(fā)行版本200
10.4大數(shù)據的數(shù)據處理基礎202
10.4.1Hadoop與NoSQL203
10.4.2NoSQL與RDBMS的主要區(qū)別204
10.4.3NewSQL206
10.5相關的大數(shù)據技術207
10.5.1神經網絡207
10.5.2自然語言處理208
10.5.3語義檢索209
10.5.4鏈接挖掘210
10.5.5A/B測試210第11章數(shù)據科學與數(shù)據科學家217
11.1什么是數(shù)據科學218
11.2數(shù)據分析生命周期模型219
11.3數(shù)據科學家221
11.3.1大數(shù)據生態(tài)系統(tǒng)中的關鍵角色222
11.3.2數(shù)據科學家所需的技能223
11.3.3數(shù)據科學家所需的素質226
11.3.4數(shù)據科學家的學習內容227
11.4數(shù)據科學的重要技能229
11.4.1數(shù)據科學技能和熟練程度230
11.4.2重要數(shù)據科學技能230
11.4.3因職業(yè)角色而異的十大技能231
11.4.4職業(yè)角色的重要技能233第12章大數(shù)據的未來240
12.1消費者的隱私權242
12.2連接開放數(shù)據244
12.2.1LOD運動244
12.2.2對政府公開的影響245
12.2.3利用開放數(shù)據的創(chuàng)業(yè)型公司247
12.3數(shù)據市場的興起247
12.3.1Factual248
12.3.2Windows Azure Marketplace248
12.3.3Infochimps248
12.3.4Public Data Sets On AWS249
12.3.5不同的商業(yè)模式249
12.4將原創(chuàng)數(shù)據變?yōu)樵鲋禂?shù)據250
12.5大數(shù)據未來展望251
12.5.1大數(shù)據存儲和管理252
12.5.2傳統(tǒng)IT系統(tǒng)到大數(shù)據系統(tǒng)的過渡252
12.5.3大數(shù)據分析253
12.5.4大數(shù)據安全254
12.5.5數(shù)據科學254
參考文獻266