《大數(shù)據(jù)概論》主要介紹大數(shù)據(jù)概論,內(nèi)容包括大數(shù)據(jù)概述、科學(xué)研究第四范式、
分布系統(tǒng)設(shè)計(jì)的CAP 理論、NoSQL 數(shù)據(jù)庫(kù)、復(fù)雜網(wǎng)絡(luò)、MapReduce 分布編
程模型、大數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)分析、大數(shù)據(jù)挖掘、大數(shù)據(jù)可視化、大數(shù)據(jù)安
全、大數(shù)據(jù)機(jī)器學(xué)習(xí)、大數(shù)據(jù)推薦技術(shù),以及數(shù)據(jù)科學(xué)與數(shù)據(jù)思維!洞髷(shù)據(jù)概論》對(duì)
上述內(nèi)容概念性地介紹,語(yǔ)言精練、內(nèi)容全面。
目錄
前言
第 1章大數(shù)據(jù)概述 1
1.1 問(wèn)題的提出 2
1.1.1 電子數(shù)據(jù)迅速增加 2
1.1.2 數(shù)據(jù)孕育巨大的經(jīng)濟(jì)價(jià)值 3
1.1.3 數(shù)據(jù)是國(guó)家的核心資產(chǎn) 4
1.2 大數(shù)據(jù)的產(chǎn)生源泉 4
1.2.1 互聯(lián)網(wǎng)世界 5
1.2.2 物理世界 6
1.3 大數(shù)據(jù)的概念 7
1.3.1 數(shù)據(jù)容量巨大 7
1.3.2 數(shù)據(jù)類(lèi)型多 8
1.3.3 價(jià)值密度低 8
1.3.4 數(shù)據(jù)傳播迅速 9 目錄
前言
第 1章大數(shù)據(jù)概述 1
1.1 問(wèn)題的提出 2
1.1.1 電子數(shù)據(jù)迅速增加 2
1.1.2 數(shù)據(jù)孕育巨大的經(jīng)濟(jì)價(jià)值 3
1.1.3 數(shù)據(jù)是國(guó)家的核心資產(chǎn) 4
1.2 大數(shù)據(jù)的產(chǎn)生源泉 4
1.2.1 互聯(lián)網(wǎng)世界 5
1.2.2 物理世界 6
1.3 大數(shù)據(jù)的概念 7
1.3.1 數(shù)據(jù)容量巨大 7
1.3.2 數(shù)據(jù)類(lèi)型多 8
1.3.3 價(jià)值密度低 8
1.3.4 數(shù)據(jù)傳播迅速 9
1.3.5 真實(shí)性 9
1.4 大數(shù)據(jù)的特性 9
1.4.1 價(jià)值 9
1.4.2 非結(jié)構(gòu)性 9
1.4.3 不完備性 10
1.4.4 時(shí)效性 10
1.4.5 安全性 10
1.4.6 可靠性 10
1.5 大數(shù)據(jù)技術(shù)概述 10
1.5.1 大數(shù)據(jù)技術(shù)的主要內(nèi)容 11
1.5.2 大數(shù)據(jù)的處理過(guò)程 12
1.5.3 大數(shù)據(jù)技術(shù)的特征 13
1.5.4 大數(shù)據(jù)的關(guān)鍵問(wèn)題與關(guān)鍵技術(shù) 14
1.6 大數(shù)據(jù)應(yīng)用趨勢(shì) 16
1.6.1 大數(shù)據(jù)細(xì)分市場(chǎng) 17
1.6.2 大數(shù)據(jù)推動(dòng)企業(yè)發(fā)展 17
1.6.3 大數(shù)據(jù)分析的新方法出現(xiàn) 17
1.6.4 大數(shù)據(jù)與云計(jì)算高度融合 17
1.6.5 大數(shù)據(jù)一體設(shè)備陸續(xù)出現(xiàn) 17
1.6.6 大數(shù)據(jù)安全日益重視 18
1.7 大數(shù)據(jù)應(yīng)用 18
1.7.1 判斷大數(shù)據(jù)應(yīng)用成功的指標(biāo) 18
1.7.2 大數(shù)據(jù)技術(shù)的應(yīng)用 19
1.8 大數(shù)據(jù)的展望 22
1.8.1 資源與投入 23
1.8.2 工程技術(shù) 23
1.8.3 復(fù)雜網(wǎng)絡(luò)分析 23
1.8.4 涉及眾多領(lǐng)域
第 1章大數(shù)據(jù)概述本章主要內(nèi)容
大數(shù)據(jù)概述問(wèn)題的提出電子數(shù)據(jù)迅速增加數(shù)據(jù)孕育巨大的經(jīng)濟(jì)價(jià)值數(shù)據(jù)是國(guó)家的核心資產(chǎn)
大數(shù)據(jù)的產(chǎn)生源泉互聯(lián)網(wǎng)世界物理世界大數(shù)據(jù)的概念
數(shù)據(jù)容量巨大數(shù)據(jù)類(lèi)型多價(jià)值密度低數(shù)據(jù)傳播速度
大數(shù)據(jù)的性質(zhì)
價(jià)值非結(jié)構(gòu)性不完備性時(shí)效性安全性可靠性
大數(shù)據(jù)技術(shù)概述
大數(shù)據(jù)技術(shù)的主要內(nèi)容大數(shù)據(jù)的處理過(guò)程大數(shù)據(jù)技術(shù)的特征大數(shù)據(jù)關(guān)鍵問(wèn)題與關(guān)鍵技術(shù)大數(shù)據(jù)應(yīng)用趨勢(shì)大數(shù)據(jù)細(xì)分市場(chǎng)大數(shù)據(jù)推動(dòng)企業(yè)發(fā)展大數(shù)據(jù)分析的新方法出現(xiàn)大數(shù)據(jù)與云計(jì)算高度融合大數(shù)據(jù)一體設(shè)備陸續(xù)出現(xiàn)大數(shù)據(jù)安全日益重視
大數(shù)據(jù)應(yīng)用判斷大數(shù)據(jù)應(yīng)用成功的指標(biāo)大數(shù)據(jù)技術(shù)的應(yīng)用
大數(shù)據(jù)的展望
資源與投入工程技術(shù)復(fù)雜網(wǎng)絡(luò)分析涉及眾多領(lǐng)域構(gòu)建大數(shù)據(jù)生態(tài)環(huán)境
需求是科學(xué)技術(shù)發(fā)展的原動(dòng)力。目前,大數(shù)據(jù)問(wèn)題的出現(xiàn)與研究已經(jīng)成為了計(jì)算機(jī)科學(xué)與技術(shù)研究的新熱點(diǎn),并顯示出日益強(qiáng)大的吸引力,科學(xué)大數(shù)據(jù)的出現(xiàn)催生了數(shù)據(jù)密集型知識(shí)發(fā)現(xiàn)的科學(xué)研究第四范式的出現(xiàn)。對(duì)于信息領(lǐng)域,大數(shù)據(jù)帶來(lái)的不僅是機(jī)遇,還有一系列的困難和挑戰(zhàn)。目前,大數(shù)據(jù)技術(shù)與應(yīng)用展現(xiàn)出銳不可當(dāng)?shù)膹?qiáng)大生命力,科學(xué)界與企業(yè)界寄予無(wú)比的厚望。大數(shù)據(jù)成為繼 20世紀(jì)末、21世紀(jì)初互聯(lián)網(wǎng)蓬勃發(fā)展以來(lái)的又一輪 IT工業(yè)革命。
1.1 問(wèn)題的提出
在全世界范圍內(nèi),以電子方式存儲(chǔ)的數(shù)據(jù)(又簡(jiǎn)稱(chēng)為電子數(shù)據(jù))總量空前巨大。在 2011年電子數(shù)據(jù)總量已達(dá)到 1.8ZB(1ZB=1024PB),較 2010年同期提高超過(guò) 1ZB,統(tǒng)計(jì)結(jié)果表明,每經(jīng)過(guò) 2年就可以增加 1倍,預(yù)計(jì)到 2020年可達(dá)到 35ZB,如圖 1-1所示。面對(duì)數(shù)據(jù)增長(zhǎng)的速度迅猛提升,數(shù)據(jù)量的飛速增加,對(duì)大量電子數(shù)據(jù)的高效存儲(chǔ)、高效傳輸與快速的處理是必須面對(duì)的研究問(wèn)題。
圖 1-1 全球數(shù)據(jù)創(chuàng)建及復(fù)制的數(shù)據(jù)總量預(yù)測(cè)
1.1.1 電子數(shù)據(jù)迅速增加
物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、車(chē)聯(lián)網(wǎng)、手機(jī)、平板電腦、個(gè)人計(jì)算機(jī)( PC)、氣候信息、公開(kāi)的信息,如雜志、報(bào)紙和文章、交易記錄、網(wǎng)絡(luò)日志、病歷、軍事監(jiān)控、視頻和圖像、檔案及大型電子商務(wù),以及遍布地球各個(gè)角落的各種各樣的傳感器是數(shù)據(jù)來(lái)源或者承載的方式不斷更新與發(fā)展、大型科學(xué)研究設(shè)備產(chǎn)生的數(shù)據(jù),以及社交媒體的快速發(fā)展,構(gòu)成了大數(shù)據(jù)持續(xù)產(chǎn)生的生態(tài)環(huán)境。尤其是近年來(lái),隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,來(lái)自人們的日常生活,特別是來(lái)自互聯(lián)網(wǎng)服務(wù)而產(chǎn)生的大量數(shù)據(jù)迅猛增加。據(jù)不完全統(tǒng)計(jì),互聯(lián)網(wǎng)當(dāng)前包含 93億多個(gè)頁(yè)面,80%~85%的數(shù)據(jù)是存儲(chǔ)在數(shù)據(jù)庫(kù)的文本中;ヂ(lián)網(wǎng)一天產(chǎn)生的全部?jī)?nèi)容可以刻滿(mǎn) 1.68億張 DVD,發(fā)出的郵件有 2940億封之多,發(fā)出的社區(qū)帖子達(dá) 200萬(wàn)個(gè)(相當(dāng)于《時(shí)代》雜志 770年的文字量),賣(mài)出的手機(jī)為 37.8萬(wàn)臺(tái),高于全球每天出生的嬰兒數(shù)量 37.1萬(wàn)……從數(shù)據(jù)統(tǒng)計(jì)角度來(lái)看,電子數(shù)據(jù)量迅速增加。預(yù)計(jì)中國(guó)數(shù)據(jù)技術(shù)和服務(wù)市場(chǎng)未來(lái) 5年的復(fù)合增長(zhǎng)率將達(dá) 51.4%,其中增長(zhǎng)率最高的是存儲(chǔ)市場(chǎng),將達(dá) 60.8%,服務(wù)器市場(chǎng)的增長(zhǎng)率則是 38.3%,遠(yuǎn)遠(yuǎn)高于其他產(chǎn)品相關(guān)的市場(chǎng)。
1.1.2 數(shù)據(jù)孕育巨大的經(jīng)濟(jì)價(jià)值
數(shù)據(jù)本身是無(wú)意義的,而通過(guò)統(tǒng)計(jì)、分類(lèi)、萃取、特征抽取等一系列技術(shù)手段,可以從數(shù)據(jù)中產(chǎn)生信息與知識(shí)。數(shù)據(jù)是重要的戰(zhàn)略資源,隱含巨大的經(jīng)濟(jì)價(jià)值,因此已經(jīng)引起科學(xué)界和企業(yè)界的高度重視。有效地組織和使用數(shù)據(jù),將對(duì)經(jīng)濟(jì)發(fā)展產(chǎn)生巨大的推動(dòng)作用。大數(shù)據(jù)出現(xiàn)孕育著前所未有的機(jī)遇。對(duì)大數(shù)據(jù)的交換、整合和分析,可以發(fā)現(xiàn)新的知識(shí),創(chuàng)造新的價(jià)值。
越來(lái)越多的企業(yè)等機(jī)構(gòu)意識(shí)到數(shù)據(jù)正在成為最重要的資產(chǎn),數(shù)據(jù)分析能力正在成為核心競(jìng)爭(zhēng)力。經(jīng)過(guò)了由 PC成功轉(zhuǎn)向了軟件和服務(wù),而這次將遠(yuǎn)離服務(wù)與咨詢(xún),更多地專(zhuān)注于因數(shù)據(jù)分析而帶來(lái)的全新業(yè)務(wù)增長(zhǎng)點(diǎn)。數(shù)據(jù)將成為各行業(yè)中決定勝負(fù)的根本因素,最終數(shù)據(jù)將成為人類(lèi)至關(guān)重要的自然資源。各著名的大型公司已經(jīng)致力于開(kāi)發(fā)自己的大數(shù)據(jù)處理和存儲(chǔ)系統(tǒng),目前已經(jīng)到了數(shù)據(jù)化運(yùn)營(yíng)的黃金時(shí)期,如何整合這些數(shù)據(jù)成為未來(lái)的關(guān)鍵任務(wù)。
在互聯(lián)網(wǎng)、電信、金融等行業(yè),幾乎已經(jīng)到了數(shù)據(jù)就是業(yè)務(wù)本身的地步。物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等新的互聯(lián)網(wǎng)技術(shù)在為人們帶來(lái)便利的同時(shí),也產(chǎn)生了大量的數(shù)據(jù)。如何有效地存儲(chǔ)和查詢(xún)這些數(shù)據(jù),如何通過(guò)數(shù)據(jù)挖掘,從數(shù)據(jù)中獲得有用的信息,為用戶(hù)提供好的用戶(hù)體驗(yàn),增強(qiáng)企業(yè)的競(jìng)爭(zhēng)力,是一個(gè)挑戰(zhàn)。研究表明,數(shù)字領(lǐng)域存在著 1.8萬(wàn)億 GB的數(shù)據(jù),企業(yè)數(shù)據(jù)正在以 55%的速度逐年增長(zhǎng)。目前,兩天就能創(chuàng)造出自人類(lèi)文明誕生以來(lái)到 2003年所產(chǎn)生的數(shù)據(jù)總量。大數(shù)據(jù)已經(jīng)成為重要的時(shí)代特征,充分利用大數(shù)據(jù)可幫助全球個(gè)人定位服務(wù)提供商增加 1000億美元的收入,幫助歐洲公共部門(mén)的管理每年提升 2500億美元產(chǎn)值,幫助美國(guó)醫(yī)療保健行業(yè)每年提升 3000億美元產(chǎn)值,并可幫助美國(guó)零售業(yè)獲得 60%以上的凈利潤(rùn)增長(zhǎng)率。由此可見(jiàn),充分使用大數(shù)據(jù)和挖掘大數(shù)據(jù)商業(yè)價(jià)值將為行業(yè)企業(yè)帶來(lái)強(qiáng)大經(jīng)濟(jì)效益與競(jìng)爭(zhēng)力。
大數(shù)據(jù)既是對(duì)信息技術(shù)發(fā)展的高度抽象和概括,同時(shí)也體現(xiàn)了信息技術(shù)服務(wù)于數(shù)據(jù)蘊(yùn)藏的巨大價(jià)值。大數(shù)據(jù)給數(shù)據(jù)的采集、存儲(chǔ)、維護(hù)、共享帶來(lái)了具有研究意義的現(xiàn)象和挑戰(zhàn),但更多的意義是可以處理、分析并使用大量數(shù)據(jù),通過(guò)這些數(shù)據(jù)的處理、整合和分析,可以發(fā)現(xiàn)新知識(shí)、創(chuàng)造新價(jià)值,帶來(lái)大知識(shí)、大科學(xué)和大發(fā)展,逐漸走向創(chuàng)新社會(huì)化的新信息時(shí)代。
大數(shù)據(jù)全生命周期可以劃分為“數(shù)據(jù)產(chǎn)生—數(shù)據(jù)采集—數(shù)據(jù)傳輸—數(shù)據(jù)存儲(chǔ)—數(shù)據(jù)處理—數(shù)據(jù)分析—數(shù)據(jù)發(fā)布、展示和應(yīng)用—產(chǎn)生新數(shù)據(jù)”等階段。已經(jīng)形成了大數(shù)據(jù)的“生產(chǎn)與集聚層—組織與管理層—分析與發(fā)現(xiàn)層—應(yīng)用與服務(wù)層”的產(chǎn)業(yè)鏈,而 IT基礎(chǔ)設(shè)施為這各環(huán)節(jié)提供基礎(chǔ)支撐。
據(jù)統(tǒng)計(jì), 2012年市場(chǎng)規(guī)模達(dá)到 4.5億元, 2016年估計(jì)可達(dá)到百億規(guī)模,如圖 1-2所示。
圖 1-2 中國(guó)大數(shù)據(jù)應(yīng)用市場(chǎng)規(guī)模與增長(zhǎng)
1.1.3 數(shù)據(jù)是國(guó)家的核心資產(chǎn)
一個(gè)國(guó)家擁有數(shù)據(jù)的規(guī)模、活性及解釋運(yùn)用的能力將成為綜合國(guó)力的重要組成部分,對(duì)數(shù)據(jù)的占有和控制,甚至將成為陸權(quán)、海權(quán)、空權(quán)之外的另一種國(guó)家核心資產(chǎn)。聯(lián)合國(guó)也在 2012年發(fā)布了大數(shù)據(jù)政務(wù)白皮書(shū),指出大數(shù)據(jù)對(duì)于聯(lián)合國(guó)和各國(guó)政府是一個(gè)歷史性的機(jī)遇,通過(guò)使用極為豐富的數(shù)據(jù)資源,對(duì)社會(huì)經(jīng)濟(jì)進(jìn)行前所未有的實(shí)時(shí)分析,幫助政府更好地響應(yīng)社會(huì)和經(jīng)濟(jì)運(yùn)行。
數(shù)據(jù)為王的大數(shù)據(jù)時(shí)代已經(jīng)到來(lái),對(duì)數(shù)據(jù)的占有和控制也將成為國(guó)家間和企業(yè)間新的爭(zhēng)奪點(diǎn)。大數(shù)據(jù)技術(shù)的專(zhuān)業(yè)人才,特別是數(shù)據(jù)分析復(fù)合型人才的稀缺將會(huì)影響該市場(chǎng)的發(fā)展。
在技術(shù)層面上,大數(shù)據(jù)、海量數(shù)據(jù)與超大規(guī)模數(shù)據(jù)并無(wú)本質(zhì)的區(qū)別,它們都是指用傳統(tǒng)處理方法無(wú)法處理的大量數(shù)據(jù)。通過(guò)對(duì)大數(shù)據(jù)的高速有效處理,可以發(fā)現(xiàn)數(shù)據(jù)中蘊(yùn)藏的規(guī)律與規(guī)則,進(jìn)而為各種關(guān)鍵決策提供依據(jù)與指導(dǎo),正確的預(yù)測(cè)與決策將導(dǎo)致巨大財(cái)富的產(chǎn)生。技術(shù)與工具密不可分,目前常用的數(shù)據(jù)處理技術(shù)與工具是小數(shù)據(jù)處理技術(shù)與工具,一些海量數(shù)據(jù)處理方法與工具是一種過(guò)度性的方法與工具,大數(shù)據(jù)處理技術(shù)與工具的研究是一項(xiàng)有理論意義和實(shí)際價(jià)值的工作。簡(jiǎn)言之,大數(shù)據(jù)技術(shù)就是從各種各樣類(lèi)型的數(shù)據(jù)中,快速獲得智慧的技術(shù)。信息要能轉(zhuǎn)化成智慧,至少要滿(mǎn)足以下三個(gè)標(biāo)準(zhǔn)。
1.可破譯性
可破譯性是大數(shù)據(jù)時(shí)代特有的問(wèn)題,但非結(jié)構(gòu)化的數(shù)據(jù)不是一定都可破譯。例如,記錄了某客戶(hù)在網(wǎng)站上三次翻頁(yè)的時(shí)間間隔分別是 5s、4s、15s,卻忘記標(biāo)注這三個(gè)時(shí)間代表什么,也就是說(shuō),知道這些數(shù)據(jù)是信息,卻不可破譯,所以不可能成為知識(shí)。
2.關(guān)聯(lián)性
關(guān)聯(lián)性即是相關(guān)性。無(wú)關(guān)的信息可以被看成噪聲。
3.新穎性
新穎性是指無(wú)法僅僅根據(jù)擁有的數(shù)據(jù)和信息進(jìn)行判斷。例如,某電子商務(wù)公司通過(guò)一組數(shù)據(jù)/信息,分析出了客戶(hù)愿意為當(dāng)天送貨的產(chǎn)品多支付 10元錢(qián),然后又通過(guò)另一組完全獨(dú)立的數(shù)據(jù)/信息得到了同樣的內(nèi)容,這樣的情況下,后者就不具備新穎性。但是,很多時(shí)候,只有在處理了大量的數(shù)據(jù)和信息以后,才能判斷它們是否具有新穎性。
1.2 大數(shù)據(jù)的產(chǎn)生源泉
大數(shù)據(jù)是人類(lèi)活動(dòng)的產(chǎn)物,來(lái)自人們改造客觀世界的過(guò)程中,是生產(chǎn)與生活在網(wǎng)絡(luò)空間的投影。信息爆炸是對(duì)信息快速發(fā)展的一種逼真的描述,形容信息發(fā)展的速度如同爆炸一般席卷整個(gè)地球。在 20世紀(jì) 40~50年代,信息爆炸主要指的是科學(xué)文獻(xiàn)的快速增長(zhǎng);而經(jīng)過(guò) 50年的發(fā)展,到 20世紀(jì) 90年代,由于計(jì)算機(jī)和通信技術(shù)廣泛應(yīng)用,信息爆炸主要指的是所有社會(huì)信息快速增長(zhǎng),包括正式交流過(guò)程和非正式交流過(guò)程所產(chǎn)生的電子式的和非電子式的信息,而到 21世紀(jì)的今天,信息爆炸是由于數(shù)據(jù)洪流的產(chǎn)生和發(fā)展所造成的。在技術(shù)方面,新型的硬件與數(shù)據(jù)中心、分布式計(jì)算、云計(jì)算、大容量數(shù)據(jù)存儲(chǔ)與處理技術(shù)、社會(huì)化網(wǎng)絡(luò)、移動(dòng)終端設(shè)備、多樣化的數(shù)據(jù)采集方式使大數(shù)據(jù)的產(chǎn)生和記錄成為可能。在用戶(hù)方面,日益人性化的用戶(hù)界面、信息行為模式都容易作為數(shù)據(jù)而記錄,用戶(hù)既可成為數(shù)據(jù)的制造者,也可以成為數(shù)據(jù)的使用者。可以看出,隨著云計(jì)算、物聯(lián)網(wǎng)計(jì)算和移動(dòng)計(jì)算的發(fā)展,世界上所產(chǎn)生的新數(shù)據(jù),包括位置、狀態(tài)、思考、過(guò)程和行動(dòng)等產(chǎn)生的數(shù)據(jù)都能夠匯入數(shù)據(jù)洪流,導(dǎo)致數(shù)據(jù)洪流席卷互聯(lián)網(wǎng)。
歸納起來(lái),大數(shù)據(jù)主要來(lái)自物理世界與互聯(lián)網(wǎng)世界。
1.2.1 互聯(lián)網(wǎng)世界
大數(shù)據(jù)時(shí)代,需要更加全面的數(shù)據(jù)來(lái)提高預(yù)測(cè)的準(zhǔn)確度,因此需要更多廉價(jià)、便捷、自動(dòng)的數(shù)據(jù)生產(chǎn)工具。
大數(shù)據(jù)是計(jì)算機(jī)和互聯(lián)網(wǎng)結(jié)合的產(chǎn)物,計(jì)算機(jī)實(shí)現(xiàn)了數(shù)據(jù)的數(shù)字化,互聯(lián)網(wǎng)實(shí)現(xiàn)了數(shù)據(jù)的網(wǎng)絡(luò)化;兩者結(jié)合才賦予了大數(shù)據(jù)生命力。隨著互聯(lián)網(wǎng)如同空氣、水、電一樣無(wú)處不在地滲透到我們的工作和生活,加上移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、可穿戴聯(lián)網(wǎng)設(shè)備的普及,新的數(shù)據(jù)正在以指數(shù)級(jí)別的速度產(chǎn)生,目前世界上 90%的數(shù)據(jù)是在互聯(lián)網(wǎng)出現(xiàn)以后迅速產(chǎn)生的。
大數(shù)據(jù)來(lái)自人類(lèi)社會(huì),尤其互聯(lián)網(wǎng)的發(fā)展為數(shù)據(jù)的存儲(chǔ)、傳輸與應(yīng)用創(chuàng)造了基礎(chǔ)與環(huán)境。依據(jù)基于唯象假設(shè)的六度分割理論而建立的社交網(wǎng)絡(luò)服務(wù)( Social Network Service,SNS),以認(rèn)識(shí)朋友的朋友為基礎(chǔ),擴(kuò)展自己的人脈; Web 2.0網(wǎng)站建立的社交網(wǎng)絡(luò),用戶(hù)既是網(wǎng)站信息的使用者,也是網(wǎng)站信息的制作者。社交網(wǎng)站記錄人們之間的交互,搜索引擎記錄人們的搜索行為和搜索結(jié)果,電子商務(wù)網(wǎng)站記錄了人們購(gòu)買(mǎi)商品的喜好,微博網(wǎng)站記錄了人們所產(chǎn)生的即時(shí)想法和意見(jiàn),圖片視頻分享網(wǎng)站記錄了人們的視覺(jué)觀察,百科全書(shū)網(wǎng)站記錄了人們對(duì)抽象概念的認(rèn)識(shí),幻燈片分享網(wǎng)站記錄了人們的各種正式和非正式的演講發(fā)言,機(jī)構(gòu)知識(shí)庫(kù)和開(kāi)放獲取期刊記錄了學(xué)術(shù)研究成果等。歸納起來(lái),來(lái)自互聯(lián)網(wǎng)的數(shù)據(jù)可以劃分為下述六種類(lèi)型。
1.視頻
視頻圖像是大數(shù)據(jù)的主要來(lái)源之一,電影、電視節(jié)目可以產(chǎn)生大量的視頻圖像,各種室內(nèi)外的視頻攝像頭晝夜不停地產(chǎn)生巨量的視頻圖像。視頻圖像以每秒幾十幀的速度連續(xù)記錄運(yùn)動(dòng)著的物體,一個(gè)小時(shí)的標(biāo)準(zhǔn)清晰視頻經(jīng)過(guò)壓縮后,所需的存儲(chǔ)空間為 GB數(shù)量級(jí),對(duì)于高清晰度視頻所需的存儲(chǔ)空間就更大了。
2.圖片與照片
圖片與照片也是大數(shù)據(jù)的主要來(lái)源之一,截至 2011年 9月,用戶(hù)向臉譜( Facebook)上傳了 1400億張以上的照片,臉譜是美國(guó)最大的一個(gè)社交網(wǎng)站,類(lèi)似于中國(guó)的新浪微博。如果拍攝者為了保存拍攝時(shí)的原始文件,平均每張照片大小為 1MB,則這些照片的總數(shù)據(jù)量就是 140G×1MB=140PB,如果單臺(tái)服務(wù)器磁盤(pán)容量為 10TB,則存儲(chǔ)這些照片需要 14000臺(tái)服務(wù)器,而且這些上傳的照片僅僅是人們拍攝到的照片的很少一部分。此外,許多遙感系統(tǒng)一天 24小時(shí)不停地拍攝并產(chǎn)生大量照片。
3.音頻
DVD光盤(pán)采用了雙聲道 16位采樣,采樣頻率為 44.1kHz,可達(dá)到多媒體欣賞水平。如果某音樂(lè)劇的長(zhǎng)度為 5.5min,計(jì)算其占用的存儲(chǔ)容量為
存儲(chǔ)容量 =(采樣頻率 ×采樣位數(shù) ×聲道數(shù) ×?xí)r間) / 8
= (44.1×1000×16×2×5.5×60)/8
= 12.6MB
4.日志
網(wǎng)絡(luò)設(shè)備、系統(tǒng)及服務(wù)程序等,在運(yùn)行時(shí)都會(huì)產(chǎn)生 log的事件記錄,每一行日志都記載著日期、時(shí)間、使用者及動(dòng)作等相關(guān)操作的描述。Windows網(wǎng)絡(luò)操作系統(tǒng)設(shè)有各種各樣的日志文件,如應(yīng)用程序日志、安全日志、系統(tǒng)日志、 Scheduler服務(wù)日志、 FTP日志、WWW日志、DNS服務(wù)器日志等,并且根據(jù)系統(tǒng)開(kāi)啟的服務(wù)的