如今,海量的數據無處不在,從數據中提取關鍵信息的能力顯得愈發重要。本書從嶄新的視角認識大數據,研究了鋼鐵行業中的典型大數據案例,為讀者提供進行數據網絡分析、數據中有效信息提取的詳細步驟和指導方法。特別是在網絡分析方法方面,對數據采集、研究方法設計及分析、數據結果呈現進行了介紹。同時,介紹了相關網絡分析軟件:UCINET、NetMiner、R、NodeXL及Gephi。本書適合分析師、研究工程師、工業工程師、市場營銷專家,以及對大數據分析感興趣的人員閱讀與參考。
在互聯網 時代,隨著產業轉型升級,工業大數據應用如火如荼,本書順應產業發展需要,從美國WILEY引進的一本關于工業大數據的圖書。本書從嶄新的視角來認識大數據,結合典型的產業大數據案例,為讀者構建數據網絡分析、數據中有效信息提取模型。同時,還對實際應用中大數據分析方法與工具進行了詳細的講解。因此,本書是關于工業大數據研究與應用方面不可多得的參考書。
譯
者 序
當接到翻譯的工作,看到詳細的代碼和圖示時,我不禁又回憶起讀博士期間一行行敲代碼的生活。畢業后我雖不直接從事數據編程工作,但也一直進行著大數據產業發展的相關研究。作為一本技術層面的實操性書籍,本書的確寫得非常詳細,從概念到軟件操作、從數據分析方法到實際案例剖析,一步步幫助讀者掌握大數據理解和分析。書中花了大量篇幅為讀者介紹主流大數據分析軟件的操作和應用,很適合作為一本入門級的大數據工具書籍。
作為長期研究中國大數據產業趨勢的分析師,我對于本書中提到的網絡分析法感觸頗深。目前很多企業在做大數據,大致都是從標準化的數據采集分析系統起步,大量的工作仍然集中在企業內部數據的整合上,而對于外部消費者數據和內部企業流程數據的連通融合,則是未來亟待解決的關鍵性問題。本書從全新的數據網絡關系視角入手,為我們清晰展現了從數據采集、數據清理、數據分析到數據可視化的全流程步驟。記得在最新一季的《黑鏡》中,有一集就是未來社交網絡數據的智能化,通過人群在社交網絡上的言論統計來操作機器人。這種科幻劇中的場景恰好與本書中分析Facebook、Twitter上的網絡關聯數據不謀而合。可以說,社交數據正在成為大數據分析中不可或缺的一環。
同時,在國內產能過剩的大環境下,有關鋼鐵、煤炭的大數據應用也是未來的焦點之一。如何通過大數據來提升產品質量、發掘更精準的市場需求成為鋼鐵煤炭企業的轉型重點。目前國內有關這方面的大數據書籍較少,本書從國際鋼鐵貿易的案例出發,為讀者和行業專家深入剖析了大數據在工業領域的應用效果,并結合了不同的主流分析軟件的詳細使用教程,必將是各行業研究人員的得力助手。
向陽
前
言
本書的理念最初是由未來鋼鐵技術論壇發起并支持的。在這個論壇上,一批未來鋼鐵技術的研究者們齊聚一堂,提出要在全球鋼鐵貿易區之間挖掘鋼鐵技術及產品植入的戰略意義。在鋼鐵及鋼鐵協會的贊助下,作者首次針對鋼鐵貿易數據進行分析,涵蓋了貿易國之間的網絡關系及跨境交易的鋼鐵產品信息。從最開始,該書作者就致力于通過鋼鐵貿易市場的一些案例向社會公眾、行業研究員及數據分析專業的學生提供大數據分析的方法論。
本書共分為8章。第1章主要定義了什么是大數據及在企業內部管理中如何運用它來激發更多的產能和更高的效率。第2章介紹了大數據分析相關的各種不同軟件,可以幫助識別目前市場上在售的分析軟件的優缺點。第3章主要圍繞社會網絡分析進行介紹,給出了數據間網絡關系結構中的節點和鏈接的定義。第4章總結了網絡分析的研究方法論,包括設定一項實驗、數據如何采集及如何過濾無效或干擾數據。第5章著重描述了中心性分析和凝聚子群分析,其中中心性分析包括中心度指標、中介中心性及親近中心性。第6章對全書進行了總結,提出了網絡的性能及節點對(或者數據對)之間的對等性,還重點概述了節點之間的連通性。第7章對NetMiner的數據結構進行了介紹。第8章對NetMiner 中提供的樣例數據進行網絡分析。
經過8章的詳細介紹,我們已經能夠充分理解正在進行的大數據分析。書中提到的各種不同的分析方法和程序都是目前使用率最高的。本書旨在為初次接觸大數據的學者或有部分基礎的學者,全面介紹大數據涉及的基礎知識,以及上述學者在將來從事大數據實驗時可能用到的分析方法。作者的眾多朋友也為本書的順利完成貢獻了不小的力量。
在此,我們要向Dong Joon Min(董炯民)教授表達真摯的感激,感謝他在鋼鐵數據分析中極具幫助性的獨到見解。同時,感謝Jae Wook Ryu(在旭柳)博士,感謝他一直以來提供的幫助;感謝Doo-Hee Lee(杜河力)教授的鼓勵及對學術的執著追求。
謹以本書獻給我們的家人,感激他們在本書的寫作過程中做出的犧牲和支持。
作 者
李賢榮博士在市場營銷及社會網絡分析領域已發表學術論文二十余篇。目前,她正致力于工業市場營銷戰略研究、貿易網絡結構及其背后支撐因素的分析研究。李賢榮博士目前在大學,擔任研究型教授,同時向本科生及研究生教授市場營銷、方法論和統計學課程。
向陽博士,工信部賽迪顧問資深分析師。畢業于北京郵電大學電子科學與技術專業,國家公派美國賓州大學聯合培養博士。自加入賽迪顧問以來,專注于人工智能、大數據、云計算等戰略新興產業發展研究,對中國大數據和人工智能市場有深入理解,對多個省市戰略新興產業發展、產業布局展開過深入研究。作為項目經理,為IT企業提供過業務戰略規劃、市場咨詢、推廣服務。承擔項目經驗:北京市促進云計算和大數據發展行動綱要,濟南市大數據發展行動計劃,江蘇省鹽城市大數據產業規劃,IBM OpenPOWER戰略白皮書,宿州云計算產業發展規劃、行動方案及招商策略,武漢城市圈產業升級與布局研究,深圳市智慧交通應用示范總體方案,某大型國企電子信息產業發展戰略規劃,等等。
劉讓龍,畢業于北京郵電大學,獲碩士學位,資深商業分析師。2015年加入樂視網信息技術(北京)股份有限公司,任職集團大數據部高級數據分析師,對視頻應用流量分析、渠道反作弊分析領域有較深入的研究;數據可視化專家,有豐富的可視化實踐經驗和經典案例。
多次主導完成公司重大項目數據開發的工作,并曾獲得樂視視頻2015年度移動逆襲項目優秀個人稱號。20132015年,他加入中國移動通信集團云南省公司,任職信息技術部門商業分析師,負責云南省經營分析系統及CRM系統對接和開發工作。他對用戶運營及營銷活動效果評估有較多經驗,曾參與編寫暢銷工具書《海外生存英語美國篇》。
目 錄
第1章 大數據從何而來
1.1 大數據
1.2 是什么產生了大數據
1.3 我們如何利用大數據
1.4 大數據相關的幾個重要問題
參考文獻
第2章 網絡關系數據分析的基礎工具
2.1 UCINET
2.2 NetMiner
2.3 R
2.4 Gephi
2.5 NodeXL
參考文獻
第3章 了解網絡分析
3.1 定義社會網絡分析
3.2 SNA的基本概念
3.3 社交網絡數據
參考文獻
第4章 采用SNA的研究方法
4.1 SNA實驗程序
4.2 識別實驗問題和建立假設
4.3 研究設計
4.4 網絡數據的獲得
4.5 數據清理
參考文獻
第5章 位置和結構
5.1 位置
5.2 凝聚子群體
參考文獻
第6章 連通性和角色
6.1 連接分析
6.2 角色
參考文獻
第7章 NetMiner的數據結構
7.1 數據示例
7.2 主要概念
7.3 數據處理
參考文獻
第8章 使用NetMiner的網絡分析
8.1 中心地位和凝聚力子群
8.2 連通性和等同性
8.3 可視化和探索性分析
附錄A 可視化
A.1 彈性算法
A.2 多維比例算法
A.3 聚類算法
A.4 分層算法
A.5 圓弧算法
A.6 簡單算法
參考文獻
附錄B 案例研究:鋼鐵研究的知識結構
參考文獻