數據作為一種基礎性與戰略性資源得到了廣泛認可,數據服務成為很多組織和機構日常運營中必不可少的重要環節。當下,數據質量在理論越來越受到關注,不僅是制約數據產業發展的關鍵問題,也是大數據應用研究中繞不開的重大問題。《大數據質量》匯集了國內外數據質量研究的經典理論、技術和方法,以及新的前沿發展趨勢;首先介紹了傳統數據質量研究的各種代表性成果,并在此基礎上,分析大數據時代下數據質量面臨的挑戰,并詳細介紹基于大數據的數據質量相關技術的實現;*后,通過一個實際案例,提出一套完整的大數據質量解決方案。
《大數據質量》為大數據技術與應用叢書之一,列入十三五國家重點圖書出版規劃項目。《大數據質量》共7章。第1章敘述數據質量的概況,列舉出數據質量的影響和產生因素、數據質量的定義及面臨的挑戰、以及數據質量與信息質量的關系。第2章介紹了與數據質量有關的各種國際標準和行業標準。第3章討論了數據分類和數據模型,并針對半結構化和非結構化數據,給出了一些數據模型和質量模型。第4章詳細闡述數據質量的相關技術,包括:數據集成、數據剖析、數據清潔和數據溯源,并給出它們在大數據環境下的實現技術和方案。第5章詳細論述了數據質量評估維度的選取,質量維度的測量和評估方法,同時,每一種常用的評估方法都給出具體的評估案例。第6章描述數據質量的管理方法和質量管理成熟度模型。第7章以位置大數據為例,詳細分析了位置大數據的來源、質量問題,評估模型和質量控制,給出確實可行的數據質量解決方法。
質量是關于符合性的一種度量,即符合國際/國家標準或者符合使用者需求的程度。ISO 9000系列質量體系是一個公認的國際標準,被全球110多個國家采用,既包括發達國家,也包括發展中國家。這一標準的執行使得市場競爭更加激烈,產品和服務質量得到日益提高。
國際標準化組織制訂的國際標準《質量管理體系基礎和術語》(ISO 9000: 2008)中指出:
產品質量是指產品的一組固有特性滿足要求的程度。與通常的有形產品不同,數據常常被認為是無形的,數據質量的評價要困難很多。1980年以來,學術界、工業界和國際組織針對數據質量的測量、評估和管理提出了許多理論、技術和方法,卻缺乏一個廣泛認可的標準。ISO正在開發的數據質量國際標準(ISO
8000),目前也只有20多個國家接受它。
除了數據是無形的之外,建立數據質量標準的又一難點在于數據具備資源性、產品性和服務性。數據的資源性是指數據類似于礦藏和原礦,強調的是可開采性和可利用性;數據的產品性是指數據經過加工后可以形成數據產品,進入市場流通;數據的服務性是指數據能夠以提供服務的方式進入市場,使用者不需要購買和擁有數據,只是使用了數據服務。因此,從這三個大類的性質來看,數據質量的評價體系就存在很大差異,而且每個類別都會面臨不同的需求符合性。
數據作為一種基礎性資源和一種戰略性資源,已經獲得廣泛認可,數據服務業已廣泛開展,各地數據交易所紛紛成立;這時,數據質量就逐漸成為制約數據產業發展的關鍵問題。此外,由于大數據自身特性,直接采用傳統的、面向結構化數據的質量理論和方法來處理質量問題并不合適,數據質量的研究在新環境下面臨著更大的挑戰。
數據作為一種特殊資源,其質量應當符合真實性、合法性和可用性的基本要求。本書主要從數據的資源性來闡述數據質量,在傳統數據質量研究的基礎上,結合大數據的特性,闡述基于大數據的數據質量相關技術的實現,并通過一個實際案例,提出一套完整的大數據質量解決方案。
本書共7章。第1章敘述數據質量的概況,列舉出數據質量的影響和產生因素、數據質量的定義及面臨的挑戰,以及數據質量與信息質量的關系。第2章介紹了與數據質量有關的各種國際標準和行業標準。第3章討論了數據分類和數據模型,并針對半結構化和非結構化數據,給出了一些數據模型和質量模型。第4章詳細闡述數據質量的相關技術,包括:
數據集成、數據剖析、數據清潔和數據溯源,并給出它們在大數據環境下的實現技術和方案。第5章詳細論述了數據質量評估維度的選取,質量維度的測量和評估方法,同時每一種常用的評估方法都給出具體的評估案例。第6章描述數據質量的管理方法和質量管理成熟度模型。第7章以位置大數據為例,詳細分析了位置大數據的來源、質量問題,評估模型和質量控制,給出確實可行的數據質量解決方法。
本書可作為高等院校相關專業高年級學生和研究生的數據質量課程教材,以及從事數據質量研究和應用的科技工作者的技術參考。
特別感謝國內外數據質量專著、教材和許多高水平論文報告的作者們,他們是黃偉、刁興春、曹建軍、黎建輝、樊文飛、Richard Y.
Wang、Yang W. Lee、Elizabeth M. Pierce、Danette McGilvray、John
Talburt、Carlo Batini、Monica
Scannapieca等教授。在本書中引用了他們的部分成果,使本書較全面地反映數據質量各個研究領域的最新進展。感謝李英姿、李永軒和周怡帆三位碩士研究生提供的支持。
本書由朱揚勇教授和蔡莉副教授共同策劃并擬定框架內容,并由蔡莉副教授執筆,朱揚勇教授審閱修訂。限于作者學術水平,錯誤之處難免,懇請讀者不吝指教。任何意見和建議,請發至電子郵件: caili@ynu.edu.cn。對此,我們將深為感激。
蔡莉,副教授,云南大學軟件學院網絡工程系副系主任,中國計算機學會西南網路與MIS專委會委員,昆明市儀器儀表學會理事。在軟件學院工作期間,參與和主持省級和市級等教學和科研項目20余項,總計金額為200余萬元。同時,在國際會議和國內核心期刊上發表30余篇論文,多篇被EI和ISTP檢索。出版教材2部,擁有3個軟件著作權。2004年獲得IBM優秀教師獎,2008年獲得IBM獎教金,2014年獲得IBM產學合作專業綜合改革項目支持。
朱揚勇,復旦大學教授、博士生導師,數據科學研究中心主任、上海市政府信息化專家委員會專家。致力于數據科學與技術、數據挖掘及其應用等領域。主持過國家自然科學基金、國家863項目、上海市科委重點等多項數據挖掘領域的研究課題。
第1章 理解數據質量
·1.1 數據質量問題
1.1.1 數據質量帶來的影響
1.1.2 影響數據質量的因素
·1.2 數據質量概述
1.2.1 數據質量定義
1.2.2 大數據時代數據質量面臨的挑戰
·1.3 數據質量與信息質量
1.3.1 從數據質量到信息質量的發展歷程
1.3.2 數據質量與信息質量的區別與聯系
參考文獻
第2章 數據質量標準
·2.1 ISO8000國際標準
2.1.1 ISO8000的歷史與現狀
2.1.2 ISO/TS8000100系列概述
2.1.3 ISO/TS8000100主數據質量
2.1.4 ISO 22745:2010概述
·2.2 地理信息質量標準ISO19100
2.2.1 地理信息數據質量
2.2.2 地理信息數據質量評價
·2.3 統計數據質量標準
2.3.1 國際統計數據標準概述
2.3.2 IMF、的數據公布通用標準(GDDS)
2.3.3 IMF的數據公布特殊標準(SDDS)
·2.4 科學數據質量標準
2.4.1 科學數據標準規范
2.4.2 科學數據質量框架
參考文獻
第3章 數據分類及數據模型
·3.1 數據類型及分類
3.1.1 數據類型
3.1.2 數據分類
·3.2 結構化數據模型
3.2.1 概念模型
3.2.2 邏輯模型
·3.3 半結構化和非結構化數據模型
3.3.1 XML語言
3.3.2 半結構化數據模型數據和數據質量(D2Q)模型
3.3.3 非結構化數據模型四面體模型
參考文獻
第4章 數據質量相關技術
·4.1 數據集成
4.1.1 數據倉庫的基本概念
4.1.2 數據倉庫的體系架構
4.1.3 數據倉庫的元數據
·4.2 數據剖析
4.2.1 數據剖析的方法
4.2.2 數據剖析實例
·4.3 數據清潔
4.3.1 數據清潔概述
4.3.2 臟數據的來源
4.3.3 數據清潔的原理與框架
4.3.4 數據清潔工具
4.3.5 大數據環境下的數據清潔
·4.4 數據溯源
4.4.1 數據溯源的基本概念
4.4.2 數據溯源的分類
4.4.3 數據溯源模型
4.4.4 數據溯源的方法
4.4.5 數據溯源的應用
4.4.6 大數據溯源
參考文獻
第5章 數據質量評估
·5.1 數據質量維度
5.1.1 數據質量維度定義
5.1.2 常用的數據質量維度
5.1.3 其他的數據質量維度
5.1.4 質量維度度量
·5.2 數據質量評估框架
5.2.1 DQAF框架
5.2.2 AIMQ框架
5.2.3 DQA框架
·5.3 數據質量評估方法
5.3.1 定性評估
5.3.2 定量評估
5.3.3 綜合評估
·5.4 數據質量評估案例媒體信息可信度質量評估
5.4.1 背景概述
5.4.2 媒體信息可信度評價指標體系
5.4.3 媒體信息可信度的綜合評價模型
5.4.4 實驗過程及結果分析
參考文獻
第6章 數據質量管理
·6.1 質量管理
6.1.1 質量管理發展歷程
6.1.2 全面質量管理
·6.2 數據質量管理概述
6.2.I數據質量管理方法
6.2.2 數據質量知識庫管理
6.2.3 MTT全面數據質量管理
·6.3 數據質量管理團隊建設
6.3.1 任命首席數據官
6.3.2 建立數據質量管理團隊
·6.4 質量管理成熟度模型
6.4.1 信息質量管理成熟度模型
6.4.2 數據質量管理成熟度模型
參考文獻
第7章 位置大數據中的質量研究
·7.1 概述
7.1.1 位置大數據的來源
7.1.2 位置大數據的應用領域
·7.2 位置大數據面臨的質量問題
7.2.1 GPS軌跡數據的質量問題
7.2.2 簽到數據的質量問題
7.2.3 手機定位數據的質量問題
7.2.4 智能公交IC卡數據的質量問題
7.2.5 OSM地圖數據的質量問題
·7.3 位置大數據的質量評估模型
7.3.1 GPS軌跡數據的質量評估模型
7.3.2 簽到數據的質量評估模型
7.3.3 手機定位數據的質量評估模型
7.3.4 OSM地圖數據的質量評估模型
7.3.5 基于云平臺的位置大數據質量評估系統
·7.4 位置大數據質量控制
7.4.1 位置大數據清潔
7.4.2 位置大數據質量控制
7.4.3 OSM地圖數據質量保證
參考文獻