在“大數(shù)據(jù)”風(fēng)靡的當(dāng)代,學(xué)術(shù)研究中的“小數(shù)據(jù)”依舊不容小覷。隨著絕對數(shù)據(jù)量的增加,學(xué)者們進行個體研究的能力卻不斷退化。因為他們從未距離研究對象如此遙遠。新工具和新視角成為學(xué)術(shù)研究的必需品。但相對于“小數(shù)據(jù)”而言,“大數(shù)據(jù)”不一定是最好的選擇。因為研究者距離數(shù)據(jù)來源(即數(shù)據(jù)采集、處理、提煉和轉(zhuǎn)換方式及其對應(yīng)的研究假設(shè)和目的)越遠,就越難理解數(shù)據(jù)代表的實際意義。因此,學(xué)者們更傾向于使用少量數(shù)據(jù)進行更深入細致的研究。但當(dāng)數(shù)據(jù)尚未被發(fā)現(xiàn)甚至不可能被發(fā)現(xiàn)時,學(xué)者們將面臨“無數(shù)據(jù)”的窘境。
相對于一般商品而言,研究類數(shù)據(jù)(research data)的利用價值或多或少。數(shù)據(jù)管理計劃、數(shù)據(jù)發(fā)布需求以及由資助機構(gòu)、學(xué)術(shù)期刊和科研機構(gòu)提出的積極政策都很難適應(yīng)數(shù)據(jù)多樣性和跨領(lǐng)域的新實踐。除了按例定義之外,很少有政策嘗試給出數(shù)據(jù)的定義。那些反映學(xué)術(shù)界利益相關(guān)者競爭機制和動機的政策更是少之又少。數(shù)據(jù)的含義因人而異,因時不同;數(shù)據(jù)可以像資產(chǎn)一樣受控、積累、交易、組合投資、挖掘甚至可能被發(fā)布;同時,數(shù)據(jù)也可以像債務(wù)一樣被管理、保護或者毀約。數(shù)據(jù)的敏感性和保密性可能很高,因此數(shù)據(jù)發(fā)布往往伴隨著高風(fēng)險。數(shù)據(jù)價值可能立即顯現(xiàn),也可能很久之后才引人注意。有些數(shù)據(jù)值得長期監(jiān)護,但大部分數(shù)據(jù)都只具有短期價值。某些研究類數(shù)據(jù)的價值可能在幾個小時或幾個月之內(nèi),隨著技術(shù)和領(lǐng)域前沿工作的進步而不復(fù)存在。
要理解數(shù)據(jù)在學(xué)術(shù)研究中的價值,首先必須明確數(shù)據(jù)絕非一般事物,其不是具有本質(zhì)內(nèi)涵的自然對象。恰恰相反,出于研究或?qū)W術(shù)目的,學(xué)者們往往需要證明現(xiàn)象發(fā)生的論據(jù),即觀察結(jié)果、客觀對象以及其他實體,而數(shù)據(jù)正是這些論據(jù)的表現(xiàn)形式。而且這種具體表現(xiàn)形式會因?qū)W者、情景以及時間的不同而有所差異。學(xué)者們雖然在自然科學(xué)、社會科學(xué)以及人文學(xué)科領(lǐng)域內(nèi)創(chuàng)造、使用、分析和解釋數(shù)據(jù),但都尚未就數(shù)據(jù)定義達成共識。把某種事物概念化為數(shù)據(jù)的過程本身就是一種學(xué)術(shù)行為。學(xué)術(shù)活動包括尋求論據(jù)、解釋現(xiàn)象以及論證觀點等,這些活動以數(shù)據(jù)為媒介,最終往往表現(xiàn)為期刊論文、專著、會議論文以及學(xué)術(shù)界認可的其他形式。考慮數(shù)據(jù)重用的研究極為少見。
伽利略使用筆記本記錄觀察到的現(xiàn)象,19世紀的天文學(xué)家把圖像刻在玻璃板上,而今天的天文學(xué)家則使用數(shù)字設(shè)備捕獲光子。普通相機拍攝的夜空圖像之所以能與航空任務(wù)采集的圖像基本相似,是因為天文學(xué)家已經(jīng)在數(shù)據(jù)描述和映射的表示體系上達成一致。為集成幾個世紀以來的觀測數(shù)據(jù),天文學(xué)家已經(jīng)在標(biāo)準(zhǔn)、工具和檔案方面做了大量工作。即便如此,該領(lǐng)域的知識基礎(chǔ)設(shè)施還遠未建成,更不用說完全自動化了。就數(shù)據(jù)獲取的組織和協(xié)調(diào)而言,信息專業(yè)技術(shù)人員在天文學(xué)等領(lǐng)域發(fā)揮著重要作用。
出版物和數(shù)據(jù)之間的聯(lián)系體現(xiàn)在多個方面,這正是研究類數(shù)據(jù)在學(xué)術(shù)交流范圍內(nèi)得以充分利用的原因。數(shù)據(jù)創(chuàng)造可能需要長期的深思熟慮,這一漫長過程積累了許多隨時間可增值的資源。但數(shù)據(jù)創(chuàng)造也可能歷時很短,甚至具有偶發(fā)性。在后兩種情況下,研究者需要盡可能記錄現(xiàn)象發(fā)生時的所有儀器數(shù)據(jù)。在天文學(xué)、社會學(xué)和人種學(xué)等領(lǐng)域,不論研究計劃制定得有多好,數(shù)據(jù)采集都具有隨機性,因為每個階段的研究發(fā)現(xiàn)都會影響下一階段的數(shù)據(jù)選擇。因此,任何領(lǐng)域的學(xué)者都需要學(xué)會評估數(shù)據(jù)優(yōu)劣、判定數(shù)據(jù)信度和效度以及適應(yīng)實驗室研究、實地調(diào)查和檔案館的條件。出版物是特定領(lǐng)域中假設(shè)讀者具有專業(yè)知識的條件下,對研究成果進行報告的形式,其為讀者理解研究成果的論點、方法及結(jié)論提供了必要信息。但因為假定讀者熟悉該領(lǐng)域,所以其往往省略重復(fù)研究所需的細節(jié)。雖然人們對數(shù)據(jù)發(fā)布各執(zhí)己見,但數(shù)據(jù)的重復(fù)性與再現(xiàn)性只在特定領(lǐng)域具有相關(guān)性。而且即使是在這些領(lǐng)域,真正實現(xiàn)重復(fù)與再現(xiàn)也很困難。而判斷哪個學(xué)術(shù)研究成果更具有保存價值更是難上加難。
數(shù)據(jù)管理、發(fā)布和共享等相關(guān)政策模糊了數(shù)據(jù)在學(xué)術(shù)活動中的復(fù)雜作用,而且在很大程度上忽略了領(lǐng)域內(nèi)與領(lǐng)域間政策實踐中的差異性。“數(shù)據(jù)”的概念在自然科學(xué)、社會科學(xué)和人文學(xué)科之間甚至同一學(xué)科內(nèi)都存在很大差異。數(shù)據(jù)管理在很多領(lǐng)域內(nèi)可學(xué)不可教,這使得現(xiàn)有解決方案缺乏系統(tǒng)性。一般而言,研究人員重用自己的數(shù)據(jù)都有很大困難,更不用說使這些數(shù)據(jù)為具有不同需求的其他人所用。由于數(shù)據(jù)共享實施難度大、激勵機制有限,而且在知識基礎(chǔ)設(shè)施工程建設(shè)方面需要大量投資,所以其規(guī)范僅存在于部分領(lǐng)域。
本書面向包括研究類數(shù)據(jù)利益相關(guān)者在內(nèi)的廣大讀者,具體包括學(xué)者、研究人員、高校領(lǐng)導(dǎo)、出版商、圖書館和數(shù)據(jù)檔案館的工作人員以及投資決策者和政策制定者等。第一部分使用四章篇幅界定“數(shù)據(jù)”與“學(xué)術(shù)”的概念,詳細討論了數(shù)據(jù)、學(xué)術(shù)、知識基礎(chǔ)設(shè)施以及研究實踐的多樣性。第二部分包括三章,分別探究了自然科學(xué)、社會科學(xué)和人文學(xué)科領(lǐng)域的數(shù)據(jù)學(xué)術(shù)(data scholarship)。這三個案例分析結(jié)構(gòu)平行,便于進行跨領(lǐng)域?qū)Ρ取5谌糠趾w三個章節(jié),主要闡述數(shù)據(jù)策略和數(shù)據(jù)實踐相關(guān)內(nèi)容,并嘗試分析數(shù)據(jù)學(xué)術(shù)面臨眾多棘手問題的原因。這部分具體包括:數(shù)據(jù)共享、發(fā)布與重用。
Christine L. Borgman 加州大學(xué)洛杉磯分校信息研究系杰出教授和系主任。
叢書前言
譯者序
前言
致謝
作者簡介
推薦語
第一部分 數(shù)據(jù)與學(xué)術(shù)
第1章 挑戰(zhàn)2
1.1 引言2
1.2 大數(shù)據(jù)與小數(shù)據(jù)3
1.2.1 大4
1.2.2 開放性5
1.2.3 長尾6
1.3 無數(shù)據(jù)8
1.3.1 數(shù)據(jù)不可獲取8
1.3.2 數(shù)據(jù)不可發(fā)布9
1.3.3 數(shù)據(jù)不可用10
1.4 六項挑戰(zhàn)11
1.5 結(jié)論12
第2章 何為數(shù)據(jù)13
2.1 引言13
2.2 定義與術(shù)語14
2.2.1 按例定義15
2.2.2 操作定義16
2.2.3 分類定義17
2.2.4 概念區(qū)分21
2.3 結(jié)論23
第3章 數(shù)據(jù)學(xué)術(shù)25
3.1 引言25
3.2 知識基礎(chǔ)設(shè)施26
3.3 社會與技術(shù)28
3.3.1 社區(qū)與協(xié)作29
3.3.2 知識與表示30
3.3.3 理論、實踐與政策31
3.4 開放學(xué)術(shù)32
3.4.1 開放獲取研究成果32
3.4.2 開放獲取數(shù)據(jù)34
3.4.3 開放技術(shù)37
3.5 交流融合38
3.5.1 數(shù)據(jù)隱喻38
3.5.2 數(shù)據(jù)單元40
3.5.3 記錄文件42
3.6 結(jié)論43
第4章 數(shù)據(jù)多樣性44
4.1 引言44
4.2 學(xué)科與數(shù)據(jù)45
4.3 數(shù)據(jù)大小問題46
4.3.1 項目目標(biāo)47
4.3.2 數(shù)據(jù)采集48
4.3.3 數(shù)據(jù)分析49
4.4 數(shù)據(jù)產(chǎn)生問題50
4.4.1 距離問題51
4.4.2 外部影響因素57
4.5 結(jié)論64
第二部分 數(shù)據(jù)學(xué)術(shù)案例研究
第5章 自然科學(xué)領(lǐng)域的數(shù)據(jù)學(xué)術(shù)66
5.1 引言66
5.1.1 研究方法與數(shù)據(jù)實踐66
5.1.2 自然科學(xué)案例67
5.2 天文學(xué)68
5.2.1 數(shù)據(jù)大小問題69
5.2.2 數(shù)據(jù)產(chǎn)生問題72
5.2.3 天文學(xué)研究實踐82
5.3 傳感器網(wǎng)絡(luò)科學(xué)與技術(shù)85
5.3.1 數(shù)據(jù)大小問題86
5.3.2 數(shù)據(jù)產(chǎn)生問題87
5.3.3 嵌入式傳感器網(wǎng)絡(luò)研究實踐93
5.4 結(jié)論98
第6章 社會科學(xué)領(lǐng)域的數(shù)據(jù)學(xué)術(shù)100
6.1 引言100
6.1.1 研究方法與數(shù)據(jù)實踐101
6.1.2 社會科學(xué)案例102
6.2 互聯(lián)網(wǎng)調(diào)查與社交媒體研究102
6.2.1 數(shù)據(jù)大小問題103
6.2.2 數(shù)據(jù)產(chǎn)生問題104
6.2.3 互聯(lián)網(wǎng)調(diào)查與社交媒體研究實踐110
6.3 社會技術(shù)研究115
6.3.1 數(shù)據(jù)大小問題115
6.3.2 數(shù)據(jù)產(chǎn)生問題116
6.3.3 CENS的社會技術(shù)研究實踐120
6.4 結(jié)論126
第7章 人文學(xué)科領(lǐng)域的數(shù)據(jù)學(xué)術(shù)129
7.1 引言129
7.1.1 研究方法與數(shù)據(jù)實踐130
7.1.2 人文學(xué)科案例131
7.2 古典藝術(shù)與考古學(xué)132
7.2.1 數(shù)據(jù)大小問題133
7.2.2 數(shù)據(jù)產(chǎn)生問題133
7.2.3 古典藝術(shù)與考古學(xué)研究實踐144
7.3 佛教研究150
7.3.1 數(shù)據(jù)大小問題151
7.3.2 數(shù)據(jù)產(chǎn)生問題151
7.3.3 佛教研究實踐156
7.4 結(jié)論161
第三部分 數(shù)據(jù)政策與實踐
第8章 數(shù)據(jù)共享、發(fā)布與重用166
8.1 引言166
8.2 研究類數(shù)據(jù)的供求分析168
8.2.1 研究類數(shù)據(jù)的供給分析169
8.2.2 研究類數(shù)據(jù)的需求分析173
8.3 學(xué)術(shù)動機174
8.3.1 出版物與數(shù)據(jù)174
8.3.2 數(shù)據(jù)資產(chǎn)與數(shù)據(jù)債務(wù)177
8.3.3 數(shù)據(jù)發(fā)布178
8.3.4 獲取重用數(shù)據(jù)181
8.4 知識基礎(chǔ)設(shè)施183
8.4.1 知識庫、數(shù)據(jù)集與檔案館183
8.4.2 個體數(shù)據(jù)實踐185
8.4.3 人力基礎(chǔ)設(shè)施186
8.4.4 棘手問題187
8.5 各學(xué)科領(lǐng)域的知識基礎(chǔ)設(shè)施187
8.5.1 自然科學(xué)188
8.5.2 社會科學(xué)192
8.5.3 人文學(xué)科193
8.6 結(jié)論194
第9章 數(shù)據(jù)信譽、歸屬與發(fā)現(xiàn)197
9.1 引言197
9.2 原則與問題199
9.3 理論與實踐200
9.3.1 內(nèi)容與格式:如何引用201
9.3.2 引用行為理論:何時、為何引用何種對象203
9.3.3 明確與否:信譽授予對象與責(zé)任歸屬對象206
9.3.4 名稱或編號:身份問題211
9.3.5 當(dāng)理論遇到技術(shù):引用行為218
9.3.6 風(fēng)險與回報:引用價值219
9.4 結(jié)論221
第10章 保存何種數(shù)據(jù)及其原因223
10.1 引言223
10.2 挑戰(zhàn)回顧225
10.2.1 數(shù)據(jù)權(quán)利、責(zé)任、角色和風(fēng)險 225
10.2.2 數(shù)據(jù)共享227
10.2.3 出版物與數(shù)據(jù)229
10.2.4 數(shù)據(jù)獲取232
10.2.5 利益相關(guān)者及其技能233
10.2.6 過去、現(xiàn)在和未來的知識基礎(chǔ)設(shè)施235
10.3 結(jié)論237
術(shù)語表238
人名表251
機構(gòu)、書籍和項目名稱表258
參考文獻