《數據新聞實戰》緊密圍繞數字媒體環境下新聞工作者在數據新聞制作中的實際需求,基于案例全面介紹了數據新聞制作的流程。《數據新聞實戰》理論和實踐結合,內容包括數據新聞的概念和制作流程,公開數據的獲取、申請和搜索方法,數據轉換和存儲方法,“臟數據”的成因及其表現形式,常見的數據清理和分析工具,基于OpenRefine環境清理“臟數據”的過程和方法,數據清理原則,數據合理性分析,缺失數據的預測和時間序列預測等。《數據新聞實戰》同時闡明了數據可視化的概念,詳細介紹了Tableau制作數據新聞的方法和技巧,最后介紹了其他常用的數據新聞制作工具。
《數據新聞實戰》通俗易懂、結構嚴謹、層次清晰、案例豐富,特別適合網絡編輯、新媒體記者、大中專院校相關專業師生閱讀,有一定工作經驗的數據新聞工作者也可以從《數據新聞實戰》中學習到大量高級實用的功能和技巧。
數據新聞只是新聞報道中的一種形式,彌補傳統新聞或敘事性新聞無法呈現的效果。數據新聞 采用可視化的方法將單調的數據用一種直觀、便于理解和更具說服力的方法呈獻給讀者。數據,特別是大量的數據比采訪幾十個對象獲取的抽樣信息做出的結論更客觀、更容易闡明觀點。
寫作目的
在大數據環境下,數據新聞作為一種新的報道形態受到了讀者的認可和追捧。新聞工作者需要全面提升自己的專業技能,其中之一就是具備數據分析和數據呈現的能力。但無論是國內還是國外,大多數新聞工作者缺乏數據方面的知識,因為傳統高校缺乏相應的課程,市場上也難以尋覓相應的圖書。
現有的數據新聞方面的書籍主要研究的是數據新聞理論、點評數據新聞作品,缺少數據新聞的實戰流程。本書正是為學習數據新聞制作的讀者準備的,通過閱讀本書可以快速獲取數據、清理數據、可視化數據,獨立完成數據新聞制作的全過程。
本書內容
第1 章 數據新聞概述。本章闡述數據新聞的概念、數據新聞制作人才的需求、數據新聞技術要求和制作流程,最后展示并點評了近期數據新聞獎的獲獎作品。
第2 章 獲取數據。本章講解獲取數據的方法和具體途徑,包括政府、國際組織與第三方機構數據的獲取,政府信息公開數據的申請,眾包搜集數據及搜索引擎的使用,最后講解數據的存儲和綜合案例。
第3 章 清理和分析數據。本章分析“臟數據”的成因及其表現形式,基于OpenRefine 環境清理“臟數據”,使用Excel 簡單分析數據,闡明數據清理原則和綜合案例。
第4 章 數據質量分析。本章講解評估數據合理性的外部合理性檢查和內部合理性檢查,以及游程檢驗、抽樣分析、缺失數據的預測和時間序列預測。
第5 章 數據分析及可視化工具應用。本章闡明了數據可視化的概念,介紹常見的數據可視化工具。以Tableau 為例詳細講解了數據可視化的具體方法,包括創建第一個可視化作品、連接數據、數據視圖、高級分析、儀表板、故事和發布,最后分析了三個優秀的Tableau 作品。
第6 章 其他數據新聞制作工具。本章講解其他常用的數據新聞制作工具,包括圖表繪制工具庫ECharts、標簽云、關系圖制作工具PeoplePlotr 和語義萬維網服務Open Calais,最后使用 HTML5 網站制作模板將所有作品整合。
本書內容全面翔實,操作細節清楚,案例典型,方便學習,素材豐富,有利于強化讀者操作能力,提高專業技能。
讀前準備
·Windows 操作系統,互聯網接入,IE 瀏覽器、Firefox 瀏覽器和Chrome 瀏覽器。
·文本編輯器,如Windows 中的記事本或者EditPlus。
·微軟Office 工具包中的Excel,版本不限。
·?安裝Java 環境,具體參見本書3.3.1 小節。
·如果是大中專學生,可以提前申請Tableau 免費一年使用權。
排版約定
·菜單項的名稱放在【】中,如單擊【分析】|【創建計算字段】選項。
·代碼使用Courier New 字體并增加陰影,例如:
series: [{ //設置系列列表
name: '銷量', //設置圖表系列的名稱
type: 'line', //設置圖表類型是折線圖
data: [5, 20, 36, 10, 10, 20] //設置系列數據
}]
?·使用“+”表示快捷鍵的組合,如按【Ctrl】+【C】快捷鍵。
?·沒有特殊說明時,單擊和雙擊分別表示鼠標左鍵單擊和雙擊。
感謝
首先,感謝購買本書的讀者。您的閱讀是我寫作動力的源泉。數據新聞發展較快,真心希望您在閱讀本書后提出寶貴的意見,我們可以共同分析探討問題,為后續圖書的撰寫提供素材和經驗。
其次,感謝我的愛人和父母。在寫作最困難的時候,是他們為我鼓勁加油,支持我完成書稿。父母年邁,但很開心地戴著老花鏡幫我校稿。
最后,感謝電子工業出版社的張慧敏編輯、楊嘉媛編輯和戴新編輯,她們的嚴謹細致和辛勤努力保證了本書的順利出版。
聯系作者
如果您對本書有想法和意見,或者想與作者探討某個問題,請發送電子郵件至yinghliu@163.com。
劉英華
2016 年8 月于北京
劉英華,1975年出生,女,博士,副教授。研究方向:數據挖掘、隱私保護、數字媒體。已出版專著《Java2程序設計》、《數字媒體傳播實務》和《基于數據發布的隱私保護模型研究》。
先后發表學術論文30余篇,參與國家自然科學基金面上資助項目“基于大規模復雜結構知識庫的知識發現機理、模型與算法研究”和“基于多關系的模糊認知圖挖掘模型、算法與評價機制研究”。
第1 章 數據新聞概述1
1.1 數據新聞的概念2
1.2 制作數據新聞8
1.2.1 人才需求9
1.2.2 技術需要10
1.2.3 制作流程11
1.3 數據新聞獎(DJA)獲獎作品12
第2 章 獲取數據22
2.1 政府、國際組織與第三方機構的公開數據23
2.2 政府信息公開數據的申請26
2.3 眾包搜集數據29
2.4 搜索引擎的使用30
2.4.1 搜索指令30
2.4.2 百度搜索工具33
2.4.3 百度高級搜索頁面34
2.5 數據存儲34
2.5.1 PDF 格式轉換為Excel 格式35
2.5.2 在線轉換工具Zamzar 37
2.5.3 瀏覽器插件38
2.5.4 結構化信息表格化40
2.5.5 批量下載文件42
2.6 綜合案例44
2.6.1 使用聯合國數據庫44
2.6.2 獲取北京市2014 年常住人口數量46
第3 章 清理和分析數據49
3.1 “臟數據”(Dirty Data)50
3.1.1 “臟數據”的成因50
3.1.2 “臟數據”的表現形式51
3.2 數據清理/分析工具52
3.3 清理“臟數據” 53
3.3.1 安裝OpenRefine 環境53
3.3.2 創建項目(導入數據)55
3.3.3 主界面56
3.3.4 歸類(Facet)57
3.3.5 文本過濾器(Text filter)63
3.3.6 編輯單元格(Edit cells)64
3.3.7 編輯列(Edit column)66
3.3.8 變換(Transpose)68
3.3.9 排序(Sort)70
3.3.10 視圖(View)71
3.3.11 導出(Export)71
3.3.12 函數72
3.3.13 正則表達式77
3.4 使用Excel 簡單分析數據81
3.4.1 常用函數81
3.4.2 篩選84
3.4.3 數據透視表(PivotTable)85
3.4.4 在透視表里做篩選86
3.5 數據清理原則87
3.6 綜合案例87
3.6.1 查找重復記錄87
3.6.2 使用OpenRefine 清理數據90
第4 章 數據質量分析102
4.1 數據合理性103
4.1.1 內部合理性104
4.1.2 外部合理性109
4.2 游程檢驗112
4.3 抽樣分析113
4.4 缺失數據的預測115
4.5 時間序列預測117
4.5.1 移動平均117
4.5.2 指數平滑119
4.5.3 回歸122
第5 章 數據分析及可視化工具應用124
5.1 數據可視化125
5.2 數據可視化工具125
5.3 Tableau 下載和安裝128
5.4 創建第一個可視化作品131
5.4.1 首次數據連接131
5.4.2 首次創建多種圖表132
5.4.3 首次創建儀表板135
5.4.4 首次輸出136
5.5 連接數據138
5.5.1 在圖表中查看數據138
5.5.2 簡單數據連接139
5.5.3 連接多個數據源141
5.5.4 連接一個數據源的多個表143
5.5.5 提取數據144
5.5.6 數據類型146
5.6 數據視圖146
5.6.1 工作表和工作簿147
5.6.2 數據視圖界面148
5.6.3 文本表、壓力圖和突出顯示表149
5.6.4 條形圖150
5.6.5 線圖157
5.6.6 地圖163
5.6.7 餅圖166
5.6.8 樹地圖169
5.6.9 填充氣泡圖170
5.6.10 甘特圖171
5.6.11 散點圖173
5.6.12 雙組合圖和面積圖175
5.6.13 盒須圖179
5.6.14 標靶圖180
5.7 高級分析182
5.7.1 函數182
5.7.2 聚合184
5.7.3 注釋184
5.7.4 計算186
5.7.5 簡單預測194
5.7.6 合計194
5.7.7 參數196
5.7.8 分層199
5.7.9 分組200
5.7.10 “頁面”功能區201
5.7.11 數據桶和直方圖203
5.7.12 背景圖像204
5.8 儀表板206
5.8.1 創建儀表板206
5.8.2 布局容器210
5.8.3 編輯儀表板211
5.8.4 儀表板和工作表212
5.8.5 操作213
5.9 故事219
5.10 作品發布221
5.10.1 工作簿和工作表221
5.10.2 發布222
5.10.3 打印223
5.11 Tableau 作品225
5.11.1 Is Your Country Good at Reducing CO2 Emissions 225
5.11.2 Cabs in NYC 227
5.11.3 Analysis of Twitter Hashtags Following the Paris Attacks 228
第6 章 其他數據新聞制作工具231
6.1 圖表繪制工具庫ECharts 232
6.1.1 獲取ECharts 232
6.1.2 繪制一個簡單的圖表232
6.1.3 編輯圖表234
6.1.4 圖表中的地圖237
6.2 標簽云241
6.2.1 標簽云制作工具Tagul 242
6.2.2 標簽云制作工具Tagxedo 245
6.3 關系圖制作工具PeoplePlotr 249
6.4 語義萬維網服務Open Calais 257
6.5 HTML5 網站制作模板261