計算傳播領域尤其是新媒體數據挖掘方向一直缺乏系統的教材,《新媒體數據挖掘基于R語言》旨在為計算傳播和計算社會科學領域的讀者提供學習R編程語言和開發平臺的捷徑,希望能夠填補這方面的空白。讓學習層次變得更宏觀,讓學習過程變得更輕松,讓學習所獲變得更通用是《新媒體數據挖掘基于R語言》的編寫理念與特色!缎旅襟w數據挖掘基于R語言》首先剖析了社會科學研究范式的革新,介紹了R語言的作用和特點;然后系統講解了編程語言的通用學習方法和R語言的基本組成;*后展開實戰應用,包括網絡數據采集、文本挖掘和情感分析、社會網絡分析、社交編程平臺協作等非常有趣且有意義的內容。
《新媒體數據挖掘基于R語言》適合作為計算傳播和計算社會科學領域相關專業本科和研究生教材。高職高專學校也可以選用部分內容開展教學!缎旅襟w數據挖掘基于R語言》還適合作為計算傳播學和計算社會科學科研人員的自學書籍。
《新媒體數據挖掘基于R語言》課件可通過網站http://www.tupwk.com.cn/downpage免費下載。
《新媒體數據挖掘基于R語言》特色《新媒體數據挖掘基于R語言》在內容組織上強調探究科研與實踐的哲學背景,注重理論聯系實際,使讀者能充分理解和掌握使用R語言進行社會科學研究與實踐的方法與本質!缎旅襟w數據挖掘基于R語言》主要特色如下。1.哲學社會科學,有計算之道哲學社會科學,是尺量人類整體生存在宇宙時空中的意義的工具;如果自然科學的使命是研究和預測宇宙,那么哲學社會科學則研究和預測人類社會。社會科學的實證研究已經形成了計算范式與計量范式并駕齊驅的格局,計算范式必將引發社會科學領域的科學范式革命。2.計算機編程,有語言之學正所謂學而不思則罔,思而不學則殆,本書獨創性地以英語語法作為參照物,以將編程語言作為語言來學習作為知識主線/圖譜,授予讀者一種學習任何編程語言的*通用方法。3.數據挖掘分析,有實踐之路強者之路,可有坦途?《新媒體數據挖掘基于R語言》所有案例均基于互聯網知名在線平臺,讀者基于書中的代碼即可輕松進行重復性實驗。這不僅能極大地提升學習的興趣與自信,也給讀者進行數據挖掘與分析等科研工作提供了一條坦途之路。
隨著互聯網、大數據、人工智能等技術的發展,科學技術已經不再只是人類社會的生活背景,而是真正關系到人類整體的生存與發展。多學科相結合、以各學科的視角和專業背景促成人類的自由與科學的發展,是科研工作者在當今時代最重要的研究論題,這反映在人文社會科學領域,正是哲學社會科學。
如果說自然科學的使命是研究和預測宇宙,那么哲學社會科學則是研究和預測人類社會。如今計算范式已經開始引發社會科學領域的科學范式革命,社會科學的實證研究已經形成計算范式與計量范式并駕齊驅的格局。
在這樣的時代與科研背景下,近些年人人都要學編程人人都要會數據統計在人文社會科學領域顯得越來越重要。由于具有開源、強大的網絡擴展功能,廣泛的社區支持,強大的數據處理/統計分析和可視化功能,R語言和Python語言儼然已成為當前人文社會科學領域的師生們必須掌握的學習和科研工具。該如何選擇這些軟件工具?如何真正地高效學習編程語言?如何以最簡單但又最標準、最正確的姿態選擇和學習一門網絡編程語言?這些對人文社會科學領域的師生們來說并不是一件簡單的事情。
筆者由于跨學科的背景:十年從事計算機領域的教學與開發工作,轉型并進入深圳大學新聞與傳播學院(人文社會科學領域)任教,在梳理人文社科、自然哲學的脈絡關系中得到了讓世界在內心中逐漸合理起來的哲學愉悅;為滿足教學科研的需要,現將十年來對計算機編程語言教與學的方法和對人文社科、自然哲學的統一觀察一并寫成《新媒體數據挖掘基于R語言》,作為這些年來工作與學習的總結。
《新媒體數據挖掘基于R語言》的全部章節安排如下:
第1章首先從計算社會科學、計算傳播學在國內學術圈中的興起入題,介紹R語言的誕生、功能和在科研工作中的作用,對比幾種科研工具的優缺點,并強調R是一種自帶編程環境的統計軟件,Python是一種自帶統計功能的編程語言,以供讀者做出符合自己實際情況的正確選擇。
第2章以R為選擇對象,先引入R的核心軟件RGui,然后介紹R的綜合IDE開發環境RStudio的下載、安裝和基本使用。
第3章和第4章本著程序=數據 代碼的宏觀架構,本著將編程語言作為語言來學習的核心主線,選擇大家熟悉的英語語法為參照物,對R語言的語法進行平緩、細致、精確的講解,讓讀者能夠真正掌握一種學習任何編程語言的萬能通用方法:英語被稱為動詞的語言,名詞(相當于數據類型)和以動詞(相當于運算符)為核心的謂語構成簡單句(相當于表達式語句),為表達更復雜的邏輯,英語語法又擴充出了并列句、復合句等語法結構(相當于流程控制)。讀者會發現,幾乎所有計算機語言的圖書,其前幾章必然是數據類型運算符流程控制,這其實就是《新媒體數據挖掘基于R語言》提出的編程語言通用學習主線;主線之外其他語法項目無外乎錦上添花,例如函數是為了提高代碼復用率,軟件包是為了引入第三方擴充。
第5章至第8章分別講述如何用R的核心功能包和擴展功能包實現可視化繪圖、互聯網數據采集、文本挖掘與情感分析、社會網絡分析等功能,這些內容不僅非常有趣,而且非常有應用和科研意義。
第9章引入一個案例學習社交編程平臺GitHub,不僅加深對第6章中網絡數據采集的學習和應用,還可結合附錄中的R軟件包的制作、發布與引入方法,真正認識到GitHub作為社交編程平臺的重要性和意義:程序員世界的重建巴別塔。
在《新媒體數據挖掘基于R語言》的編寫分工上,深圳大學傳播學院網絡與新媒體系的王小峰老師負責全書的規劃、主編與統稿,并參與撰寫了第1、第3、第4、第6、第9章;福建師范大學福清分校電子與信息工程學院的方捷老師撰寫了第2、第5、第7、第8章和全部附錄內容。
由于時間倉促、作者水平有限,《新媒體數據挖掘基于R語言》難免存在遺漏與不足,編者敬請讀者批評與指正,我們將會在后續的工作中不斷地調整、改進。
深圳大學 王小峰
2017年10月30日夜
于深圳市福田區安托山
作者簡介王小峰,深圳大學傳播學院網絡新媒體系教師,計算機博士(武漢理工大學)、公共管理博士后(武漢大學),網頁設計師、Redhat工程師。長期致力于計算機編程語言的教學與實踐,精通C/C 、Java、PHP、JavaScript、Python、R、Go等十余種編程語言。研究方向主要有機器學習(自然語言處理)、數學文化傳播、區塊鏈應用系統開發等。編寫《高級語言程序設計(C語言版)》《深度學習(人工智能)》《PHP動態網頁設計與網站架設》等教材七部,發表國內外核心論文十余篇。近三年來主持中國博士后科學基金項目深圳市區級衛生信息平臺的集約化建設與第三方監管模式研究(編號:2016M602370)、深圳市教育科學十三五規劃重點項目基于全棧開源的創客課題體系的規劃與實施研究(編號:zdfz16003)、科技創新課題基于區塊鏈技術的電子文件保護研究基于聯盟區塊鏈網絡的電子病歷防篡改研究等項目和課題。