本書以作者在美國西北大學開設的Web分析學課程為基礎,介紹了可用性測試、網站性能、使用分析、社交媒介平臺、搜索引擎優化(SEO)等方面的知識。同時,書中在涵蓋實際應用與介紹社交網絡分析和網絡科學領域中現有的新知識之間取得了一個良好的平衡,清楚地展示出如何將所涉及的理論知識應用于解決實際的商業問題。
前 言斯考特,把我彈射出去。 Captain Kirk(William Shatner飾)電影《星際旅行4:搶救未來》(1986年)Web是一個由眾多網頁相連接而形成的網絡,是一個通信媒介,是一個覆蓋全球的信息來源。人們花費大量的時間在Web上進行搜索,獲取有用的數據與信息,并對它們進行分析。有效使用Web給人們的生活帶來了很多的便利。本書將告訴你以上這一切是如何實現的。 本書是根據我在西北大學(Northwestern University)講授的一門課程的內容撰寫而成的。此課程從介紹Web網站分析學入手,主要關注在Web搜索中使用數據的統計與性能。之后,我又在此課程中增加了來自網絡科學和社交媒體的概念。在講授此課程兩年后,我認識到從Web上收集信息可以成為一個獨立的話題,有太多關于Web與網絡數據科學方面的知識可以學習。本書就像我講授的課程那樣,是關于以上這些知識的指南。 Web與網絡數據科學是數據科學和網絡科學相結合而形成的,關注的是將Web看成一個提供信息的來源。因而,最好的學習方法就是通過實例進行講解。因此,本書中包含大量的實例,通過提供建模技術方面的資料和參考指南給研究人員與分析師提供幫助。我們也會向編程人員展示如何基于基礎代碼編寫能夠正確運行并用于解決真實商業問題的軟件。 我們想要做的事情都會通過所編寫的代碼體現出來。本書中包含的這些代碼將作為參考資料提供給每一位讀者,當然會有部分讀者對這些代碼進行進一步調試。為了鼓勵學生學習,每一段程序代碼都包含詳細的注釋以及如何進一步分析的建議。所有的數據集以及計算機程序代碼都可以直接從本書的網站http://www.ftpress.com/miller/下載。 Python這個名字來源于Monty Python。大家會看到有些軟件包的名稱比較奇特,如Twisted或Scrapy。R語言擁有自己的lubridate與zoo軟件開發包。好的結果來源于辛勤工作并熱愛工作的人們。那些追求快樂而不是名利的人們為開源軟件做出了貢獻,而我很高興自己能夠成為開源軟件Python和R語言社區中的一員。那就讓我們一起開始這段快樂的旅程吧! 對于Web和網絡中存在的問題,使用Python可以有效便捷地解決某些問題,而使用R語言可以有效便捷地解決其他一些問題。常常還會出現兩種語言都適用的情況,這時就需要進行權衡。總體來說,Python和R語言能夠用于對Web及網絡數據進行有效的收集與分析。 在本書中,我們還會提到編程時會使用到的很多工具。對網站的正常運行負有責任的Web專業技術人員還會使用很多其他語言和技術,如JavaScript、Apache、.Net Web服務,以及數據庫系統。本書的討論將會涉及這些技術,但不會提供任何編程代碼。 本書中大多數數據來源于公共域數據源。用于支持案例的數據來源于加利福尼亞大學爾灣分校的機器學習信息庫(Machine Learning Repository)和斯坦福大學的大型網絡數據集(Large Network Dataset Collection)。所獲取的影視方面的數據得益于互聯網影視數據庫(Internet Movie Database)所給予的使用許可。IMDb影視評價數據由斯坦福大學的Andrew L. Mass及同事整理完成。安然(Enron)案例數據由卡耐基-梅隆大學的William W. Cohen維護。Quake Talk(地震談話)案例數據由Maksim Tsvetovat維護。我們對以上這些學者為我們的研究提供了豐富的數據表示深切的感謝。 很多人對我這些年來的知識積累都產生過重大的影響。他們中有出色的思考者,有善良的同仁,還有我會永遠感激的老師以及導師。不幸的是,尤西紐斯學院(Ursinus College)哲學系的Gerald Hahn Hinkle和語言系的Allan Lake Rice以及明尼蘇達大學(University of Minnesota)哲學系的Herbert Feigl已經永遠離開了我們。在此,我還要感謝明尼蘇達大學心理測驗學系的David J. Weiss以及曾經在俄勒岡大學(University of Oregon)經濟系任教的Kelly Eakin。好的老師(沒錯,他們都是偉大的園丁)終身都將得到人們的尊重。 感謝Stan Narusiewcz給了我職業生涯中的第一份工作,那是一個網絡工程師的崗位。感謝Tom Obinger指導我成為一個成功的計算機系統和網絡銷售人員。還有Bill JoBush和Brian Hill,在我作為信息系統專業人員整個職業生涯的各個階段,他們曾經是我的直接上司或同事。 感謝Michael L. Rothschild、Neal M. Ford、Peter R. Dickson和Janet Christopher在威斯康星大學麥迪遜分校(University of WisconsinMadison)伴我一起度過幾年美好的時光并給予我無私的幫助。特別感謝A. C. Nielsen Center for Marketing Research的學生和顧問委員會的專家以及Jeff Walkowski和Neli Esipova,后兩位在我組織在線調查與專題討論小組期間曾經同我一起工作,我們所使用的方法那時才開始在重要的研究中得到應用。 我很有幸參與了西北大學成人教育學院開展的研究生遠程教育的課程教學活動。感謝Glen Fogerty給我提供了講授課程的機會,并讓我負責西北大學預測分析學項目。感謝所有參與這個很有特色的研究生項目的同事和管理人員。最后,感謝幫助過我的眾多學生們和老師們,你們令我受益匪淺。 ToutBay是數據科學領域中一個快速成長的公司。與公司的共同創始人Greg Blence一樣,我對公司的未來發展抱有很大的信心。感謝Greg讓我有這樣一個參與創業以及面對商業活動中的現實而能夠更加腳踏實地的機會。學術以及數據科學模型畢竟有其局限性,為了能夠真正產生影響,我們必須實現我們的想法和模型,并且與他人進行共享。 我的家在加利福尼亞州,道奇體育館(Dodger Stadium)以北四英里,但是我在位于伊利諾伊州埃文斯頓市(Evanston, Illinois)的西北大學任教,同時在位于佛羅里達州坦帕市(Tampa, Florida)的一個名叫ToutBay的數據科學公司指導產品研發。這樣的工作和生活方式充分體現出了互聯網帶給我們的巨大便利。 nology公司的Amy Hendrickson使本書的編排、文字、圖表看上去都是那么出色和完美,這是開源軟件的又一個成功實例。感謝Donald Knuth以及整個社區對這個出色的系統在編排和出版方面做出的貢獻。 本書中包含的內容主要源于在西北大學講授的Web與網絡數據科學這門課程。參與課程學習的學生提出了很多想法和啟示。Lorena Martin對本書進行了評閱,提供了許多寶貴意見。Candice Bradley不但評閱了本書,還是本書的文字編輯。我對他們給予的幫助和鼓勵表示衷心感謝。最后還要感謝我的編輯Jeanne Glasser Levine以及本書的出版商Pearson/FT Press,是他們使本書的成功出版成為可能。在此特別聲明,我個人對所有寫作方面的事宜、存在的錯誤與問題以及不足負全部責任。 我的好朋友Brittney和她的女兒Janiya總是抽空陪伴我。我的兒子Daniel總能與我同甘共苦,是我一輩子的朋友。我對于他們給予的信任致以崇高的敬意。 Thomas W. Miller美國加利福尼亞州格倫代爾市
THOMAS W. MILLER是美國西北大學預測分析專業方向負責人,他負責設計了市場分析、高級建模技術、數據可視化、 Web和網絡數據科學以及綜合實踐課程。 他廣泛參與了專業的教學,有豐富的經驗。此外,他還從事數據科學應用的開發工作。在加入學術界之前,他有15年的IT商務和交通行業經驗,曾負責 A. C. Nielsen Center for Marketing Research 的工作,并且在威斯康辛大學麥迪遜分校教授市場研究和商業策略課程。
目 錄譯者序前言第1章 相關技術概述1第2章 在線傳遞消息9第3章 Web爬行與抓取18第4章 測試鏈接、外觀與體驗31第5章 關注競爭對手39第6章 網絡可視化49第7章 了解社區67第8章 度量情感83第9章 發現共同主題123第10章 推薦146第11章 網絡博弈161第12章 Web的未來167附錄A 數據科學方法170附錄B 在線初步研究184附錄C 案例分析196附錄D 代碼與共享程序207附錄E 術語表218參考文獻226索引252