基于R語言的自動數據收集:網絡抓取和文本挖掘實用指南
定 價:¥99
中 教 價:¥77.22 (7.80折)
庫 存 數: 0
叢 書 名:數據科學與工程技術叢書
本書共17章。第1章是概述,闡述數據挖掘的意義與實際應用。第2~8章介紹網絡和數據技術基礎知識。這一部分內容涉及互聯網上通信、交換、保存和顯示信息的基礎技術(如HTTP、HTML、XML、JSON、AJAX、SQL等),并講解用于查詢網絡文檔和數據集的基本技術(XPath和正則表達式)。第9~11章介紹網絡抓取和文本挖掘的實用工具箱。這一部分由三個核心章節組成:第9章講解多種網絡抓取技術,涉及正則表達式的使用、XPath、各類API接口、其他數據類型以及開源社區相關的技術;第10章深入介紹用于統計性文本處理的技術;第11章給出關于用R管理數據的項目中常見問題的一些見解。第12~17章介紹實際案例分析,涉及美國參議院里的合作網絡、從半結構化文檔解析信息、利用Twitter預測2014年奧斯卡獎、繪制姓氏地理分布圖、采集關于手機的數據、分析產品評論里的情緒等。這些案例分析針對日常的數據抓取和文本處理的工作流程、真實環境數據中的陷阱以及規避它們的方法等問題提供一些實用的見解。
譯者序前 言第1章概述 1.1案例研究:瀕危世界遺產地 1.2有關網絡數據質量的一些討論 1.3傳播、提取和保存網絡數據的技術1.3.1在網絡上傳播內容的技術 1.3.2從Web文檔中提取信息的技術 1.3.3 數據保存的技術 1.4本書的結構 第一部分網絡和數據技術入門第2章HTML2.1瀏覽器顯示及源代碼 2.2語法規則 2.2.1標簽、元素和屬性 2.2.2樹形結構 2.2.3注釋 2.2.4保留字符和特殊字符 2.2.5文檔類型定義 2.2.6 空格和換行 2.3標簽和屬性 2.3.1 錨標簽<a> 2.3.2 元數據標簽<meta> 2.3.3 外部引用標簽<link> 2.3.4 強調標簽<b>、<i>和<StrOng> 2.3.5段落標簽<p> 2.3.6 標題標簽<hl>、<h2>、<h3>等 2.3.7 通過<ul>、<ol>和<dl>列舉內容 2.3.8組織型標簽<div>和<Span> 2.3.9 <form>標簽及其同伴 2.3.10 外部腳本標簽<script> 2.3.11 表格標簽<table>、<tr>、<td>和<th> 2.4解析 2.4.1 解析簡介 2.4.2丟棄節點 2.4.3在創建過程中提取信息 小結 延伸閱讀 習題 第3章 XML和JSON3.1 XML文檔示例 3.2 XML語法規則 3.2.1 元素和屬性3.2.2 XML結構第4章xpath第5章HTTP第6章AJAX第7章SQL和關系型數據庫第8章正則表達式和基本字符串函數第二部分網絡抓取和文本挖掘實用工具箱第9章網絡抓取第10章統計性文本處理第11章管理數據項目第三部分一組案例分析第12章美國參議院里的合作網絡第13章從半結構化文檔解析信息第14章利用Twitter預測2014年奧斯卡獎第15章繪制姓氏地理分布圖第16章采集關于手機的數據第17章分析產品評論里的情緒