《中文新聞網頁處理與輿情分析/信息管理專業前沿論叢》編著者錢愛兵。本書正是以新聞網頁為例,結合新聞的專有特性,面向輿情分析,從6個方面對中文新聞網頁處理過程中涉及的關鍵技術問題進行深入系統的研究,即新聞網頁正文抽取、新聞重復網頁識別、新聞網頁關鍵詞抽取、新聞網頁自動分類、新聞網頁主題聚合、網絡輿情分析,并給出相應的解決方法。通過對網絡輿情信息進行及時、全面、準確地分析與處理,最終達到隨時關注社會動態,為決策者進行正確選擇與科學決策提供支持的目標。
第l章 緒論 l.l研究背景 l.2研究對象 1.3研究現狀 1.4研究內容 1.5全書內容安排 參考文獻 第2章 中文新聞網頁正文抽取 2.1概述 第l章 緒論 l.l研究背景 l.2研究對象 1.3研究現狀 1.4研究內容 1.5全書內容安排 參考文獻 第2章 中文新聞網頁正文抽取 2.1概述 2.2文本密度判別法 2.2.1相關定義及假設 2.2.2 統計分析 z.2.3密度區分閾值 2.3方法實現 2.3.1轉換HTML為DOM樹 2.3.2獲取文本結點 2.3.3計算文本密度 2.3.4判別分析 2.4實驗結果及分析 2.4.1實驗數據 2.4.2評價指標 2.4.3實驗步驟及結果 2.4.4結果分析 2.5本章 小結 參考文獻第3章 中文新聞重復網頁識別 3.1概述 3.2算法設計 3.2.1重復網頁的界定 3.2.2算法思想 3.2.3后綴樹 3.2.4 u“Konen算法 3.2.5 Mat e:hing Statistics算法 3.2.6相似度計算 3.3算法實現 3.3.1改進的ukkonen算法 3.3.2改進的Matching Statistic:s算法 3.3.3中文新聞重復網頁識別算法 3.4實驗結果及分析 3.4.1實驗說明 3.4.2評價標準 3.4.3實驗結果與分析 3.5本章 小結 參考文獻 第4章 中文新聞網頁關鍵詞抽取 4.1概述 4.2網頁內容及關鍵詞構成分析 4.2.1網頁內容分析 4.2.2關鍵詞特征分析 4.3關鍵詞抽取 4.3.1網頁正文抽取 4.3.2新聞文本分詞 4.3.3綜合加權 4.3.4候選關鍵詞組配 4.4實驗結果與分析 4.4.1實驗數據 4.4.2評價標準 4.4.3實驗結果與分析 4.5本章 小結 參考文獻 第5章 中文新聞網頁自動分類 5.1概述 5.2新聞網頁預處理 5 2.1創建新聞分類標注語料庫 5.2.2抽取新聞網頁正文 5.2.3正文文本分詞及創建索引 5.3基于標題的自動分類方法 s.3.1詞長加權法 5.3.2簡單類目加權法 5.3.3經典類目加權法 5.3.4改進的類目加權法 5.4實驗結果與分析 5.4.1性能評價指標 5.4.2實驗結果 5.4.3結果分析 5.5本章 小結 參考文獻 第6章 中文新聞網頁主題聚合 6.1概述 6.2模型設計 6.2.1系統模型 6.2.2系統流程 6.3系統關鍵技術 6.3.1主題選擇模塊 6.3.2 RSs Feed初始集合選擇模塊 6.3.3 RSS聚合模塊 6.3.4 RSS Feed分析模塊 6.3.5 RSShem分析過濾模塊 6.3.6超鏈接自動提取模塊 6.3.7 RSSFeed自動發現模塊 6.4系統的實現 6.4.1測試硬件配置 6.4.2測試集的選擇 6.4.3系統測試 6.5本章 小結 參考文獻 第7章 基于主題的網絡輿情分析 7.1概述 7.2模型設計 7.3基于主題的網絡輿情分析 7.3.1輿情主題規劃 7.3.2輿情信息采集 7.3.3輿情信息分析 7.3.4輿情預警處理 7.4模型實現 7.4.1實現環境 7.4.2技術支撐 7.4.3實現流程 7.4.4測試集的選擇 7.4.5測試結果分析 7.5本章小結 參考文獻 第8章 結束語 8.1總結 8.2進一步的研究工作附錄A 關鍵詞抽取對照數據表 附錄B 新聞語料庫來源網站 附錄C 江蘇法院網絡輿情分析系統后記