《統計機器翻譯》是介紹統計機器翻譯理論和方法的教材。全書分三部分(共11章),分別討論基礎知識、核心方法和前沿研究。全書首先簡要介紹語言學和概率論基礎知識,然后全面討論各種經典統計機器翻譯模型和系統實現方法,最后深入探討統計翻譯領域的最新進展和研究熱點。對核心方法的論述按照統計機器翻譯模型發展的過程逐步展開:基于詞的模型、基于短語的模型和基于句法樹的模型。從技術實現的角度,本書還介紹了統計翻譯模型的參數訓練方法、語言模型和參數平滑方法、解碼算法和譯文自動評測方法及系統整合方法等。
《統計機器翻譯》是統計機器翻譯和自然語言處理課程的理想教材,適合研究生和本科生教學使用,也是所有對機器翻譯技術和系統有興趣的研究者、開發者和使用者的指南性讀物。同時,本書還可作為人工智能、語言學等相關專業的輔助讀物。
菲利普·科恩(Philipp Koehn),英國愛丁堡大學信息學院講師(Iecturer)。歐洲EuroMatrix項目的科學協調員,同時參與了美國DARPA資助的研究項目。與機器翻譯領域的知名公司如Systran和Asia Online等都建立了合作。實現了廣為使用的解碼器Pharaoh,同時領導著開源機器翻譯工具Moses的開發。
第1章 緒論
1.1 概述
1.1.1 第1章:緒論
1.1.2 第2章:詞、句子和語料
1.1.3 第3章:概率論
1.1.4 第4章:基于詞的翻譯模型
1.1.5 第5章:基于短語的翻譯模型
1.1.6 第6章:解碼
1.1.7 第7章:語言模型
1.1.8 第8章:評測
1.1.9 第9章:判別式訓練
1.1.10 第10章:整合語言學信息
1.1.11 第11章:基于樹的翻譯模型
1.2 機器翻譯簡史
1.2.1 肇始
1.2.2 ALPAC報告及其后果
1.2.3 首批商用系統
1.2.4 基于中間語系統的研究
1.2.5 數據驅動方法
1.2.6 目前的開發商
1.2.7 技術現狀
1.3 應用
1.3.1 全自動高質量機器翻譯
1.3.2 要旨翻譯
1.3.3 集成語音技術
1.3.4 手持設備中的翻譯
1.3.5 后編輯
1.3.6 譯者的工具
1.4 可用資源
1.4.1 工具
1.4.2 語料
1.4.3 評測競賽
1.5 小結
1.5.1 核心概念
1.5.2 延伸閱讀
1.6 習題
第2章 詞、句子和語料
2.1 詞
2.1.1 詞例化
2.1.2 詞的分布
2.1.3 詞性
2.1.4 形態學
2.1.5 詞匯語義學
2.2 句子
2.2.1 句子結構
2.2.2 語法理論
2.2.3 句子結構的翻譯
2.2.4 語篇
2.3 語料
2.3.1 文本的類型
2.3.2 獲取平行語料
2.3.3 句子對齊
2.4 小結
2.4.1 核心概念
2.4.2 延伸閱讀
2.4.3 習題
第3章 概率論
3.1 概率分布估計
3.1.1 估計分析
3.1.2 常見概率分布
3.1.3 基于統計的概率估計
3.2 概率分布計算
3.2.1 形式定義
3.2.2 聯合概率分布
3.2.3 條件概率分布
3.2.4 貝葉斯法則
3.2.5 插值
3.3 概率分布的特性
3.3.1 均值和方差
3.3.2 期望和方差
3.3.3 熵
3.3.4 互信息
3.4 小結
3.4.1 核心概念
3.4.2 延伸閱讀
3.4.3 習題
第二部分 核心方法
第4章 基于詞的翻譯模型
4.1 基于詞的機器翻譯
4.1.1 詞匯翻譯
4.1.2 數據統計
4.1.3 估計概率分布
4.1.4 對齊
4.1.5 IBM模型1
4.2 學習詞匯翻譯模型
4.2.1 語料不完備問題
4.2.2 期望最大化算法
4.2.3 IBM模型1中的期望最大化算法
4.2.4 困惑度
4.3 確保流暢的輸出
4.3.1 流利譯文的經驗證據
4.3.2 語言模型
4.3.3 噪聲信道模型
4.4 更高級的IBM模型
4.4.1 IBM模型2
4.4.2 IBM模型3
4.4.3 訓練模型3:采樣對齊空間
4.4.4 IBM模型4
4.4.5 IBM模型5
4.5 詞對齊
4.5.1 詞對齊任務
4.5.2 詞對齊質量評估
4.5.3 基于IBM模型的詞對齊
4.6 小結
4.6.1 核心概念
4.6.2 延伸閱讀
4.6.3 習題
第5章 基于短語的翻譯模型
5.1 標準模型
5.1.1 基于短語的翻譯模型提出的動因
5.1.2 數學定義
5.2 學習短語翻譯表
5.2.1 從詞對齊中抽取短語
5.2.2 一致性定義
5.2.3 短語抽取算法
5.2.4 應用實例
5.2.5 短語翻譯概率估計
5.3 翻譯模型的擴展
5.3.1 對數線性模型
5.3.2 雙向翻譯概率
5.3.3 詞匯化加權
5.3.4 詞語懲罰
5.3.5 短語懲罰
5.3.6 作為分類問題的短語翻譯
5.4 調序模型的擴展
5.4.1 調序限制
5.4.2 詞匯化調序
5.5 基于短語模型的期望最大化訓練
5.5.1 短語對齊的聯合模型
5.5.2 對齊空間的復雜度
5.5.3 模型訓練
5.6 小結
5.6.1 核心概念
5.6.2 延伸閱讀
5.6.3 習題
第6章 解碼
6.1 翻譯過程
6.1.1 翻譯一個句子
6.1.2 計算句子的翻譯概率
6.2 柱搜索
6.2.1 翻譯選項
6.2.2 通過假設擴展的解碼過程
6.2.3 計算復雜度
6.2.4 翻譯假設重組
6.2.5 棧解碼
6.2.6 直方圖剪枝和閾值剪枝
6.2.7 調序限制
6.3 未來代價估計
6.3.1 不同的翻譯困難
6.3.2 翻譯選項的未來代價估計
6.3.3 任意輸入跨度的未來代價估計
6.3.4 在搜索中使用未來代價
6.4 其他解碼算法
6.4.1 基于覆蓋棧的柱搜索算法
6.4.2 A*搜索算法
6.4.3 貪婪爬山解碼
6.4.4 有限狀態轉換機解碼
6.5 小結
6.5.1 核心概念
6.5.2 延伸閱讀
6.5.3 習題
第7章 語言模型
7.1 n元文法語言模型
7.1.1 馬爾可夫鏈
7.1.2 估計
7.1.3 困惑度
7.2 計數平滑
7.2.1 加1平滑法
7.2.2 刪除估計平滑法
7.2.3 古德圖靈平滑法
7.2.4 評估
7.3 插值和后備
7.3.1 插值
7.3.2 遞歸插值
7.3.3 后備
7.3.4 預測詞的差異性
7.3.5 歷史的差異性
7.3.6 修正的Kneser-Ney平滑算法
7.3.7 評估
7.4 控制語言模型的大小
7.4.1 不同的n元文法的數目
7.4.2 在磁盤上進行估計
7.4.3 高效的數據結構
7.4.4 減小詞匯表規模
7.4.5 抽取相關的n元文法
7.4.6 根據需要加載n元文法
7.5 小結
7.5.1 核心概念
7.5.2 延伸閱讀
7.5.3 習題
第8章 評測
8.1 人工評測
8.1.1 流利度和忠實度
8.1.2 評測目的
8.1.3 其他評測標準
8.2 自動評測
8.2.1 準確率和召回率
8.2.2 詞錯誤率
8.2.3 BLEU:一個雙語評測的替代指標
8.2.4 METEOR
8.2.5 關于評測的爭論
8.2.6 評測指標的評測
8.2.7 自動評測不足的證據
8.3 假設檢驗
8.3.1 計算置信區間
8.3.2 成對比較
8.3.3 自舉重采樣
8.4 面向任務的評測
8.4.1 后編輯的代價
8.4.2 內容理解測試
8.5 小結
8.5.1 核心概念
8.5.2 延伸閱讀
8.5.3 習題
第三部分 前沿研究
第9章 判別式訓練
9.1 尋找候選譯文
9.1.1 搜索圖
9.1.2 詞格
9.1.3 n-best列表
9.2 判別式方法的原理
9.2.1 譯文的特征表示
9.2.2 標注譯文的正確性
9.2.3 監督學習
9.2.4 最大熵
9.3 參數調節
9.3.1 實驗設置
9.3.2 Powell搜索方法
9.3.3 單純型算法
9.4 大規模判別式訓練
9.4.1 訓練問題
9.4.2 目標函數
9.4.3 梯度下降
9.4.4 感知機
9.4.5 正則化
9.5 后驗方法與系統融合
9.5.1 最小貝葉斯風險
9.5.2 置信度估計
9.5.3 系統融合
9.6 小結
9.6.1 核心概念
9.6.2 延伸閱讀
9.6.3 習題
第10章 整合語言學信息
10.1 直譯
10.1.1 數字和名字
10.1.2 名字翻譯
10.1.3 直譯的有限狀態方法
10.1.4 資源
10.1.5 反向直譯與翻譯
10.2 形態學
10.2.1 詞素
10.2.2 簡化豐富的形態變化
10.2.3 翻譯形態豐富的語言
10.2.4 單詞拆分
10.3 句法重構
10.3.1 基于輸入語言句法的調序
10.3.2 學習調序規則
10.3.3 基于詞性標記的調序
10.3.4 基于句法樹的調序
10.3.5 預留選擇
10.4 句法特征
10.4.1 方法論
10.4.2 數的一致性
10.4.3 一致性
10.4.4 句法分析概率
10.5 因子化翻譯模型
10.5.1 因子化翻譯的分解
10.5.2 因子化模型訓練
10.5.3 模塊的融合
10.5.4 高效解碼
10.6 小結
10.6.1 核心概念
10.6.2 延伸閱讀
10.6.3 習題
第11章 基于樹的翻譯模型
11.1 同步文法
11.1.1 短語結構語法
11.1.2 同步短語結構語法
11.1.3 同步樹替換文法
11.2 同步文法的學習
11.2.1 層次短語模型的學習
11.2.2 句法翻譯規則的學習
11.2.3 規則的簡化
11.2.4 文法規則的打分
11.3 基于句法分析算法的解碼
11.3.1 線圖分析
11.3.2 核心算法
11.3.3 線圖的組織
11.3.4 假設重組
11.3.5 棧剪枝
11.3.6 文法規則的使用
11.3.7 立方剪枝
11.3.8 文法二叉化
11.3.9 外向代價估計
11.4 小結
11.4.1 核心概念
11.4.2 延伸閱讀
11.4.3 習題
參考文獻
索引