分子系統(tǒng)發(fā)生學是應(yīng)用分子數(shù)據(jù)重建系統(tǒng)發(fā)生關(guān)系的學科。《分子系統(tǒng)發(fā)生學》全面系統(tǒng)地論述了分子系統(tǒng)發(fā)生學的基礎(chǔ)、原理、方法及應(yīng)用。《分子系統(tǒng)發(fā)生學》由18章組成,可以歸納為五大部分:第一部分包括第1~3章,分別介紹了系統(tǒng)發(fā)生和系統(tǒng)樹的基本知識;第二部分包括第4~7章,是分子系統(tǒng)發(fā)生分析的基礎(chǔ),其中第4章和第5章是分子系統(tǒng)發(fā)生學的信息學基礎(chǔ),第6章是數(shù)據(jù)集系統(tǒng)發(fā)生信號評估,第7章討論了分子進化模型及模型選擇原理與方法;第三部分中的第8~12章是各種系統(tǒng)發(fā)生分析方法,分別就目前主要的系統(tǒng)發(fā)生分析方法(距離矩陣法、簡約法、最大似然法、貝葉斯推論法和系統(tǒng)發(fā)生網(wǎng)絡(luò)法等)從原理、軟件操作、應(yīng)用及局限性等方面進行了詳細的介紹,第13章討論了系統(tǒng)發(fā)生假設(shè)檢驗的原理和方法,第14章討論了系統(tǒng)發(fā)生分析可靠性與影響因素;第四部分主要涉及各類數(shù)據(jù)集分析策略,其中第15章總結(jié)了不同類型數(shù)據(jù)的分析策略,第16章對復(fù)雜數(shù)據(jù)系統(tǒng)發(fā)生的分析策略與方法進行了詳細地介紹,第17章是多基因數(shù)據(jù)分析策略和方法;最后一部分即第18章是系統(tǒng)樹的可視化、注釋與應(yīng)用方面的內(nèi)容。
《分子系統(tǒng)發(fā)生學》可作為生物學、生物技術(shù)、生態(tài)學和生物信息學專業(yè)的本科生、研究生及科研人員學習分子系統(tǒng)發(fā)生學的教材或參考資料。
分子系統(tǒng)發(fā)生學是應(yīng)用分子數(shù)據(jù)重建系統(tǒng)發(fā)生關(guān)系的學科。由于系統(tǒng)發(fā)生關(guān)系已經(jīng)成為整合包括生物多樣性在內(nèi)的生物學知識的基本框架,所以構(gòu)建生物類群之間的系統(tǒng)發(fā)生關(guān)系成為當代生物學的基本研究方法。《分子系統(tǒng)發(fā)生學(精)》由黃原編著,本書全面系統(tǒng)地論述了分子系統(tǒng)發(fā)生學的基礎(chǔ)、原理、方法及應(yīng)用。
前言
第1章 系統(tǒng)發(fā)生學概論
1.1 系統(tǒng)發(fā)生與系統(tǒng)發(fā)生學
1.2 系統(tǒng)發(fā)生關(guān)系的含義
1.2.1 表征關(guān)系
1.2.2 分支關(guān)系
1.2.3 遺傳關(guān)系
1.2.4 系統(tǒng)發(fā)生關(guān)系
1.2.5 年代關(guān)系
1.2.6 地理分布關(guān)系
1.3 分子系統(tǒng)發(fā)生分析的原理和假設(shè)
1.3.1 分子系統(tǒng)發(fā)生分析的原理
1.3.2 分子系統(tǒng)發(fā)生分析的假設(shè)
1.3.3 分子數(shù)據(jù)的優(yōu)點
1.4 分子系統(tǒng)發(fā)生學的方法論
1.5 分子系統(tǒng)發(fā)生學的發(fā)展歷史
1.6 系統(tǒng)發(fā)生分析的策略與步驟
1.7 分子系統(tǒng)發(fā)生學的文獻資源
1.7.1 分子系統(tǒng)發(fā)生學期刊
1.7.2 分子系統(tǒng)發(fā)生學領(lǐng)域主要專著和教科書
1.8 分子系統(tǒng)發(fā)生學的成就和問題
第2章 系統(tǒng)發(fā)生分析基礎(chǔ)
2.1 分子進化基礎(chǔ)
2.1.1 分子進化的動力
2.1.2 分子進化的中性理論
2.1.3 溯祖理論
2.2 系統(tǒng)發(fā)生分析的分類學基礎(chǔ)
2.2.1 系統(tǒng)發(fā)生與分類學的關(guān)系
2.2.2 分類階元的系統(tǒng)發(fā)生意義
2.3 性狀和性狀分析方法
2.3.1 性狀的分類
2.3.2 關(guān)于性狀的基本假設(shè)
2.3.3 性狀進化分析方法
2.3.4 性狀的加權(quán)
2.3.5 性狀的同源
2.3.6 性狀的同型
2.4 系統(tǒng)發(fā)生分析的數(shù)學基礎(chǔ)
2.5 系統(tǒng)發(fā)生分析的統(tǒng)計學基礎(chǔ)
2.5.1 概率分布
2.5.2 系統(tǒng)發(fā)生的統(tǒng)計學檢驗
2.5.3 零假設(shè)與零模型
2.5.4 常用檢驗方法
2.5.5 隨機數(shù)據(jù)及其在系統(tǒng)發(fā)生中的應(yīng)用
2.6 理論系統(tǒng)發(fā)生學
2.7 模擬系統(tǒng)發(fā)生研究
2.7.1 系統(tǒng)樹的模擬
2.7.2 序列的模擬
2.7.3 系統(tǒng)發(fā)生模擬研究的優(yōu)勢
2.8 系統(tǒng)發(fā)生分析的算法
2.8.1 精確算法
2.8.2 啟發(fā)式算法
第3章 系統(tǒng)樹
3.1 系統(tǒng)樹的概念和含義
3.2 系統(tǒng)樹的要素
3.2.1 系統(tǒng)樹的拓撲結(jié)構(gòu)
3.2.2 系統(tǒng)樹的節(jié)點
3.2.3 系統(tǒng)樹的分枝和分枝長度
3.3 演化歷史與系統(tǒng)樹的完整性
3.4 系統(tǒng)樹表達的信息
3.5 系統(tǒng)樹概念和表達形式的發(fā)展
3.6 系統(tǒng)樹的類型
3.6.1 樹狀圖與網(wǎng)狀圖
3.6.2 有根樹和無根樹
3.6.3 標度樹與未標度樹
3.6.4 基因樹和物種樹
3.6.5 基礎(chǔ)樹和合一樹、源樹和超樹
3.6.6 期望樹與實際樹
3.6.7 普適生命樹與完全樹
3.6.8 二歧樹和多歧樹
3.6.9 系統(tǒng)樹的表示形式
3.7 系統(tǒng)樹的數(shù)學描述
3.7.1 系統(tǒng)樹各部位的名稱
3.7.2 二分樹及其表示方式
3.7.3 二歧樹的性質(zhì)
3.8 系統(tǒng)樹的賦根方法
3.9 系統(tǒng)樹的生物學描述和解釋
3.9.1 描述系統(tǒng)樹的基本術(shù)語
3.9.2 系統(tǒng)樹的分類學解釋
3.9.3 系統(tǒng)樹的進化解釋
第4章 系統(tǒng)發(fā)生信息學
4.1 系統(tǒng)發(fā)生信息學概述
4.2 系統(tǒng)發(fā)生信息學研究內(nèi)容
4.3 系統(tǒng)發(fā)生數(shù)據(jù)文件格式
4.3.1 數(shù)據(jù)文件格式
4.3.2 格式轉(zhuǎn)換軟件
4.3.3 系統(tǒng)樹文件格式
4.4 系統(tǒng)發(fā)生分析軟件
4.4.1 系統(tǒng)發(fā)生分析軟件概述
4.4.2 系統(tǒng)發(fā)生分析軟件的編程語言
4.4.3 系統(tǒng)發(fā)生分析軟件的使用
4.5 PAUP*軟件及使用
4.5.1 PAUP*軟件的歷史和版本
4.5.2 PAUP*的安裝
4.5.3 PAUP*的功能
4.5.4 PAUP*命令及操作
4.5.5 PAUP*使用的一般步驟
4.5.6 ClustalX和PAUP*連用
4.5.7 PAUP*4輔助軟件
4.6 MEGA 5軟件包簡介
4.7 DAMBE軟件包簡介
4.8 Sea View 4軟件包簡介
4.9 PHYLIP軟件包簡介
4.10 系統(tǒng)發(fā)生的自動化分析工具
4.11 系統(tǒng)發(fā)生網(wǎng)絡(luò)資源
4.11.1 系統(tǒng)發(fā)生軟件目錄
4.11.2 CIPRES
4.11.3 分子進化和系統(tǒng)發(fā)生專題研討會
4.12 系統(tǒng)發(fā)生數(shù)據(jù)庫介紹
4.12.1 系統(tǒng)發(fā)生知識數(shù)據(jù)庫
4.12.2 生命之樹數(shù)據(jù)庫
4.12.3 Species 2000數(shù)據(jù)庫
4.12.4 NCBI分類數(shù)據(jù)庫
4.13 系統(tǒng)發(fā)生信息學展望
第5章 數(shù)據(jù)集準備與序列比對
5.1 分子數(shù)據(jù)的獲得
5.1.1 自測數(shù)據(jù)
5.1.2 序列拼接
5.2 來源于公共數(shù)據(jù)庫的分子數(shù)據(jù)
5.2.1 查看分類單元中已知基因序列分布的方法
5.2.2 查看一個分類單元被提交到GenBank中序列數(shù)量的方法
5.2.3 查看一個分類單元有序列記錄物種數(shù)量的方法
5.2.4 數(shù)據(jù)庫序列獲取方法
5.2.5 批量下載序列的方法
5.2.6 比對序列數(shù)據(jù)庫
5.3 序列比對
5.3.1 比對的概念和分類
5.3.2 序列比對的原理
5.3.3 序列比對算法
5.3.4 比對方法的分類
5.4 常用比對軟件
5.4.1 ClustalX
5.4.2 T-Coffee
5.4.3 DIALIGN
5.4.4 MUSCLE和MAFFT
5.4.5 ProAlign
5.4.6 POA和ABA
5.5 比對軟件的選擇
5.6 不同類型的序列比對方法和策略
5.6.1 DNA序列比對方法和策略
5.6.2 RNA基因序列的比對方法與策略
5.6.3 蛋白質(zhì)序列比對
5.7 比對結(jié)果的美化顯示與格式轉(zhuǎn)化
5.7.1 比對結(jié)果的美化和位點信息顯示
5.7.2 比對結(jié)果的格式轉(zhuǎn)化
5.8 比對與系統(tǒng)發(fā)生分析
5.9 數(shù)據(jù)集中空位、模糊區(qū)、多態(tài)位點和丟失數(shù)據(jù)的處理
5.9.1 數(shù)據(jù)集中空位的處理
5.9.2 模糊比對序列的處理
5.9.3 多態(tài)性狀的處理
5.9.4 丟失數(shù)據(jù)的處理
5.10 多源數(shù)據(jù)集組裝
5.10.1 公共數(shù)據(jù)庫數(shù)據(jù)的組裝
5.10.2 多基因數(shù)據(jù)的連接
5.11 序列管理與數(shù)據(jù)提交
5.11.1 序列管理
5.11.2 系統(tǒng)發(fā)生數(shù)據(jù)提交
第6章 數(shù)據(jù)集系統(tǒng)發(fā)生信號評估
6.1 系統(tǒng)發(fā)生數(shù)據(jù)信號描述
6.2 數(shù)據(jù)集質(zhì)量的評價
6.2.1 數(shù)據(jù)集組成特征分析
6.2.2 替換型式分析
6.2.3 分子進化參數(shù)計算
6.2.4 替換飽和作圖
6.3 系統(tǒng)發(fā)生信號與結(jié)構(gòu)分析
6.3.1 序列數(shù)據(jù)系統(tǒng)發(fā)生信號強弱的評價
6.3.2 系統(tǒng)發(fā)生信號評估軟件與方法
6.3.3 系統(tǒng)發(fā)生信號組成結(jié)構(gòu)分析
6.4 系統(tǒng)發(fā)生數(shù)據(jù)探索與實驗性分析
6.4.1 數(shù)據(jù)特征的探索
6.4.2 系統(tǒng)發(fā)生數(shù)據(jù)的實驗性分析
第7章 進化模型及其選擇
7.1 進化模型及其在系統(tǒng)發(fā)生分析中的作用
7.2 系統(tǒng)發(fā)生模型
7.3 形態(tài)性狀進化模型
7.4 DNA序列進化模型
7.4.1 DNA序列上發(fā)生的進化改變
7.4.2 同質(zhì)性模型
7.4.3 堿基組成異質(zhì)性模型
7.4.4 Indel模型
7.5 RNA進化模型
7.5.1 結(jié)構(gòu)RNA序列的進化特征
7.5.2 RNA替換模型
7.6 蛋白質(zhì)序列進化模型
7.6.1 蛋白質(zhì)序列進化及建模
7.6.2 經(jīng)驗?zāi)P?/span>
7.6.3 機理模型
7.6.4 氨基酸頻率變異和位點之間速率變異模型
7.6.5 混合模型
7.7 進化模型的選擇
7.7.1 進化模型選擇原理
7.7.2 LRT檢驗法
7.7.3 AIC信息標準法
7.7.4 貝葉斯信息標準法
7.7.5 貝葉斯因子法
7.7.6 決策論法
7.7.7 進化模型選擇注意事項
7.8 DNA進化模型選擇
7.8.1 用PAUP*選擇模型的LRT檢驗
7.8.2 DNA模型選擇軟件
7.8.3 jModelTest的使用
7.9 蛋白質(zhì)進化模型的選擇和使用
7.9.1 蛋白質(zhì)進化模型選擇概述
7.9.2 蛋白質(zhì)進化模型選擇軟件ProtTest3.0
7.10 進化模型參數(shù)的準確估計
7.11 混合模型和平均模型
第8章 距離矩陣方法
8.1 遺傳距離的概念
8.2 距離數(shù)據(jù)的數(shù)學特征和生物學意義
8.3 將序列數(shù)據(jù)轉(zhuǎn)化為距離的方法
8.3.1 未校正的遺傳距離
8.3.2 校正距離的計算方法
8.3.3 最大似然法估計的校正距離
8.3.4 LogDet距離
8.3.5 基因組距離
8.3.6 蛋白質(zhì)遺傳距離
8.3.7 計算遺傳距離的軟件
8.3.8 校正距離的選擇和使用注意事項
8.4 距離矩陣方法概述
8.5 聚類分析方法
8.6 鄰接法
8.6.1 鄰接法原理
8.6.2 鄰接法的算法
8.7 最小進化法
8.8 疊加樹法
8.8.1 原理
8.8.2 平均距離法
8.8.3 轉(zhuǎn)換距離法
8.8.4 最小平方法
8.8.5 其他疊加樹方法
8.9 距離樹可靠性評價
8.10 距離矩陣建樹方法的比較及應(yīng)用
8.11 距離矩陣法建樹軟件
8.11.1 PAUP*4距離法建樹
8.11.2 MEGA5的距離法
8.11.3 TREECON使用
8.11.4 T-REX軟件使用
8.11.5 ProfDist使用方法
第9章 簡約法
9.1 簡約性方法原理
9.2 簡約法的分析過程
9.2.1 性狀分布模式
9.2.2 性狀優(yōu)化
9.2.3 多態(tài)性內(nèi)部節(jié)點祖先狀態(tài)的重建方法
9.2.4 性狀加權(quán)
9.2.5 最簡約樹搜索
9.2.6 簡約樹分枝長度和樹長的計算
9.2.7 最簡約樹的選擇
9.2.8 MP樹分支支持度計算
9.3 數(shù)據(jù)集中同型性狀水平的分析和評價
9.4 簡約法分析結(jié)果
9.5 簡約性方法的優(yōu)缺點
9.6 簡約法分析軟件
9.7 用PAUP*進行MP法分析
9.7.1 利用PAUP*進行簡單簡約法分析
9.7.2 加權(quán)簡約法分析
9.7.3 PAUP*限制樹搜索
9.7.4 PAUP*4簡約法的腳本命令運行
9.8 TNT軟件
9.9 WinClada和NOVA
第10章 最大似然法
10.1 最大似然法原理及其在系統(tǒng)發(fā)生分析上的應(yīng)用
10.2 最大似然法建樹原理
10.3 最大似然法建樹過程
10.3.1 進化模型的選擇及參數(shù)計算
10.3.2 系統(tǒng)樹搜索方法
10.3.3 分枝長度的優(yōu)化
10.3.4 似然值的計算
10.3.5 分支支持度計算
10.4 最大似然法建樹結(jié)果的表示
10.5 最大似然法的優(yōu)缺點
10.5.1 最大似然法的優(yōu)點
10.5.2 最大似然法的缺點
10.6 最大似然法分析軟件
10.6.1 PAUP*4的ML分析方法
10.6.2 PAUP*與ModelTest聯(lián)合運行選擇進化模型
10.6.3 TREEFINDER軟件使用方法
10.6.4 TREE-PUZZLE軟件使用方法
10.6.5 RAxML
10.6.6 PhyML
10.6.7 MetaPIGA
10.6.8 IQPNNI
10.6.9 GARLI
第11章 貝葉斯系統(tǒng)發(fā)生推論法
11.1 貝葉斯系統(tǒng)發(fā)生分析原理
11.1.1 貝葉斯統(tǒng)計原理
11.1.2 貝葉斯系統(tǒng)發(fā)生推論法歷史和現(xiàn)狀
11.1.3 貝葉斯系統(tǒng)發(fā)生推論原理
11.2 貝葉斯分析過程
11.2.1 貝葉斯方法選擇模型
11.2.2 先驗概率的設(shè)置
11.2.3 馬爾可夫鏈運行設(shè)置
11.2.4 提議、混合與接受
11.2.5 貝葉斯推論法克服局部優(yōu)化的方法
11.2.6 評估和促進后驗概率分布收斂的方法
11.2.7 影響系統(tǒng)樹后驗概率計算的因素
11.3 貝葉斯法運行結(jié)果匯總
11.4 貝葉斯推論法結(jié)果的分析、判斷與表示
11.5 貝葉斯系統(tǒng)發(fā)生軟件及使用
11.5.1 貝葉斯系統(tǒng)發(fā)生軟件
11.5.2 MrBayes 3.2使用方法
11.6 貝葉斯系統(tǒng)發(fā)生推論法優(yōu)缺點
11.7 貝葉斯法與最大似然法的聯(lián)系及區(qū)別
11.8 貝葉斯后驗概率與自舉支持度的關(guān)系
第12章 系統(tǒng)發(fā)生網(wǎng)絡(luò)、超樹和無比對方法
12.1 系統(tǒng)發(fā)生網(wǎng)絡(luò)
12.1.1 網(wǎng)狀進化型式與機制
12.1.2 系統(tǒng)發(fā)生網(wǎng)絡(luò)的構(gòu)建方法
12.1.3 網(wǎng)狀圖的構(gòu)建軟件
12.1.4 系統(tǒng)發(fā)生網(wǎng)絡(luò)的應(yīng)用
12.2 系統(tǒng)樹的整合方法——超樹
12.2.1 超樹的概念
12.2.2 超樹構(gòu)建方法
12.2.3 超樹方法的優(yōu)缺點
12.3 無比對方法
12.3.1 比對和系統(tǒng)發(fā)生的聯(lián)合估計方法
12.3.2 完全無比對方法
第13章 系統(tǒng)發(fā)生假設(shè)檢驗
13.1 系統(tǒng)發(fā)生假設(shè)檢驗概述
13.2 似然比檢驗
13.3 數(shù)據(jù)隨機化檢驗
13.3.1 比較雙樹檢驗
13.3.2 PTP檢驗和限制樹T-PTP檢驗
13.4 配對位點檢驗
13.4.1 Templeton檢驗
13.4.2 KH檢驗
13.5 非參數(shù)自舉法
13.5.1 SH檢驗
13.5.2 AU檢驗
13.6 參數(shù)自舉法
13.7 貝葉斯統(tǒng)計檢驗法
13.8 PAUP*執(zhí)行的系統(tǒng)發(fā)生假設(shè)檢驗方法
13.9 CONSEL軟件使用
第14章 系統(tǒng)發(fā)生分析的可靠性與影響因素
14.1 系統(tǒng)發(fā)生分析方法的可靠性
14.1.1 方法可靠性的評價標準
14.1.2 系統(tǒng)發(fā)生分析方法的比較研究
14.1.3 不同構(gòu)樹方法的優(yōu)缺點
14.2 系統(tǒng)樹的可靠性
14.2.1 系統(tǒng)樹的兩類誤差
14.2.2 系統(tǒng)誤差和隨機誤差
14.2.3 檢驗系統(tǒng)樹可靠性的統(tǒng)計學方法
14.3 隨機誤差及統(tǒng)計分析
14.3.1 評估分支支持度的方法
14.3.2 自舉法
14.3.3 自減法
14.3.4 貝葉斯后驗概率法
14.3.5 計算分支支持度的軟件
14.4 系統(tǒng)誤差的消除方法
14.4.1 系統(tǒng)誤差的來源
14.4.2 導(dǎo)致系統(tǒng)誤差的條件
14.4.3 系統(tǒng)誤差的識別
14.4.4 系統(tǒng)誤差的消除方法
14.5 系統(tǒng)發(fā)生分析疑難解答
14.5.1 有異常分支的系統(tǒng)發(fā)生
14.5.2 隨機誤差
14.5.3 分類單元抽樣
14.5.4 序列長度與類型
14.5.5 序列比對問題
14.5.6 進化模型選擇問題
14.5.7 建樹方法的選擇
14.5.8 搜索算法選擇
14.5.9 分子進化速率對系統(tǒng)發(fā)生的影響
14.5.10 替換速率變異
14.5.11 堿基組成偏向性的影響
14.5.12 堿基組成異質(zhì)性的影響
14.5.13 外群選擇與系統(tǒng)樹的賦根問題
14.5.14 譜系缺失的影響
14.5.15 數(shù)據(jù)缺失對系統(tǒng)發(fā)生分析的影響
14.5.16 基因水平轉(zhuǎn)移
14.5.17 序列和位點同源關(guān)系
14.5.18 選擇作用的影響
14.5.19 重組的影響
14.5.20 分支支持度低的問題
14.5.21 計算時間太長的問題
14.5.22 總結(jié)
第15章 不同類型數(shù)據(jù)的分析策略
15.1 不同類型數(shù)據(jù)的特點
15.2 DNA序列分析策略和方法
15.2.1 用DNA序列還是蛋白質(zhì)序列
15.2.2 編碼蛋白質(zhì)DNA序列的分析
15.2.3 DNA序列的加權(quán)簡約法分析
15.2.4 DNA序列的ML和貝葉斯法分析
15.3 蛋白質(zhì)序列分析策略和方法
15.3.1 蛋白質(zhì)序列數(shù)據(jù)的獲得
15.3.2 必須使用蛋白質(zhì)序列的情況
15.3.3 蛋白質(zhì)序列的分析策略
15.3.4 蛋白質(zhì)立體結(jié)構(gòu)分析
15.4 RNA序列分析策略和方法
15.4.1 RNA序列數(shù)據(jù)的特點
15.4.2 rRNA基因序列系統(tǒng)發(fā)生分析策略
15.4.3 rRNA基因序列分析軟件
第16章 復(fù)雜數(shù)據(jù)和困難系統(tǒng)發(fā)生的分析策略與方法
16.1 早期適應(yīng)輻射的系統(tǒng)發(fā)生
16.2 近期發(fā)生過適應(yīng)輻射的系統(tǒng)發(fā)生
16.3 存在長枝吸引問題的系統(tǒng)發(fā)生
16.3.1 長枝吸引現(xiàn)象
16.3.2 產(chǎn)生長枝吸引現(xiàn)象的可能原因
16.3.3 識別長枝吸引的方法
16.3.4 消除長枝吸引現(xiàn)象的方法
16.4 大數(shù)據(jù)集的系統(tǒng)發(fā)生
16.4.1 大數(shù)據(jù)集系統(tǒng)發(fā)生及其面臨的問題
16.4.2 大數(shù)據(jù)集系統(tǒng)發(fā)生分析策略
16.4.3 大數(shù)據(jù)集的系統(tǒng)發(fā)生分析需要的計算機和軟件
16.4.4 大數(shù)據(jù)集分析實例
16.5 堿基組成異質(zhì)性數(shù)據(jù)集的分析
16.5.1 序列組成偏向性及其對系統(tǒng)發(fā)生分析的影響
16.5.2 堿基組成異質(zhì)性數(shù)據(jù)分析方法
16.5.4 氨基酸組成異質(zhì)性數(shù)據(jù)分析方法
16.6 種上與種下數(shù)據(jù)的聯(lián)合分析
第17章 多源數(shù)據(jù)集分析策略和方法
17.1 多源數(shù)據(jù)集概述
17.2 數(shù)據(jù)集之間的不相合性及檢驗方法
17.2.1 不相合性的類型
17.2.2 數(shù)據(jù)集之間不相合性的原因
17.2.3 數(shù)據(jù)集之間不相合性的檢驗方法
17.3 多源數(shù)據(jù)集的分析策略
17.3.1 聯(lián)合方法
17.3.2 分類學相合性分析
17.3.3 數(shù)據(jù)劃分方法
17.4 多源數(shù)據(jù)集的劃分分析實例
17.5 譜系基因組學方法
17.5.1 譜系基因組學
17.5.2 譜系基因組學分析策略
17.5.3 譜系基因組學分析方法
第18章 系統(tǒng)樹的可視化、注釋與應(yīng)用
18.1 系統(tǒng)樹的可視化
18.1.1 TreeView
18.1.2 Dendroscope
18.1.3 Mesquite
18.1.4 FigTree
18.1.5 MrEnt
18.1.6 2D和3D曲面表示方法
18.1.7 iTOL
18.2 系統(tǒng)樹的注釋
18.2.1 分類學命名標注
18.2.2 分歧年代和地質(zhì)時代的標注
18.2.3 重建祖先狀態(tài)
18.2.4 性狀進化
18.2.5 協(xié)同系統(tǒng)發(fā)生
18.3 系統(tǒng)樹表達的信息及其應(yīng)用
18.3.1 拓撲結(jié)構(gòu)和分支長度
18.3.2 系統(tǒng)樹的樹形及應(yīng)用
18.3.3 系統(tǒng)發(fā)生的不平衡性
18.3.4 系統(tǒng)樹用于分析分歧速度
18.4 系統(tǒng)發(fā)生的應(yīng)用
參考文獻
第1 章 系統(tǒng)發(fā)生學概論
1.1 系統(tǒng)發(fā)生與系統(tǒng)發(fā)生學
系統(tǒng)發(fā)生(phylogeny , 由希臘詞根phylon = stem 、tribe 、race 和genesis = origin構(gòu)成) 是指任何生物實體(基因、個體、種群、物種和種上階元) 的起源和演化關(guān)系。
達爾文首次使用系統(tǒng)發(fā)生一詞是在《物種起源》第5 版提及Haeckel 的著作Generelle Mor p hologie 時, 并將系統(tǒng)發(fā)生等同為所有生物的傳代線( the lines of de-scent of all organic beings) , 這與Haeckel 的原意不同, Haeckel 書中的系統(tǒng)發(fā)生是生命之樹的傳代線上生物在形態(tài)上發(fā)生的主要改變, 而非傳代線本身(Dayrat , 2003) 。
但達爾文此處對系統(tǒng)發(fā)生概念的使用與我們現(xiàn)在的定義基本上一致。
分子系統(tǒng)發(fā)生(molecular phylogeny) 是利用各種分子性狀構(gòu)建的生物實體之間起源和演化關(guān)系, 采用的分子數(shù)據(jù)主要是DNA 和蛋白質(zhì)序列, 也包括其他類型的分子數(shù)據(jù)。
系統(tǒng)發(fā)生學(phylogenetics) 是研究利用各種性狀構(gòu)建基因、個體、種群、物種和種上單元之間系統(tǒng)樹或網(wǎng)絡(luò)的原理和方法的學科。系統(tǒng)發(fā)生學重建進化歷史依賴于對取樣物種的性狀分布進行數(shù)學推論, 這種重建涉及不同類群共享的同源性狀, 并通過這些性狀推斷系統(tǒng)樹。這種數(shù)學推斷的準確性完全依賴于對性狀進化的假設(shè)和模型。
20 世紀50 年代以來, 蛋白質(zhì)和DNA 測序技術(shù)為系統(tǒng)發(fā)生重建帶來了曙光。DNA和蛋白質(zhì)序列數(shù)據(jù)作為生物信息分子具有線性數(shù)字編碼特征, 并且能夠建立位點之間的同源關(guān)系, 逐漸成為系統(tǒng)發(fā)生分析的主要數(shù)據(jù)來源。分子系統(tǒng)發(fā)生學( molecularphylogenetics) 就是在這種背景下誕生的, 是研究利用各種分子性狀構(gòu)建基因、個體、種群和物種之間系統(tǒng)樹或進化網(wǎng)絡(luò)的原理和方法的學科。
分子數(shù)據(jù)的使用導(dǎo)致了系統(tǒng)發(fā)生研究的革命。在20 世紀80 年代后期, 由于保守引物的PCR 擴增和DNA 測序技術(shù)的應(yīng)用, 使得系統(tǒng)發(fā)生分析可利用的同源位點(即性狀) 數(shù)量達到500 個, 有的甚至超過數(shù)千個, 與此前幾十個、最多上百個形態(tài)特征相比, 大大地增強了解決系統(tǒng)發(fā)生推論的數(shù)據(jù)力度。此時, 一些線粒體基因和rDNA成為最廣泛應(yīng)用的標記, 其中編碼SSU rRNA 的基因識別出了作為生命樹的第三分支的古細菌(Archaea) 。隨著更多基因標記, 尤其是大量單拷貝核基因的使用, 基于單個基因推論的系統(tǒng)發(fā)生關(guān)系之間的沖突逐漸顯露。而且, 來自單個基因的信息經(jīng)常不足以對系統(tǒng)發(fā)生的節(jié)點提供堅實的統(tǒng)計學支持。所以, 自20 世紀90 年代以來, 多基因數(shù)據(jù)逐漸成為分子系統(tǒng)發(fā)生研究的主流。
目前, 成千上萬個物種的全基因組序列信息已經(jīng)通過新一代的高通量測序技術(shù)產(chǎn)生, 并由此產(chǎn)生了一個新的分支學科―― 譜系基因組學(phylogenomics) , 就是在基因組水平上進行系統(tǒng)發(fā)生研究。譜系基因組學將基因座位的進化作為一種隨機過程看待,將分子水平的基因座位和序列位點進化模型及群體歷史過程整合在一起, 分析基因樹和物種樹之間的關(guān)系, 引發(fā)分子系統(tǒng)發(fā)生學思想的又一次革命。基因組學數(shù)據(jù)增加了用于系統(tǒng)發(fā)生學分析的性狀數(shù)量和類型, 期望能夠減少先前由于序列或基因取樣偏差造成的系統(tǒng)發(fā)生推論誤差。
分子系統(tǒng)發(fā)生學已經(jīng)成為當前生物學研究的核心領(lǐng)域。根據(jù)SCI Web of Science 引文數(shù)據(jù)庫統(tǒng)計, 到2009 年底已經(jīng)有30 000 多篇關(guān)于系統(tǒng)發(fā)生分析的論文, 并且每年以3000 篇的速度增加( Pagel and Meade , 2008) 。Rokas 和Carroll (2006) 估計世界范圍平均每天發(fā)表15 棵系統(tǒng)樹。最近發(fā)起的重建生命之樹計劃和DNA 條形碼計劃是生物學歷史上能夠與基因組計劃媲美的生物學大科學項目, 加之廉價而快速的新一代高通量測序技術(shù)引發(fā)的全基因組測序的普及, 如人類千人基因組計劃、宏基因組學( met-agenomics) 、脊椎動物基因組10K 計劃和昆蟲基因組5K 計劃等, 將極大地推進分子系統(tǒng)發(fā)生學的研究。
分子系統(tǒng)發(fā)生學數(shù)據(jù)的增加速度很快, 目前NCBI 核苷酸數(shù)據(jù)庫有序列記錄的物種數(shù)超過30 萬種。過去5 年GenBank 的物種數(shù)以每年約1.7 萬種的速度增加, 也就是170 萬種已描述物種中, 每年約有1 % 的物種被進行至少一個基因的測序。即便如此,至少含有一條分子序列的生物體只占全部已知物種的17 % 左右。而在系統(tǒng)發(fā)生信息數(shù)據(jù)庫TreeBASE 中, 目前只錄入了2000 多項研究的5000 多棵系統(tǒng)樹, 包括100 000個類群(http : //www.treebase.org/) 。因此, 實現(xiàn)重建生命之樹的宏偉計劃還有漫長的路要走。