本書(shū)是生物信息學(xué)分析和研究的實(shí)踐指導(dǎo),精選生物信息學(xué)分析中的重要案例,結(jié)合作者多年教學(xué)實(shí)踐,借助MATLAB生物信息學(xué)工具箱,進(jìn)行序列數(shù)據(jù)分析、芯片數(shù)據(jù)分析、高通量測(cè)序和質(zhì)譜數(shù)據(jù)分析等,包括常規(guī)的序列比對(duì)和統(tǒng)計(jì)分析,直接訪問(wèn)網(wǎng)絡(luò)數(shù)據(jù)庫(kù)和本地?cái)?shù)據(jù)庫(kù),以及進(jìn)行RNA結(jié)構(gòu)預(yù)測(cè)和多種圖形的可視化等。本書(shū)從底層開(kāi)始進(jìn)行生物學(xué)數(shù)據(jù)常規(guī)分析,直觀地演示各種函數(shù)的使用方法和分析結(jié)果。
生物信息學(xué)是使用信息技術(shù)來(lái)處理生物學(xué)數(shù)據(jù)的學(xué)科,隨著MATLAB生物學(xué)工具箱的內(nèi)容和函數(shù)的日漸豐富,利用MATLAB處理生物學(xué)數(shù)據(jù)越來(lái)越便捷,通過(guò)本書(shū)的學(xué)習(xí),讀者可以更加深入的理解生物信息處理的基本原理和過(guò)程。
劉偉,博士,國(guó)防科技大學(xué)講師,主要研究方向?yàn)樯锞W(wǎng)絡(luò)的構(gòu)建與分析。擔(dān)任“生物信息學(xué)”和“生物信息概論”等多門課程的主講教師,發(fā)表教學(xué)論文6篇。主持國(guó)家自然科學(xué)基金項(xiàng)目1項(xiàng),發(fā)表論文20余篇,出版教材3部,獲得國(guó)家發(fā)明專利7項(xiàng)。
第1章 序列分析
1.1 計(jì)算和可視化序列統(tǒng)計(jì)特性
1.1.1 人類線粒體基因組
1.1.2 計(jì)算序列統(tǒng)計(jì)特性
1.1.3 考察開(kāi)放閱讀框(ORF)
1.1.4 考察注釋特征
1.1.5 提取和分析ND2和COX1蛋白
1.1.6 計(jì)算人類線粒體基因組中所有基因的密碼子使用頻率
1.2 兩兩序列比對(duì)
1.2.1 序列比對(duì)介紹
1.2.2 查找序列信息
1.2.3 確定蛋白質(zhì)編碼序列
1.2.4 比較氨基酸序列
1.2.5 序列比對(duì)結(jié)果分析
1.3 評(píng)估比對(duì)的統(tǒng)計(jì)學(xué)顯著性
1.3.1 從MATLAB空間中獲取NCBI數(shù)據(jù)
1.3.2 初步比對(duì)和全局比對(duì)
1.3.3 評(píng)估打分的顯著性
1.3.4 打分不具有統(tǒng)計(jì)學(xué)顯著性的例子
1.3.5 局部比對(duì)和隨機(jī)序列
1.4 全基因組比對(duì)
1.4.1 提取基因組信息
1.4.2 基因比對(duì)
1.4.3 考察分?jǐn)?shù)的含義
1.4.4 利用稀疏矩陣減少存儲(chǔ)量
1.4.5 查看同源基因
1.5 分析同義和非同義替換
1.5.1 介紹
1.5.2 提取HIV-1基因組的兩個(gè)序列信息
1.5.3 計(jì)算HIV-1基因的Ka/Ks比值
1.5.4 利用滑動(dòng)窗口計(jì)算Ka/Ks比值
1.5.5 GAG、POL和ENV基因的滑動(dòng)窗口分析
1.5.6 分析GP120的Ka/Ks比值和表位
1.6 追蹤禽流感病毒
1.6.1 禽流感病毒介紹
1.6.2 計(jì)算每個(gè)H5N1基因的Ka/Ks比值
1.6.3 針對(duì)HA蛋白質(zhì)進(jìn)行系統(tǒng)發(fā)育分析
1.6.4 利用多維變尺度可視化序列距離
1.6.5 在非洲和亞洲地圖上展示H5N1病毒的地理區(qū)域
1.6.6 利用谷歌地圖觀察地理區(qū)域
1.6.7 在谷歌地圖中查看文件
參考文獻(xiàn)
第2章 高通量測(cè)序
2.1 分析Illumina/Solexa下一代測(cè)序數(shù)據(jù)
2.1.1 簡(jiǎn)介
2.1.2 讀取_sequence.txt(FASTQ)文件
2.1.3 考察序列讀數(shù)的長(zhǎng)度分布
2.1.4 考察序列片段的堿基組成
2.1.5 考察質(zhì)量打分分布
2.1.6 在標(biāo)準(zhǔn)之間轉(zhuǎn)換質(zhì)量打分
2.1.7 根據(jù)質(zhì)量打分進(jìn)行過(guò)濾和去除
2.1.8 統(tǒng)計(jì)讀數(shù)出現(xiàn)概況
2.1.9 識(shí)別人造的均聚物
2.2 識(shí)別RNA-seq數(shù)據(jù)中差異表達(dá)的基因
2.2.1 RNA-seq技術(shù)介紹
2.2.2 前列腺癌癥數(shù)據(jù)集
2.2.3 為目標(biāo)基因建立一個(gè)注釋對(duì)象
2.2.4 輸入匹配的短讀數(shù)匹配數(shù)據(jù)
2.2.5 確定數(shù)字化基因表達(dá)
2.2.6 推斷RNA表達(dá)的差異信號(hào)
2.2.7 估計(jì)文庫(kù)規(guī)模因子
2.2.8 估計(jì)基因豐度
2.2.9 估計(jì)負(fù)二項(xiàng)式分布參數(shù)
2.2.10 經(jīng)驗(yàn)累計(jì)分布函數(shù)
2.2.11 測(cè)試差異表達(dá)
2.3 分析人類末端腸道微生物
2.3.1 人類末端腸道菌群簡(jiǎn)介
2.3.2 成人遠(yuǎn)端腸道微生物分類剖析
2.3.3 結(jié)合分類分布和基本分類
2.3.4 基于KEGG類進(jìn)行功能對(duì)比分析
2.3.5 基于COG分類進(jìn)行功能對(duì)比分析
2.3.6 基于功能表示集中微生物
2.4 分析馬尾藻樣本的宏基因組
2.4.1 簡(jiǎn)介
2.4.2 讀取BLAST命中報(bào)告
2.4.3 過(guò)濾BLAST命中次數(shù)
2.4.4 內(nèi)存匹配的分類學(xué)數(shù)據(jù)文件
2.4.5 用分類學(xué)信息注釋BLAST報(bào)告
2.4.6 根據(jù)學(xué)名為BLAST命中分類
2.4.7 保存注釋的BLAST報(bào)告
2.4.8 確定BLAST命中次數(shù)的分類學(xué)分布
2.4.9 濾除孤立分配
2.4.10 繪制BLAST命中的分類學(xué)分布
2.4.11 將分析局限至每個(gè)查詢的最佳命中
2.4.12 分類節(jié)點(diǎn)信息的內(nèi)存映射
2.4.13 根據(jù)更高的分類學(xué)目劃分BLAST命中
2.4.14 以圖的形式表示分類學(xué)分布
2.5 研究基因組規(guī)模的DNA甲基化譜差異
2.5.1 簡(jiǎn)介
2.5.2 數(shù)據(jù)集
2.5.3 為BAM格式文件創(chuàng)建MATLAB接口
2.5.4 關(guān)聯(lián)CpG島和DNA甲基化
2.5.5 序列數(shù)據(jù)的統(tǒng)計(jì)建模
2.5.6 識(shí)別顯著的甲基化區(qū)域
2.5.7 尋找具有顯著甲基化啟動(dòng)子區(qū)域的基因
2.5.8 尋找顯著甲基化的基因內(nèi)部區(qū)域
2.5.9 甲基化模式的差異分析
參考文獻(xiàn)
第3章 芯片數(shù)據(jù)分析
3.1 芯片數(shù)據(jù)可視化
3.1.1 考察微陣列數(shù)據(jù)
3.1.2 微陣列數(shù)據(jù)的空間圖
3.1.3 微陣列的統(tǒng)計(jì)參數(shù)
3.1.4 微陣列數(shù)據(jù)的散點(diǎn)圖
3.2 分析Affymetrix芯片數(shù)據(jù)
3.2.1 關(guān)于Affymetrix數(shù)據(jù)文件
3.2.2 顯示圖像文件
3.2.3 基因名稱和探針集ID
3.3 分析芯片數(shù)據(jù)并識(shí)別差異表達(dá)的基因
3.3.1 芯片數(shù)據(jù)集簡(jiǎn)介
3.3.2 下載表達(dá)數(shù)據(jù)
3.3.3 過(guò)濾表達(dá)數(shù)據(jù)
3.3.4 識(shí)別差異的基因表達(dá)
3.3.5 采用基因本體注釋上調(diào)基因
3.3.6 尋找通路中的差異表達(dá)基因
3.4 通過(guò)分析Affymetrix SNP芯片研究DNA副本數(shù)變化
3.4.1 簡(jiǎn)介
3.4.2 數(shù)據(jù)集
3.4.3 獲取SNP芯片的探針?biāo)綌?shù)據(jù)
3.4.4 輸入和轉(zhuǎn)換數(shù)據(jù)集
3.4.5 探針強(qiáng)度標(biāo)準(zhǔn)化
3.4.6 探針?biāo)降母乓?br />
3.4.7 獲取SNP探針信息
3.4.8 原始拷貝數(shù)估計(jì)
3.4.9 過(guò)濾和排序
3.4.10 PCR片段長(zhǎng)度標(biāo)準(zhǔn)化
3.4.11 CN基因譜
3.4.12 SCLS樣本的8q擴(kuò)增
3.4.13 CN獲得/缺失匯總圖
3.5 芯片數(shù)據(jù)的基因本體富集分析
3.5.1 簡(jiǎn)介
3.5.2 基因本體功能舉例
3.5.3 通過(guò)聚類分析篩選一組感興趣的基因子集
3.5.4 獲取酵母基因組數(shù)據(jù)庫(kù)中的注釋基因
3.5.5 基因芯片中被注釋的基因數(shù)目
3.5.6 觀察GO注釋的出現(xiàn)概率
3.5.7 最顯著條目的進(jìn)一步分析
參考文獻(xiàn)
第4章 質(zhì)譜數(shù)據(jù)分析
4.1 原始質(zhì)譜數(shù)據(jù)的預(yù)處理
4.1.1 下載數(shù)據(jù)
4.1.2 譜的重采樣
4.1.3 基線校正
4.1.4 譜排列
4.1.5 譜圖標(biāo)準(zhǔn)化
4.1.6 去除峰噪聲
4.1.7 采用波形降噪方法尋找峰值
4.1.8 分段:用層次聚類合并譜峰
4.1.9 動(dòng)態(tài)規(guī)劃分割
4.2 采用順序和并行計(jì)算實(shí)現(xiàn)譜的批量處理
4.2.1 簡(jiǎn)介
4.2.2 設(shè)置數(shù)據(jù)倉(cāng)庫(kù)
4.2.3 順序分批處理
4.2.4 基于多核計(jì)算機(jī)的并行批處理
4.2.5 基于分布計(jì)算的并行批處理
4.2.6 異步并行處理
4.2.7 后期處理
4.3 顯著性特征識(shí)別以及蛋白質(zhì)譜分類
4.3.1 簡(jiǎn)介
4.3.2 樣本可視化
4.3.3 關(guān)鍵特征排序
4.3.4 基于線性判別分析的盲分類
4.3.5 利用PCA/LDA進(jìn)行數(shù)據(jù)降維
4.3.6 特征選擇子集的隨機(jī)搜索
4.3.7 利用評(píng)估集來(lái)評(píng)估選擇特征的質(zhì)量
4.3.8 可替換的統(tǒng)計(jì)學(xué)習(xí)方法
4.4 采用遺傳算法尋找質(zhì)譜數(shù)據(jù)特征
4.4.1 簡(jiǎn)介
4.4.2 導(dǎo)入本地質(zhì)譜數(shù)據(jù)到MATLAB
4.4.3 建立遺傳算法的適應(yīng)度函數(shù)
4.4.4 建立初始種群
4.4.5 設(shè)定遺傳算法選項(xiàng)
4.4.6 運(yùn)行GA尋找20個(gè)具有可判別性的特征
4.4.7 顯示具有判別性的特征
參考文獻(xiàn)
第5章 可視化工具
5.1 聚類結(jié)果可視化
5.1.1 數(shù)據(jù)導(dǎo)入
5.1.2 聚類
5.1.3 查看和更改聚類選項(xiàng)
5.1.4 數(shù)據(jù)集的行列聚類
5.1.5 對(duì)熱圖的操作
5.1.6 操作系統(tǒng)樹(shù)
5.1.7 改變配色方案和顯示范圍
5.1.8 5000個(gè)顯著基因的聚類
5.2 分子三維結(jié)構(gòu)的可視化
5.2.1 泛素結(jié)構(gòu)介紹
5.2.2 泛素分子顯示
5.2.3 對(duì)分子進(jìn)行旋轉(zhuǎn)和放大
5.2.4 評(píng)估結(jié)構(gòu)中的氨基酸電荷分布
5.2.5 研究結(jié)構(gòu)的疏水性譜
5.2.6 測(cè)量原子距離
5.2.7 展示和標(biāo)注泛素結(jié)構(gòu)中的賴氨酸殘基
5.2.8 檢查泛素中的異肽鍵
5.2.9 泛素比對(duì)和SUMO序列
5.2.10 將泛素和SUMO的結(jié)構(gòu)疊加
5.3 相互作用數(shù)據(jù)可視化
5.3.1 將進(jìn)化樹(shù)表示為圖
5.3.2 改變BIOGRAGH對(duì)象的屬性
5.3.3 繪制自定義節(jié)點(diǎn)
5.4 圖論函數(shù)
5.4.1 從SimBiology模型創(chuàng)建一個(gè)圖
5.4.2 可視化圖
5.4.3 使用圖論函數(shù)
5.4.4 尋找節(jié)點(diǎn)pA與pC之間的最短路徑
5.4.5 遍歷圖
5.4.6 尋找圖中的連通部分
5.4.7 模擬移除一個(gè)反應(yīng)
參考文獻(xiàn)
第6章 外部數(shù)據(jù)庫(kù)和程序調(diào)用
6.1 連接本地?cái)?shù)據(jù)庫(kù)
6.1.1 檢查數(shù)據(jù)庫(kù)工具箱
6.1.2 為原始數(shù)據(jù)庫(kù)建立一個(gè)備份
6.1.3 為MATLAB配置數(shù)據(jù)庫(kù)
6.1.4 連接到數(shù)據(jù)庫(kù)
6.1.5 獲取數(shù)據(jù)庫(kù)信息
6.1.6 從GenBank收集序列數(shù)據(jù)并插入數(shù)據(jù)庫(kù)
6.1.7 核對(duì)導(dǎo)入數(shù)據(jù)的序列
6.1.8 更新數(shù)據(jù)庫(kù)中的數(shù)據(jù)
6.1.9 為數(shù)據(jù)庫(kù)添加比對(duì)信息
6.1.10 檢索比對(duì)
6.1.11 為數(shù)據(jù)增加BLAST報(bào)表信息
6.1.12 對(duì)序列進(jìn)行BLAST搜索
6.1.13 使用可視化的查詢構(gòu)建器將信息導(dǎo)入MATLAB
6.2 連接KEGG的API網(wǎng)絡(luò)服務(wù)器
6.2.1 利用信息操作來(lái)展示通路數(shù)據(jù)庫(kù)中的統(tǒng)計(jì)參數(shù)
6.2.2 利用conv操作符實(shí)現(xiàn)KEGG標(biāo)識(shí)符與外部標(biāo)識(shí)符的相互轉(zhuǎn)換
6.2.3 提取KEGG分類學(xué)數(shù)據(jù)庫(kù)的物種列表
6.2.4 獲取KEGG通路數(shù)據(jù)庫(kù)中人類的通路列表
6.2.5 為通路染色
6.2.6 展示靜態(tài)圖
6.3 調(diào)用Bioperl函數(shù)
6.3.1 簡(jiǎn)介
6.3.2 訪問(wèn)序列信息
6.3.3 從MATLAB調(diào)用Perl程序
6.3.4 在Perl程序中調(diào)用MATLAB函數(shù)
6.3.5 生物信息學(xué)工具箱中的蛋白質(zhì)分析工具
參考文獻(xiàn)