《北京理工大學(xué)教育基金會·教授文庫:生物信息處理技術(shù)與方法》共分8章,主要內(nèi)容包括生物信息處理知識基礎(chǔ)、數(shù)據(jù)處理方法基礎(chǔ)、序列比對方法、系統(tǒng)發(fā)生樹構(gòu)建方法、基因芯片數(shù)據(jù)處理方法、RNA結(jié)構(gòu)預(yù)測方法、蛋白質(zhì)結(jié)構(gòu)預(yù)測方法、生物分子網(wǎng)絡(luò)構(gòu)建方法等。
《北京理工大學(xué)教育基金會·教授文庫:生物信息處理技術(shù)與方法》可用作計算機(jī)科學(xué)與技術(shù)、生命信息工程、軟件工程、通信與信息系統(tǒng)等相關(guān)學(xué)科、專業(yè)的教材,也可作為參考書直接使用,同時也可供科研人員參考和有興趣者自學(xué)使用。
羅森林,男,漢族,1968年2月出生,博士(后),教授,博導(dǎo)。1998年獲得北京理工大學(xué)電子工程系通信與電子系統(tǒng)博士學(xué)位;2000年10月于中國科學(xué)院計算技術(shù)研究所計算機(jī)科學(xué)博士后流動站出站后,到北京理工大學(xué)工作至今。現(xiàn)為北京理工大學(xué)信息系統(tǒng)及安全對抗實驗中心主任,學(xué)科、專業(yè)責(zé)任教授,教育部特色專業(yè)、北京市特色專業(yè)、國防特色專業(yè)、工業(yè)和信息化部重點專業(yè)建設(shè)負(fù)責(zé)人。
科研方向為網(wǎng)絡(luò)安全、數(shù)據(jù)挖掘、文本安全和媒體安全,承擔(dān)省部級以上科研項目三十余項。出版著作和教材9部,其中國家級規(guī)劃教材3部,北京市精品教材4部。獲國家級和省部級科研、教學(xué)成果獎及質(zhì)量工程項目二十余項。
第1章 緒論
1.1 產(chǎn)生背景和意義
1.2 知識基礎(chǔ)
1.3 發(fā)展簡史和現(xiàn)狀
1.4 數(shù)據(jù)庫及技術(shù)工具
1.5 技術(shù)難點與發(fā)展趨勢
1.6 本章小結(jié)
思考題
第2章 數(shù)據(jù)處理方法基礎(chǔ)
2.1 引言
2.2 概率論基礎(chǔ)
2.3 數(shù)據(jù)預(yù)處理
2.4 數(shù)據(jù)分類分析
2.5 數(shù)據(jù)聚類分析
2.6 關(guān)聯(lián)規(guī)則發(fā)現(xiàn)
2.7 隱馬爾科夫模型
2.8 數(shù)據(jù)處理效果評價
2.9 高維數(shù)據(jù)處理
2.10 本章小結(jié)
思考題
第3章 序列比對方法
3.1 引言
3.2 序列比對知識基礎(chǔ)
3.3 主要技術(shù)方法及分析
3.4 雙序列比對
3.5 多序列比對
3.6 應(yīng)用實例分析
3.7 本章小結(jié)
思考題
第4章 系統(tǒng)發(fā)生樹構(gòu)建方法
4.1 引言
4.2 系統(tǒng)發(fā)生樹知識基礎(chǔ)
4.3 主要技術(shù)方法及分析
4.4 基于距離的構(gòu)建方法
4.5 基于離散特征的構(gòu)建方法
4.6 Quartet方法
4.7 應(yīng)用實例分析
4.8 本章小結(jié)
思考題
第5章 基因芯片數(shù)據(jù)處理方法
5.1 引言
5.2 基因芯片知識基礎(chǔ)
5.3 主要技術(shù)方法及分析
5.4 基因芯片數(shù)據(jù)預(yù)處理
5.5 基因芯片數(shù)據(jù)聚類分析
5.6 基因芯片數(shù)據(jù)分類分析
5.7 應(yīng)用實例分析
5.8 本章小結(jié)
思考題
第6章 RNA結(jié)構(gòu)預(yù)測方法
6.1 引言
6.2 RNA知識基礎(chǔ)
6.3 主要技術(shù)方法及分析
6.4 比較序列分析方法
6.5 動態(tài)規(guī)劃算法
6.6 組合優(yōu)化算法
6.7 啟發(fā)式算法
6.8 應(yīng)用實例分析
6.9 本章小結(jié)
思考題
第7章 蛋白質(zhì)結(jié)構(gòu)預(yù)測方法
7.1 引言
7.2 蛋白質(zhì)結(jié)構(gòu)知識基礎(chǔ)
7.3 主要技術(shù)方法及分析
7.4 蛋白質(zhì)二級結(jié)構(gòu)預(yù)測
7.5 蛋白質(zhì)三級結(jié)構(gòu)預(yù)測
7.6 應(yīng)用實例分析
7.7 本章小結(jié)
思考題
第8章 生物分子網(wǎng)絡(luò)構(gòu)建方法
8.1 引言
8.2 生物分子網(wǎng)絡(luò)知識基礎(chǔ)
8.3 主要技術(shù)方法及分析
8.4 基因調(diào)控網(wǎng)絡(luò)構(gòu)建方法
8.5 蛋白質(zhì)互作網(wǎng)絡(luò)構(gòu)建方法
8.6 應(yīng)用實例分析
8.7 本章小結(jié)
思考題
參考文獻(xiàn)
《北京理工大學(xué)教育基金會·教授文庫:生物信息處理技術(shù)與方法》:
(2)空空間現(xiàn)象
以正態(tài)分布的數(shù)據(jù)為例,一個正態(tài)分布可以用期望值L和標(biāo)準(zhǔn)差R來表示。數(shù)據(jù)點與期望值之間的距離服從高斯分布,但與期望點的相對方位是隨機(jī)選取的。應(yīng)該注意的是,相對于一個點的可能的方向的數(shù)目,也是隨著維數(shù)的增大而呈指數(shù)級增長。這樣一來,數(shù)據(jù)空間中的其他數(shù)據(jù)與中心點之間的距離雖然仍然服從同樣的分布,但數(shù)據(jù)點之間的距離也還會隨著維數(shù)的增大而增加。如果考慮數(shù)據(jù)集的密度,就會發(fā)現(xiàn),雖然可能沒有一個點離中心點的距離很近,但在中心點還是會出現(xiàn)一個最大值。這種在高維空間中,在空區(qū)域中,點的密度可能會很高的現(xiàn)象即被稱為“空空間現(xiàn)象”。
(3)維災(zāi)
Bellman第一次提出了“維災(zāi)”這一術(shù)語。它最初的含義是,不可能在一個離散的多維網(wǎng)格上用蠻力搜索去優(yōu)化一個有著很多變量的函數(shù)。這是因為網(wǎng)格的數(shù)目會隨著維數(shù)也就是變量數(shù)目的增長呈指數(shù)級增長。隨著時間的推移,“維災(zāi)”這一術(shù)語也用來泛指在數(shù)據(jù)分析中遇到的由于變量(屬性)過多而引起的所有問題。這些問題在信息檢索領(lǐng)域主要表現(xiàn)在兩個方面:一方面,隨著維數(shù)的升高,索引結(jié)構(gòu)的修剪效率迅速下降,當(dāng)維數(shù)增加到一定數(shù)量時,采用索引結(jié)構(gòu)還不如順序掃描;另一方面,在高維空間中,由于查詢點到其最近鄰和最遠(yuǎn)鄰在很多情況下幾乎是等距離的,最鄰近的概念常常會失去意義。
針對高維數(shù)據(jù)的特點,主要從以下幾個方面對高維數(shù)據(jù)進(jìn)行分析:
(1)高維空間中的距離函數(shù)或相似性度量函數(shù)
距離函數(shù)和相似性度量函數(shù)在很多數(shù)據(jù)挖掘算法中扮演著非常重要的角色,常常用來衡量對象之間的差異程度和相似程度。由于“維災(zāi)”與傳統(tǒng)方法中采用Lk范數(shù)作為距離函數(shù)有關(guān),因此,通過重新定義合適的距離函數(shù)或相似性度量函數(shù)可以避開“維災(zāi)”的影響。