大數據時代的機器學習和數據挖掘技術的作用日漸重要,受到了廣泛的關注。本書立足于工程應用,將免疫智能計算方法引入機器學習領域,致力于研究基于生物免疫原理的機器學習軟計算方法,以免疫計算智能的基本原理為線索,對其研究狀況加以系統性的論述,從理論、算法構建及工程應用等方面對免疫機器學習進行介紹和分析。針對關聯規則挖掘、數據分類、數據聚類、屬性約簡等機器學習及生物信息大數據挖掘等具體問題,提出一系列新方法,并結合深度學習和張量計算探討了機器學習軟計算方法的*發展動態和方向。
前言
近些年,隨著信息技術的飛速發展,以博客、社交網絡、基于位置(LBS)服務為代表的新型信息發布方式的不斷涌現,以及云計算、物聯網等技術的興起,在商務貿易和政府事務電子化、大規模工業生產過程中的智能監控和診斷、醫療領域的計算機診斷管理及科學計算等應用領域,產生了不斷增長的海量數據源。數據正以前所未有的速度增長和累積,人類收集數據、存儲數據的能力得到了極大提高,如何實現數據的智能化處理,從而充分利用數據中蘊含的知識與價值,已成為當前學術界與產業界的共識。在這樣的大趨勢下,人工智能、機器學習作為一種主流的智能數據處理技術,其作用日漸重要并受到了廣泛關注。
機器學習是人工智能的核心研究領域之一。人工智能的根本在于智能如何為機器賦予智能,而機器學習則是部署支持人工智能的計算方法。人工智能是科學,機器學習是讓機器變得更加智能的算法。也就是說,機器學習成就了人工智能。基于人工智能所發展的仿生計算智能又為機器學習實踐提供了強有力的工具。一般而言,經驗對應于歷史數據(如互聯網數據、科學實驗數據等),系統對應于數據模型(如決策樹、支持向量機等),而性能則是模型對新數據的處理能力(如分類和預測性能等)。因此,機器學習的根本任務是信息和數據的智能分析與建模。
智能信息處理就是模擬人或自然界其他生物處理信息的行為,建立處理復雜系統信息的理論、算法和系統的方法和技術。其中,基于生物免疫機制發展而來的免疫計算智能信息處理技術是一門新興的交叉學科。它與人工智能、人工生命科學、自動控制、運籌學、計算機科學、信息論、應用數學、仿生學、腦科學等有著密切的關系,是相關學科相互結合與滲透的產物。其主要面對的是不確定性系統和不確定性現象的信息處理問題,在機器學習、模式識別、復雜系統建模、分析和決策、系統控制、系統優化等領域具有廣闊的應用前景。生物免疫系統是生命系統的主系統之一,免疫系統通過從不同種類的抗體結構中構造自己-非己非線性自適應網絡,在處理動態變化環境中起著重要作用;同時它又具有高度自適應、分布、自組織等特性,蘊含著豐富的信息處理機理。免疫計算智能正是借鑒生物免疫系統信息處理機制而發展起來的智能信息處理技術。它具有噪聲忍耐、無監督學習、模式識別、清晰的知識表達和學習記憶等進化學習機理,同時它吸取了傳統進化計算、分類器、神經網絡等的優點,從而提供了一種解決復雜機器學習問題的新選擇。從工程上講,它具有結合先驗知識和免疫系統的適應能力;從信息科學講,它具有強壯的魯棒性和預處理能力。應當指出的是,基于免疫計算的機器學習和信息處理機制具有的多樣性及其遺傳機理,不僅可以用于全局進化的探索,改善已有進化算法中對局部探索不太有效的情況,而且在避免早熟及處理多準則和約束問題方面顯示出良好的潛力。因而可能彌補神經網絡等
黑箱式學習模型難以表達學習知識的缺陷,有助于人們對問題的論證,同時將免疫信息處理與其他計算智能方法的集成可用于解決其他智能系統等難以解決的復雜問題。
因此,為讀者提供人工智能領域的基于免疫計算的機器學習相關算法、技術和問題解決過程中的實踐經驗,是本書撰寫的宗旨。本書以各類免疫機器學習方法和算法為核心,在概括了人工智能與機器學習、機器學習與免疫計算等概念的基礎上,對現代機器學習技術和發展進行了簡要介紹。重點介紹了免疫計算的生物學機制,以及各類免疫機器學習方法在數據分類、數據聚類、關聯挖掘、數據降維、規則約簡及生物大數據中的具體應用。
全書分為七章,內容包括:第1
章緒論部分的人工智能、機器學習及免疫計算概念;第2 章主流機器學習技術與方法;第3 章免疫計算的基礎原理;第4 章免疫關聯規則挖掘方法;第5 章小生境免疫粗糙集屬性約簡方法;第6 章免疫陰性選擇數據分類器;第7 章免疫網絡在生物大數據中的應用。最后,還探討了大數據背景下機器學習技術的發展方向,以及進一步研究的方向和面臨的問題。
本書得到了國家留學基金項目、國家社科基金項目(14BJY066)、教育部人文社科青年項目(12YJCZH233)、湖南省自然科學基金項目(2016JJ2069)、國防科學技術大學博士后基金,以及廣西跨境電商智能信息處理重點實驗室培育基地等多方面的資助。同時,作者在科研和本書的撰寫過程中得到了美國布蘭迪斯大學Professor Hong、美國麻省理工大學Professor Yue 的支持和幫助,在此謹致以最誠摯的感謝。同時感謝國防科學技術大學張維明教授、廣西財經學院王四春教授的指導和幫助。書中給出了主要算法實現機制和相應標準測試問題,便于讀者使用和研究。另外,本書還參考和引用了一些論文和資料,在此也一并表示衷心的感謝。
感謝作者家人的大力支持和理解,將此書獻給小女Penny,在美國訪學一年中,是你陪伴著我完成了本書。最后感謝電子工業出版社的朱雨萌老師在本書出版過程中給予的大力幫助。
由于免疫計算及機器學習技術是一門新興交叉學科,很多理論方法與應用技術問題還有待進一步深入探索和發展,加上作者學識所限,寫作時間又十分倉促,因而書中難免存在不足之處,敬請專家和讀者們批評指正。
作者
2017 年3 月
于美國
波士頓
徐雪松,副教授,湖南大學控制科學與工程專業博士,國防科學技術大學管理科學與工程專業博士后。美國布蘭迪斯大學Volan National Center for Complex Systems訪問學者、美國哈佛大學
Data Science Center 研究員、國家高級項目管理師、數據分析師。湖南省青年骨干教師培養對象,湖南商學院麓山青年學者。現為湖南省區域戰略與規劃研究基地低碳技術經濟研究中心副主任、湖南省物聯網協會理事成員、IEEE Member、ACM Member及計算機學會會員。
主要從事機器學習、復雜系統智能決策和方法研究工作。主持國家、教育部及省級課題11項,出版學術專著2部,主編省十二五規劃教材1部。在國際SCI源刊及國內《電子學報》《儀器儀表學報》
《應用數學學報》
《情報學報》 《統計研究》 《系統工程理論與實踐》《控制與決策》等刊物發表論文40余篇。擔任國際SCI期刊Asian Journal of Control、Applied Mathematics
& Information Sciences及《自動化學報》等知名期刊審稿人。授權國家發明專利2項、實用新型專利2項和國家軟件著作權5項。