機器學習的研究不僅是人工智能領域的核心問題,而且已成為近年來計算機科學與技術領域中最活躍的研究分支之一。
本書主要圍繞基于神經網絡的學習、強化學習和進化學習三個方面闡述機器學習理論、方法及其應用,共三部分13章。第一部分是神經網絡學習及其在復雜非線性系統中的控制,包括基于時間差分的神經網絡預測控制,基于徑向基函數網絡的機械手迭代學習控制,自適應T_S型模糊徑向基函數網絡等。第二部分是強化學習的大規模或連續空間表示問題,包括基于強化學習的白適應PID控制,基于動態回歸網絡的強化學習控制,基于自適應模糊徑向基函數網絡、支持向量機和高斯過程的連續空間強化學習,基于圖上測地高斯基函數的策略迭代強化學習等。第三部分則是對分布估計優化算法進行研究,包括多目標優化問題的差分進化一分布估計算法,基于細菌覓食行為的分布估計算法在預測控制中的應用,一種多樣性保持的分布估計算法及其在支持向量機參數選擇問題中的應用等。為便于應用本書闡述的算法,書后附有部分機器學習算法MATLAB源程序。
本書可供理工科高等院校計算機科學、信息科學、人工智能和自動化技術及相關專業的教師及研究生閱讀,也可供自然科學和工程技術領域中的研究人員參考。
本書全面、系統地介紹了機器學習的基本概念、發展歷史、分類及部分機器學習的主要策略等,并重點圍繞當前機器學習領域的熱點問題展開討論,包括:神經網絡學習及其在復雜非線性系統控制中的應用、大規模或連續空間下的強化學習以及分布估計優化算法等。此外,為理論聯系實際和便于讀者理解算法思想,書中還介紹了機器學習方法的若干典型應用,如機械手軌跡跟蹤控制、小車爬山最短時間控制、倒立擺平衡控制、小船過河控制、機器人迷宮行走以及復雜數值函數優化問題等。
《智能科學技術著作叢書》序
序
前言
第1章 機器學習概述
1.1 機器學習的概念
1.2 機器學習的發展歷史
1.3 機器學習的分類
1.3.1 基于學習策略的分類
1.3.2 基于學習方法的分類
1.3.3 基于學習方式的分類
1.3.4 基于數據形式的分類
1.3.5 基于學習目標的分類
1.4 機器學習的主要策略
1.4.1 基于神經網絡的學習
1.4.2 進化學習
第2章 基于時間差分的神經網絡預測控制
預測控制是20世紀70年代中后期在歐美工業領域內出現的,它是在新型計算機控制算法基礎上發展起來的,是一種基于模型的先進控制技術,亦稱為模型預測控制(model predictive control,MPC)。預測控制技術的產生有著深刻的實際背景,這主要是由于被控對象日益復雜,一般的控制理論對信息描述的要求和優化模式都難以滿足復雜工業過程的要求,而預測控制對模型的要求低,能兼顧被控對象的非線性、時變性因素及干擾的影響,不但跟蹤性能好,而且對模型失配有較強的魯棒性。因此,預測控制作為一種面向復雜系統的控制策略,一開始就受到國內外控制界眾多學者的重視,并在理論研究和實際應用方面取得了不少成果。在過去的幾十年里,非線性預測控制已經被成功地應用于石油、化工以及電力等工業過程控制中,這些過程具有較強的非線性,用一般線性控制模型和方法難以得到良好的控制品質。
預測控制的基本思想是充分利用過去時刻的輸入、輸出信息建立預測模型,然后利用預測模型對系統未來的輸出做出預測,從而通過長時域的優化獲得最優的控制量,實現對被控對象的有效控制。它的主要特點是:預測模型的多樣性,滾動優化的時序性,在線校正的適應性以及工業過程的實用性。目前,預測控制對于控制變化比較緩慢的生產過程或對象,一般均能取得很好的效果,但是,對于機電類快變過程的快速跟蹤控制問題,如機器人、火炮或雷達的目標跟蹤和冶金軋制過程等,由于控制算法過于復雜,運算量大,往往難以在線實時控制。因此,有必要尋找一種算法簡單、控制迅速有效的預測控制方法。
……