本書主要介紹了多智能體機(jī)器人強(qiáng)化學(xué)習(xí)的相關(guān)內(nèi)容。全書共6章,首先介紹了幾種常用的監(jiān)督式學(xué)習(xí)方法,在此基礎(chǔ)上,介紹了單智能體強(qiáng)化學(xué)習(xí)中的學(xué)習(xí)結(jié)構(gòu)、值函數(shù)、馬爾科夫決策過程、策略迭代、時(shí)間差分學(xué)習(xí)、Q學(xué)習(xí)和資格跡等概念和方法。然后,介紹了雙人矩陣博弈問題、多人隨機(jī)博弈學(xué)習(xí)問題,并通過3種博弈游戲詳細(xì)介紹了納什均衡、學(xué)習(xí)算法、學(xué)習(xí)自動(dòng)機(jī)、滯后錨算法等內(nèi)容,并提出LR-I滯后錨算法和指數(shù)移動(dòng)平均Q學(xué)習(xí)算法等,并進(jìn)行了分析比較。接下來,介紹了模糊系統(tǒng)和模糊學(xué)習(xí),并通過仿真示例詳細(xì)分析算法。后,介紹了群智能學(xué)習(xí)進(jìn)化以及性格特征概念和應(yīng)用。全書內(nèi)容豐富,重點(diǎn)突出。
適讀人群 :事機(jī)器學(xué)習(xí)、多智能體協(xié)同控制等領(lǐng)域的工程技術(shù)人員,高等院校相關(guān)專業(yè)本科生、研究生以及教師
“多智能體”——一般專指多智能體系統(tǒng)( Multi Agent System,MAS)或多智能體技術(shù)( Multi Agent Technology,MAT)。多智能體系統(tǒng)是分布式人工智能的一個(gè)重要分支,是20世紀(jì)末~ 21世紀(jì)初國(guó)際上人工智能的前沿學(xué)科。多智能體學(xué)習(xí)相關(guān)的研究領(lǐng)域已成為人工智能發(fā)展的熱點(diǎn)。
《多智能體機(jī)器學(xué)習(xí):強(qiáng)化學(xué)習(xí)方法》提供了一種多智能體不同學(xué)習(xí)方法的框架。同時(shí)還提供了多智能體微分博弈中的新進(jìn)展以及在博弈理論和移動(dòng)機(jī)器人中應(yīng)用的全面概述。本書向讀者介紹了多智能體機(jī)器學(xué)習(xí)的不同方法。主要包括單智能體強(qiáng)化學(xué)習(xí)、隨機(jī)博弈和馬爾科夫博弈、自適應(yīng)模糊控制和推理、時(shí)間差分學(xué)習(xí)和Q學(xué)習(xí)。
具有如下特點(diǎn):
?全面涵蓋了多人博弈、微分博弈和博弈理論;
?基于梯度算法的簡(jiǎn)單策略學(xué)習(xí)方法;
?多人矩陣博弈和隨機(jī)博弈的詳細(xì)算法和示例;
?群機(jī)器人和性格特征進(jìn)化中的學(xué)習(xí)示例。
強(qiáng)化學(xué)習(xí)是近年來在機(jī)器學(xué)習(xí)領(lǐng)域非常熱門的研究方向,尤其在多智能體機(jī)器學(xué)習(xí)中,若智能體的某個(gè)行為策略獲得強(qiáng)化信號(hào),則智能體以后產(chǎn)生這個(gè)行為策略的趨勢(shì)便會(huì)加強(qiáng),這對(duì)于群體智能具有十分重要的意義,是一種重要的機(jī)器學(xué)習(xí)方法,在智能控制機(jī)器人及分析預(yù)測(cè)等領(lǐng)域有廣泛應(yīng)用。
《多智能體機(jī)器學(xué)習(xí):強(qiáng)化學(xué)習(xí)方法》對(duì)于研究人員、研究生和從事多智能體學(xué)習(xí)的相關(guān)人員以及在電子和計(jì)算機(jī)工程、計(jì)算機(jī)科學(xué)以及機(jī)械和航空工程領(lǐng)域的相關(guān)人員非常有用。
在現(xiàn)有的機(jī)器學(xué)習(xí)書籍中,較少有以強(qiáng)化學(xué)習(xí)的方法對(duì)多智能體機(jī)器學(xué)習(xí)進(jìn)行描述的,而有關(guān)強(qiáng)化學(xué)習(xí)的內(nèi)容,也往往只是在某些專業(yè)的機(jī)器學(xué)習(xí)書籍中在個(gè)別章節(jié)進(jìn)行闡述。本書以強(qiáng)化學(xué)習(xí)與協(xié)作策略在相關(guān)研究領(lǐng)域的應(yīng)用為主,側(cè)重協(xié)作策略的應(yīng)用,列舉了車輛路徑規(guī)劃、多播路由、供應(yīng)鏈管理等問題中的解決方案,多智能體及群體智能微分博弈中的新進(jìn)展以及在博弈理論和移動(dòng)機(jī)器人中的先進(jìn)應(yīng)用,而較少涉及強(qiáng)化學(xué)習(xí)理論的演化。
原 書 前 言
十年來,本人一直在教授自適應(yīng)控制課程。這門課程主要是講授系統(tǒng)辨識(shí)的常用經(jīng)典方法,并使用經(jīng)典的教材,例如Ljung\[1,2\]。該課程著重介紹了參考模型自適應(yīng)控制的常用方法以及基于Lyapunov技術(shù)的非線性自適應(yīng)控制方法。然而,這些理論已不再適用于當(dāng)前的工程實(shí)踐。因此,在本人的研究工作以及研究生課程的重點(diǎn)內(nèi)容中進(jìn)行了相應(yīng)調(diào)整,增加了自適應(yīng)信號(hào)處理的內(nèi)容,并融合了基于最小方均(LMS)算法的自適應(yīng)信道均衡和回聲消除的內(nèi)容。同時(shí),課程名稱也相應(yīng)地從“自適應(yīng)控制”變?yōu)椤白赃m應(yīng)與學(xué)習(xí)系統(tǒng)”。本人的研究工作仍主要集中于系統(tǒng)辨識(shí)和非線性自適應(yīng)控制在機(jī)器人方面的應(yīng)用。然而,直到21世紀(jì)初,才開始與機(jī)器人團(tuán)隊(duì)開展合作。目前,已能夠利用常用的機(jī)器人套件和低成本的微控制器來構(gòu)建可協(xié)同工作的若干個(gè)機(jī)器人。這使得“自適應(yīng)與學(xué)習(xí)系統(tǒng)” 的研究生課程內(nèi)容再次發(fā)生變化:減少了基于Lyapunov技術(shù)的非線性自適應(yīng)控制方面的理論知識(shí),取而代之的是有關(guān)強(qiáng)化學(xué)習(xí)的思想。這是一個(gè)全新的應(yīng)用領(lǐng)域,機(jī)器人團(tuán)隊(duì)必須要學(xué)會(huì)相互協(xié)作和競(jìng)爭(zhēng)。
目前,研究生課程主要是集中于采用基于遞歸最小二乘(RLS)算法的系統(tǒng)辨識(shí)、基于參考模型的自適應(yīng)控制(仍然采用Lyapunov技術(shù))、基于LMS算法的自適應(yīng)信號(hào)處理以及基于Q學(xué)習(xí)算法的強(qiáng)化學(xué)習(xí)。本書的前兩章簡(jiǎn)要介紹了上述思想,但也足以說明這些學(xué)習(xí)算法之間的聯(lián)系,以及它們之間的相同之處和不同之處。與這些內(nèi)容相關(guān)的其他材料可詳見文獻(xiàn)\[24\]。
由此,進(jìn)一步的研究工作開始著重于機(jī)器人團(tuán)隊(duì)如何學(xué)習(xí)以實(shí)現(xiàn)相互合作。這些研究工作用于驗(yàn)證機(jī)器人在合作搜索和救援以確保重要設(shè)施和邊界區(qū)域安全方面的應(yīng)用。同時(shí),也逐步開始關(guān)注強(qiáng)化學(xué)習(xí)和多智能體強(qiáng)化學(xué)習(xí)的研究。這些機(jī)器人就是具有學(xué)習(xí)能力的智能體。孩子們是如何學(xué)習(xí)玩捉人游戲的?人們是如何練習(xí)踢足球的?以及在追捕罪犯的過程中警察是如何協(xié)作的?應(yīng)該采用什么樣的策略?如何制定這些策略?當(dāng)和一群新朋友玩足球時(shí),如何能夠快速評(píng)估每個(gè)人的能力,并在比賽中采用特殊策略呢?
隨著研究團(tuán)隊(duì)開始致力于深入研究多智能體機(jī)器學(xué)習(xí)和博弈理論,逐漸發(fā)現(xiàn)盡管已有很多相關(guān)論文發(fā)表,但并不集中也不夠全面。雖然已有一些綜述性文章\[5\],但均未能充分說明這些不同方法的具體細(xì)節(jié)。本書旨在向讀者介紹一種特殊形式的機(jī)器學(xué)習(xí)。全書主要是關(guān)于多智能體機(jī)器學(xué)習(xí),同時(shí)也包括一般學(xué)習(xí)算法的核心內(nèi)容。學(xué)習(xí)算法的形式各不相同,然而往往都具有相似方法。在此,將著重比較這些方法的相同和不同之處。
本書的主要內(nèi)容是基于本人的研究工作,以及過去10年里所指導(dǎo)下的博士生、碩士生的研究工作。在此,特別感謝Sidney Givigi教授。Givigi教授為本書第6章中所介紹的主要思路和算法提供了堅(jiān)實(shí)基礎(chǔ)。另外,本書中還包含了Xiaosong(Eric)Lu博士的研究成果。其中,關(guān)于疆土守衛(wèi)部分的內(nèi)容主要來源于其博士論文。同時(shí),還有一些研究生也為本書做出了貢獻(xiàn),他們是Badr Al Faiya、Mostafa Awheda、Pascal De BeckCourcelle和Sameh Desouky。如果沒有研究小組中學(xué)生們的辛勤工作,本書是不可能完成的。
原 書 前 言
Howard M.Schwartz
于加拿大渥太華
2013年9月
譯 者 序
“多智能體”——一般專指多智能體系統(tǒng)( Multi Agent System,MAS)或多智能體技術(shù)( Multi Agent Technology,MAT)。多智能體系統(tǒng)是分布式人工智能的一個(gè)重要分支,是20世紀(jì)末~ 21世紀(jì)初國(guó)際上人工智能的前沿學(xué)科。多智能體學(xué)習(xí)相關(guān)的研究領(lǐng)域已成為人工智能發(fā)展的熱點(diǎn)。
本書主要介紹了多智能體學(xué)習(xí)的相關(guān)內(nèi)容,目的在于解決大型、復(fù)雜的現(xiàn)實(shí)問題,而解決這類問題已超出了單個(gè)智能體的能力。研究者主要研究智能體之間的交互通信、協(xié)調(diào)合作、沖突消解等方面,強(qiáng)調(diào)多個(gè)智能體之間的緊密群體合作,而非個(gè)體能力的自治和發(fā)揮,關(guān)于Lyapunov技術(shù)的非線性自適應(yīng)控制方面的理論材料被減少,取而代之的是有關(guān)強(qiáng)化學(xué)習(xí)的思想。強(qiáng)化學(xué)習(xí)的目標(biāo)是取得最大化的獎(jiǎng)勵(lì)(回報(bào))。強(qiáng)化學(xué)習(xí)和非監(jiān)督學(xué)習(xí)最有趣的部分就是獎(jiǎng)勵(lì)的選擇,這是一個(gè)全新的發(fā)展迅速的應(yīng)用領(lǐng)域。機(jī)器人團(tuán)隊(duì)必須要學(xué)會(huì)共同工作和相互競(jìng)爭(zhēng)。本書是一本專門介紹多智能體強(qiáng)化學(xué)習(xí)的著作。
本書中重點(diǎn)研究了雙人階段博弈和矩陣博弈問題。其中主要通過3個(gè)不同的博弈游戲:猜硬幣、石頭一剪刀一布和囚徒困境來進(jìn)行闡述。這些都被稱為矩陣博弈(matrixgames)或階段博弈(stage games)的游戲,因?yàn)樵谟螒蜻^程中沒有發(fā)生狀態(tài)轉(zhuǎn)移。本書沒有過于深入研究博弈論本身,而是專注于與這些游戲相關(guān)的學(xué)習(xí)算法。另外,作者還結(jié)合自己的教學(xué)實(shí)踐,探討了多機(jī)器人智能體的微分博弈問題,并通過“逃跑者一追捕者”博弈和“疆土防御”博弈進(jìn)行了深入討論。
需要指出的是,書中矩陣、矢量為保持與原書一致,并未使用黑斜體,請(qǐng)讀者注意。
本書第1~3章由譚勵(lì)翻譯,第4~6章由連曉峰翻譯,全書由連曉峰審校統(tǒng)稿,彭森、于嘉驥、李世明、李偉男、蔡有林、侯寶奇、竇超、張鵬、侯秀林、張欣、邵妍潔、張吉東、張丹瑤、趙辰等人也參與了部分內(nèi)容的翻譯。
由于譯者的水平有限,書中不當(dāng)或錯(cuò)誤之處懇請(qǐng)各位業(yè)內(nèi)專家學(xué)者和廣大讀者不吝賜教。
譯者
Howard M.Schwartz 博士,在加拿大魁北克蒙特利爾的麥吉爾大學(xué)獲得工學(xué)學(xué)士學(xué)位,在美國(guó)馬薩諸塞州劍橋麻省理工學(xué)院獲得碩士和博士學(xué)位,現(xiàn)為加拿大渥太華卡爾頓大學(xué)系統(tǒng)與計(jì)算機(jī)工程系的教授,研究領(lǐng)域包括自適應(yīng)和智能控制系統(tǒng)、機(jī)器人、機(jī)器學(xué)習(xí)、多智能體學(xué)習(xí)、系統(tǒng)辨識(shí)和狀態(tài)估計(jì)。
目 錄
譯者序
原書前言
第1章監(jiān)督式學(xué)習(xí)概述
1 1 LS算法
1 2 RLS算法
1 3 LMS算法
1 4隨機(jī)逼近法
參考文獻(xiàn)
第2章單智能體強(qiáng)化學(xué)習(xí)
2 1簡(jiǎn)介
2 2 n臂賭博機(jī)問題
2 3學(xué)習(xí)結(jié)構(gòu)
2 4值函數(shù)
2 5最優(yōu)值函數(shù)
2 5.1網(wǎng)格示例
2 6 MDP
2 7學(xué)習(xí)值函數(shù)
2 8策略迭代
2 9 時(shí)間差分學(xué)習(xí)
2 10狀態(tài)一行為函數(shù)的時(shí)間差分學(xué)習(xí)
2 11 Q學(xué)習(xí)
2 12資格跡
參考文獻(xiàn)
第3章雙人矩陣博弈學(xué)習(xí)
3 1矩陣博弈
3 2雙人矩陣博弈中的納什均衡
3 3雙人零和矩陣博弈中的線性規(guī)劃
3 4學(xué)習(xí)算法
3 5梯度上升算法
3 6 WoLF - IGA算法
3 7 PHC算法
3 8 WoLF - PHC算法
3 9矩陣博弈中的分散式學(xué)習(xí)
3 10學(xué)習(xí)自動(dòng)機(jī)
3 11線性回報(bào)一無為算法
3 12線性回報(bào)一懲罰算法
3 13滯后錨算法
3 14 LR.滯后錨算法
3 14.1仿真
參考文獻(xiàn)
第4章多人隨機(jī)博弈學(xué)習(xí)
4 1簡(jiǎn)介
4 2多人隨機(jī)博弈
4 3極大極小Q學(xué)習(xí)算法
4 3.1 2 x2網(wǎng)格博弈
4 4納什Q學(xué)習(xí)算法
4 4.1學(xué)習(xí)過程
4 5單純形算法
4 6 Lemke - Howson算法
4 7納什Q學(xué)習(xí)算法實(shí)現(xiàn)
4 8朋友或敵人Q學(xué)習(xí)算法
4 9無限梯度上升算法
4 10 PHC算法
4 11 WoLF - PHC算法
4 12 網(wǎng)格世界中的疆土防御問題
4 12.1仿真和結(jié)果
4 13 LR.滯后錨算法在隨機(jī)博弈中的擴(kuò)展
4 14 EMA Q學(xué)習(xí)算法
4 15 EMA Q學(xué)習(xí)與其他方法的仿真與結(jié)果比較
4 15.1矩陣博弈
4 15 2隨機(jī)博弈
參考文獻(xiàn)
第5章微分博弈
5 1簡(jiǎn)介
5 2模糊系統(tǒng)簡(jiǎn)述
5 2.1模糊集和模糊規(guī)則
5 2 2模糊推理機(jī)
5 2 3模糊化與去模糊化
5 2 4模糊系統(tǒng)及其示例
5 3模糊Q學(xué)習(xí)
5 4 FACL
5 5瘋狂司機(jī)微分博弈
5 6模糊控制器結(jié)構(gòu)
5.7 Q(A)學(xué)習(xí)模糊推理系統(tǒng)
5 8瘋狂司機(jī)博弈的仿真結(jié)果
5 9雙車追捕者一逃跑者博弈中的學(xué)習(xí)算法
5 10雙車博弈仿真
5 11 疆土防御微分博弈
5 12疆土防御微分博弈中的形成回報(bào)
5 13仿真結(jié)果
5 13.1 -個(gè)防御者對(duì)一個(gè)人侵者
5 13 2兩個(gè)防御者對(duì)一個(gè)人侵者
參考文獻(xiàn)
第6章群智能與性格特征的進(jìn)化
6 1簡(jiǎn)介
6 2群智能的進(jìn)化
6 3環(huán)境表征
6 4群機(jī)器人的性格特征
6 5性格特征的進(jìn)化
6 6仿真結(jié)構(gòu)框架
6 7零和博弈示例
6 7.1收斂性
6 7 2仿真結(jié)果
6 8后續(xù)仿真實(shí)現(xiàn)
6 9機(jī)器人走出房間
6 10機(jī)器人跟蹤目標(biāo)
6 11小結(jié)
參考文獻(xiàn)