深度強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)
定 價(jià):¥119.8
中 教 價(jià):¥70.68 (5.90折)促銷(xiāo)
庫(kù) 存 數(shù): 0
本書(shū)先介紹深度強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識(shí)及相關(guān)算法,然后給出多個(gè)實(shí)戰(zhàn)項(xiàng)目,以期讓讀者可以根據(jù)環(huán)境的直接反饋對(duì)智能體加以調(diào)整和改進(jìn),提升運(yùn)用深度強(qiáng)化學(xué)習(xí)技術(shù)解決實(shí)際問(wèn)題的能力。本書(shū)涵蓋深度Q網(wǎng)絡(luò)、策略梯度法、演員-評(píng)論家算法、進(jìn)化算法、Dist-DQN、多智能體強(qiáng)化學(xué)習(xí)、可解釋性強(qiáng)化學(xué)習(xí)等內(nèi)容。本書(shū)給出的實(shí)戰(zhàn)項(xiàng)目緊跟深度強(qiáng)化學(xué)習(xí)技術(shù)的發(fā)展趨勢(shì),且所有項(xiàng)目示例以Jupter Notebook樣式給出,便于讀者修改代碼、觀察結(jié)果并及時(shí)獲取經(jīng)驗(yàn),能夠帶給讀者交互式的學(xué)習(xí)體驗(yàn)。本書(shū)適合有一定深度學(xué)習(xí)和機(jī)器學(xué)習(xí)基礎(chǔ)并對(duì)強(qiáng)化學(xué)習(xí)感興趣的讀者閱讀。
1.詳細(xì)講解深度強(qiáng)化學(xué)習(xí)基礎(chǔ)知識(shí),內(nèi)容豐富2.提供多個(gè)實(shí)戰(zhàn)案例,學(xué)習(xí)更有效,實(shí)踐更有用3.包含核心算法 PyTorch、OpenAI Gym等流行工具,新穎實(shí)用4.作者在深度強(qiáng)化學(xué)習(xí)領(lǐng)域經(jīng)驗(yàn)豐富,知識(shí)點(diǎn)梳理清晰,易懂易學(xué)
Alexander Zai曾擔(dān)任Codesmith(一個(gè)沉浸式的編碼訓(xùn)練營(yíng))首席技術(shù)官和技術(shù)顧問(wèn)、Uber 軟件工程師、Bonjo和AmazonAI機(jī)器學(xué)習(xí)工程師,他也是開(kāi)源深度學(xué)習(xí)框架Apache MXNet的貢獻(xiàn)者。此外,他還是兩家公司的聯(lián)合創(chuàng)立人,其中一家曾是Y-combinator的參與者。 Brandon Brown從很小的時(shí)候就開(kāi)始編程,大學(xué)期間做過(guò)兼職軟件工程師,但最終選擇投身醫(yī)療行業(yè)(在此期間,他在醫(yī)療保健科技領(lǐng)域擔(dān)任軟件工程師)。受深度強(qiáng)化學(xué)習(xí)的啟發(fā),他近期專(zhuān)注于計(jì)算精神病學(xué)的研究。
第 一部分 基礎(chǔ)篇第 1章 什么是強(qiáng)化學(xué)習(xí) 31.1 深度強(qiáng)化學(xué)習(xí)中的深度 41.2 強(qiáng)化學(xué)習(xí) 51.3 動(dòng)態(tài)規(guī)劃與蒙特卡洛 71.4 強(qiáng)化學(xué)習(xí)框架 91.5 強(qiáng)化學(xué)習(xí)可以做什么 121.6 為什么是深度強(qiáng)化學(xué)習(xí) 141.7 教學(xué)工具:線圖 151.8 后續(xù)內(nèi)容概述 17小結(jié) 18第 2章 強(qiáng)化學(xué)習(xí)問(wèn)題建模: 馬爾可夫決策過(guò)程 192.1 線圖與本書(shū)的教學(xué)方法 192.2 解決多臂老虎機(jī)問(wèn)題 222.2.1 探索與利用 232.2.2 貪婪策略 242.2.3 Softmax選擇策略 292.3 應(yīng)用老虎機(jī)算法優(yōu)化廣告投放 312.3.1 上下文老虎機(jī) 312.3.2 狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì) 322.4 利用PyTorch構(gòu)建網(wǎng)絡(luò) 332.4.1 自動(dòng)微分 332.4.2 構(gòu)建模型 342.5 解決上下文老虎機(jī)問(wèn)題 352.6 馬爾可夫性質(zhì) 392.7 預(yù)測(cè)未來(lái)獎(jiǎng)勵(lì):價(jià)值和策略函數(shù) 412.7.1 策略函數(shù) 422.7.2 最優(yōu)策略 432.7.3 價(jià)值函數(shù) 43小結(jié) 44第3章 預(yù)測(cè)最佳狀態(tài)和動(dòng)作: 深度Q網(wǎng)絡(luò) 463.1 Q函數(shù) 463.2 Q-learning導(dǎo)航 473.2.1 Q-learning是什么 483.2.2 應(yīng)用于Gridworld游戲 493.2.3 超參數(shù) 503.2.4 貼現(xiàn)因子 503.2.5 構(gòu)建網(wǎng)絡(luò) 523.2.6 介紹Gridworld游戲引擎 533.2.7 構(gòu)建Q函數(shù)的神經(jīng)網(wǎng)絡(luò) 553.3 防止災(zāi)難性遺忘:經(jīng)驗(yàn)回放 643.3.1 災(zāi)難性遺忘 643.3.2 經(jīng)驗(yàn)回放 653.4 利用目標(biāo)網(wǎng)絡(luò)提高穩(wěn)定性 69學(xué)習(xí)的不穩(wěn)定性 703.5 回顧 74小結(jié) 76第4章 學(xué)習(xí)選擇最佳策略:策略梯度法 774.1 使用神經(jīng)網(wǎng)絡(luò)的策略函數(shù) 774.1.1 神經(jīng)網(wǎng)絡(luò)作為策略函數(shù) 784.1.2 隨機(jī)策略梯度 784.1.3 探索 804.2 強(qiáng)化良好動(dòng)作:策略梯度算法 814.2.1 定義目標(biāo) 814.2.2 強(qiáng)化動(dòng)作 824.2.3 對(duì)數(shù)概率 844.2.4 信用分配 844.3 與OpenAI Gym配合 854.3.1 CartPole 874.3.2 OpenAI Gym API 874.4 REINFORCE算法 884.4.1 創(chuàng)建策略網(wǎng)絡(luò) 884.4.2 使智能體與環(huán)境交互 894.4.3 訓(xùn)練模型 894.4.4 完整訓(xùn)練循環(huán) 914.4.5 所得到的結(jié)論 93小結(jié) 93第5章 利用演員-評(píng)論家算法 解決更復(fù)雜的問(wèn)題 945.1 重構(gòu)價(jià)值-策略函數(shù) 955.2 分布式訓(xùn)練 995.3 演員-評(píng)論家優(yōu)勢(shì)算法 1045.4 N-step演員-評(píng)論家算法 112小結(jié) 116第二部分 進(jìn)階篇第6章 可替代的優(yōu)化方法: 進(jìn)化算法 1196.1 另一種強(qiáng)化學(xué)習(xí)方法 1196.2 具有進(jìn)化策略的強(qiáng)化學(xué)習(xí) 1216.2.1 進(jìn)化理論 1216.2.2 進(jìn)化實(shí)踐 1236.3 CartPole的遺傳算法 1286.4 進(jìn)化算法的優(yōu)缺點(diǎn) 1346.4.1 進(jìn)化算法探索更多 1346.4.2 進(jìn)化算法令人難以置信的樣本密集性 1346.4.3 模擬器 1356.5 進(jìn)化算法作為一種可擴(kuò)展的替代方案 1356.5.1 擴(kuò)展的進(jìn)化算法 1356.5.2 并行與串行處理 1376.5.3 擴(kuò)展效率 1386.5.4 節(jié)點(diǎn)間通信 1386.5.5 線性擴(kuò)展 1406.5.6 擴(kuò)展基于梯度的算法 140小結(jié) 141第7章 Dist-DQN:獲取完整故事 1427.1 Q-learning存在的問(wèn)題 1437.2 再論概率統(tǒng)計(jì) 1477.2.1 先驗(yàn)和后驗(yàn) 1487.2.2 期望和方差 1497.3 貝爾曼方程 153分布式貝爾曼方程 1537.4 分布式Q-learning 1547.4.1 使用Python表示概率分布 1547.4.2 實(shí)現(xiàn)Dist-DQN 1627.5 比較概率分布 1647.6 模擬數(shù)據(jù)上的Dist-DQN 1677.7 使用分布式Q-learning玩Freeway 172小結(jié) 177第8章 好奇心驅(qū)動(dòng)的 探索 1788.1 利用預(yù)測(cè)編碼處理稀疏獎(jiǎng)勵(lì) 1798.2 反向動(dòng)態(tài)預(yù)測(cè) 1828.3 搭建《超級(jí)馬里奧兄弟》環(huán)境 1848.4 預(yù)處理和Q網(wǎng)絡(luò) 1868.5 創(chuàng)建Q網(wǎng)絡(luò)和策略函數(shù) 1888.6 內(nèi)在好奇心模塊 1918.7 可替代的內(nèi)在獎(jiǎng)勵(lì)機(jī)制 203小結(jié) 205第9章 多智能體強(qiáng)化 學(xué)習(xí) 2069.1 從單個(gè)到多個(gè)智能體 2069.2 鄰域Q-learning 2109.3 一維伊辛模型 2139.4 平均場(chǎng)Q-learning和二維伊辛模型 2219.5 混合合作競(jìng)技游戲 230小結(jié) 239第 10章 強(qiáng)化學(xué)習(xí)可解釋性: 注意力和關(guān)系 模型 24110.1 帶注意力和關(guān)系偏差的 機(jī)器學(xué)習(xí)可解釋性 242不變性和等變性 24310.2 利用注意力進(jìn)行關(guān)系 推理 24410.2.1 注意力模型 24510.2.2 關(guān)系推理 24610.2.3 自注意力模型 25110.3 對(duì)MNIST實(shí)現(xiàn) 自注意力 25310.3.1 轉(zhuǎn)換的MNIST 25410.3.2 關(guān)系模塊 25510.3.3 張量縮并和愛(ài)因斯坦 標(biāo)記法 25810.3.4 訓(xùn)練關(guān)系模塊 26110.4 多頭注意力和 關(guān)系DQN 26410.5 雙Q-learning 27010.6 訓(xùn)練和注意力 可視化 27110.6.1 最大熵學(xué)習(xí) 27510.6.2 課程學(xué)習(xí) 27510.6.3 可視化注意力權(quán)重 276小結(jié) 278第 11章 總結(jié):回顧和 路線圖 28011.1 我們學(xué)到了什么 28011.2 深度強(qiáng)化學(xué)習(xí)中的 未知課題 28211.2.1 優(yōu)先經(jīng)驗(yàn)回放 28211.2.2 近端策略?xún)?yōu)化 28211.2.3 分層強(qiáng)化學(xué)習(xí)和 options框架 28311.2.4 基于模型的規(guī)劃 28311.2.5 蒙特卡洛樹(shù)搜索 284全書(shū)結(jié)語(yǔ) 284附錄A 數(shù)學(xué)、深度學(xué)習(xí)和PyTorch 285A.1 線性代數(shù) 285A.2 微積分 287A.3 深度學(xué)習(xí) 290A.4 PyTorch 291參考資料 295