Joy RL
定 價:¥59.8
中 教 價:¥31.69 (5.30折)
庫 存 數: 8
本書是《EasyRL:強化學習教程》的配套實踐教程。本書將在第一版的基礎上以更加嚴謹的風格深入淺出地介紹馬爾可夫決策過程、蒙特卡羅方法、時序差分方法、Sarsa、Q-learning等傳統強化學習算法,以及策略梯度、近端策略優化、深度Q網絡、深度確定性策略梯度等常見深度強化學習算法的基本概念和方法,并以大量生動有趣的例子幫助讀者理解強化學習問題的建模過程以及核心算法的細節。同時,增加最大熵學習、多智能體學習、離線強化學習等內容,極大豐富強化學習的入門內容。