-
用Python實作強化學習:使用TensorFlow與OpenAI Gym
-
點閱:1654
293人已收藏
- 譯自:Hands-on reinforcement learning with Python
- 作者: Sudharsan Ravichandiran著 , CAVEDU教育團隊, 曾吉弘譯
- 出版社:碁峰資訊
- 出版年:2019
- ISBN:9789865021412
- EISBN:9789865022167 PDF
- 格式:PDF,JPG
- 頁數:332
- 附註:原紙本書ISBN: 9789865021412 含附錄
內容簡介
強化學習可說是能自我演進的機器學習,能帶領我們達到真正的人工智慧。本書好讀又容易上手,運用了大量Python範例來從頭解釋所有東西。
本書從強化學習的簡介開始,接著是OpenAI Gym與TensorFlow。您會認識各種RL演算法與重要觀念,例如Markov決策過程、蒙地卡羅法與動態規劃,包括價值迭代與策略迭代。本書提供了非常豐富的範例幫助您認識各種深度強化學習演算法,例如競爭DQN、DRQN、A3C、PPO與TRPO。您還會學到想像增強代理、透過人類偏好來學習、DQfD、HER以及更多強化學習的最新發展。
本書精彩內容:
.理解強化學習方法、演算法與重要元素的相關基礎
.使用OpenAI Gym與TensorFlow來訓練代理
.理解Markov決策過程、Bellman最佳化與TD學習
.運用多種演算法來解決多臂式吃角子老虎問題
.熟悉各種深度學習演算法,如RNN、LSTM、CNN與其應用
.使用DRQN演算法來建置智能代理來玩毀滅戰士遊戲
.使用DDPG來教導代理來玩月球冒險遊戲
.使用競爭DQN來訓練代理來玩賽車遊戲
- 前言(第xvi頁)
- 1 認識強化學習(第1頁)
- 什麼是 RL?(第2頁)
- RL 演算法(第3頁)
- RL 與其他 ML 方法有何不同?(第4頁)
- RL 所包含的重要元素(第5頁)
- 代理環境介面(第6頁)
- RL 的環境類型(第7頁)
- RL 的各種平台(第9頁)
- RL 的各種應用(第10頁)
- 總結(第12頁)
- 問題(第12頁)
- 延伸閱讀(第12頁)
- 2 認識 OpenAI 與 TensorFlow(第13頁)
- 設定電腦(第14頁)
- OpenAI Gym(第19頁)
- OpenAI Universe(第24頁)
- TensorFlow(第29頁)
- 總結(第35頁)
- 問題(第36頁)
- 延伸閱讀(第36頁)
- 3 Markov 決策過程與動態規劃(第37頁)
- Markov 鏈與 Markov 過程(第38頁)
- Markov 決策過程(第40頁)
- Bellman 方程式與最佳性(第45頁)
- 解 Bellman 方程式(第49頁)
- 解決凍湖問題(第57頁)
- 總結(第69頁)
- 問題(第69頁)
- 延伸閱讀(第70頁)
- 4 使用 Monte Carlo 方法來玩遊戲(第71頁)
- Monte Carlo 方法(第72頁)
- Monte Carlo 預測(第76頁)
- Monte Carlo 控制(第87頁)
- 總結(第95頁)
- 延伸閱讀(第96頁)
- 問題(第96頁)
- 5 時間差分學習(第97頁)
- TD 學習(第98頁)
- TD 預測(第98頁)
- TD 控制(第101頁)
- Q 學習與 SARSA 的差異(第117頁)
- 總結(第118頁)
- 問題(第118頁)
- 延伸閱讀(第118頁)
- 6 多臂式吃角子老虎機問題(第119頁)
- MAB 問題(第120頁)
- MAB 的應用(第130頁)
- 使用 MAB 來找出正確的廣告橫幅(第131頁)
- 情境式吃角子老虎機(第134頁)
- 總結(第134頁)
- 問題(第135頁)
- 延伸閱讀(第135頁)
- 7 深度學習的基礎概念(第137頁)
- 人工神經元(第138頁)
- 類神經網路(第139頁)
- 深入理解 ANN(第143頁)
- TensorFlow 中的神經網路(第151頁)
- RNN(第155頁)
- 長短期記憶 RNN(第160頁)
- 卷積神經網路(第167頁)
- 使用 CNN 來分類時尚產品(第175頁)
- 總結(第181頁)
- 問題(第182頁)
- 延伸閱讀(第182頁)
- 8 使用深度 Q 網路來玩 Atari 遊戲(第183頁)
- 什麼是深度 Q 網路?(第184頁)
- DQN 的架構(第185頁)
- 建立代理來進行 Atari 遊戲(第189頁)
- 雙層 DQN(第198頁)
- 優先經驗回放(第199頁)
- 競爭網路架構(第200頁)
- 總結(第201頁)
- 問題(第202頁)
- 延伸閱讀(第202頁)
- 9 使用深度循環 Q 網路來玩毀滅戰士(第203頁)
- DRQN(第204頁)
- 訓練代理來玩毀滅戰士(第206頁)
- DARQN(第218頁)
- 總結(第219頁)
- 問題(第220頁)
- 延伸閱讀(第220頁)
- 10 非同步優勢動作評價網路(第221頁)
- 非同步優勢動作評價(第222頁)
- 使用 A3C 來爬山(第225頁)
- 總結(第235頁)
- 問題(第235頁)
- 延伸閱讀(第236頁)
- 11 策略梯度與最佳化(第237頁)
- 策略梯度(第238頁)
- 深度確定性策略梯度(第243頁)
- 信賴域策略最佳化(第252頁)
- 近端策略最佳化(第257頁)
- 總結(第259頁)
- 問題(第260頁)
- 延伸閱讀(第260頁)
- 12 總和專題-使用 DQN 來玩賽車遊戲(第261頁)
- 環境包裝函數(第262頁)
- 競爭網路(第265頁)
- 回放記憶(第268頁)
- 訓練網路(第269頁)
- 賽車遊戲(第275頁)
- 總結(第279頁)
- 問題(第279頁)
- 延伸閱讀(第280頁)
- 13 近期發展與下一步(第281頁)
- 想像增強代理(第282頁)
- 由人類偏好來學習(第286頁)
- 由示範來進行深度 Q 學習(第287頁)
- 事後經驗回放(第288頁)
- 層次強化學習(第290頁)
- 逆向強化學習(第295頁)
- 總結(第295頁)
- 問題(第296頁)
- 延伸閱讀(第296頁)
- A 參考答案(第297頁)
紙本書 NT$ 520
單本電子書
NT$
364
同分類熱門書