介紹#
文件#
表格#
下面的表格基本不能看,因為是 AIGC,網頁都是錯亂的。
類別 | 名稱 | 作者 | 描述 | 連結 |
---|---|---|---|---|
演算法 | SARSA | Richard S. Sutton & Andrew G. Barto | 使用時間差分(TD)更新其策略的 Q 學習演算法。 | 1 |
演算法 | Q-Learning | Christopher J. C. H. Watkins & Peter Dayan | 一種無模型的強化學習演算法,學習預測在特定狀態下執行特定動作的預期回報。 | 2 |
演算法 | 深度 Q 網絡(DQN) | Volodymyr Mnih & Geoffrey Hinton | 基於神經網絡的演算法,應用 Q 學習來使用高級控制玩 Atari 遊戲。 | 3 |
演算法 | 深度確定性策略梯度(DDPG) | John Schulman & Philip Mirowski | 一種離線策略演算法,使用評論家和策略網絡進行連續控制。 | 7 |
演算法 | 近端策略優化(PPO) | John Schulman & Philip Mirowski | 一種無模型演算法,使用信任區域優化來更新其策略。 | 8 |
演算法 | 優勢演員 - 評論家(A2C) | John Schulman & Philip Mirowski | 結合策略梯度方法和基於價值的方法的演算法。 | 9 |
框架 | Gym | University of Alberta & Uber | 一個用於強化學習的 Python 庫,提供了對該領域各個方面實現的共同接口。 | 4 |
框架 | Ray | Raphaël Sellem & Eric Jang | 用於開發和訓練強化學習模型的高級框架。 | 5 |
書籍 | 強化學習 | Richard S. Sutton & Andrew G. Barto | 一本全面介紹強化學習基礎和應用的書籍。 | 6 |
書籍 | 深度學習 | Ian Goodfellow, Yoshua Bengio & Aaron Courville | 一本包含有關深度學習的全面書籍,其中包括一章關於強化學習的內容。 | 10 |
期刊 | 機器學習研究期刊 | Various Authors | 一本領先的機器學習研究期刊,包括強化學習主題。 | 11 |