介绍#
文档#
表格#
下面的表格基本不能看,因为是 AIGC,网页都是错乱的。
类别 | 名称 | 作者 | 描述 | 链接 |
---|---|---|---|---|
算法 | SARSA | Richard S. Sutton & Andrew G. Barto | 一种使用时序差分(TD)更新策略的 Q 学习算法。 | 1 |
算法 | Q-Learning | Christopher J. C. H. Watkins & Peter Dayan | 一种无模型的强化学习算法,学习预测在特定状态下采取特定动作的预期回报。 | 2 |
算法 | 深度 Q 网络(DQN) | Volodymyr Mnih & Geoffrey Hinton | 一种基于神经网络的算法,将 Q 学习应用于使用高级控制玩 Atari 游戏。 | 3 |
算法 | 深度确定性策略梯度(DDPG) | John Schulman & Philip Mirowski | 一种离策略算法,用于连续控制,使用评论家和策略网络。 | 7 |
算法 | 近端策略优化(PPO) | John Schulman & Philip Mirowski | 一种无模型算法,使用信任区域优化来更新其策略。 | 8 |
算法 | 优势演员 - 评论家(A2C) | John Schulman & Philip Mirowski | 结合策略梯度方法和基于值的方法的优点的算法。 | 9 |
框架 | Gym | University of Alberta & Uber | 用于强化学习的 Python 库,提供对该领域各个方面实现的通用接口。 | 4 |
框架 | Ray | Raphaël Sellem & Eric Jang | 用于开发和训练强化学习模型的高级框架。 | 5 |
书籍 | 强化学习 | Richard S. Sutton & Andrew G. Barto | 一本全面介绍强化学习基础和应用的书籍。 | 6 |
书籍 | 深度学习 | Ian Goodfellow, Yoshua Bengio & Aaron Courville | 一本全面介绍深度学习的书籍,包括一章关于强化学习的内容。 | 10 |
期刊 | 机器学习研究杂志 | Various Authors | 机器学习研究的主要期刊,包括强化学习主题。 | 11 |