shiqi

shiqi

Study GIS, apply to world
twitter
github
bento
jike

强化学习简介-1

介绍#

文档#

表格#

下面的表格基本不能看,因为是 AIGC,网页都是错乱的。

类别名称作者描述链接
算法SARSARichard S. Sutton & Andrew G. Barto一种使用时序差分(TD)更新策略的 Q 学习算法。1
算法Q-LearningChristopher J. C. H. Watkins & Peter Dayan一种无模型的强化学习算法,学习预测在特定状态下采取特定动作的预期回报。2
算法深度 Q 网络(DQN)Volodymyr Mnih & Geoffrey Hinton一种基于神经网络的算法,将 Q 学习应用于使用高级控制玩 Atari 游戏。3
算法深度确定性策略梯度(DDPG)John Schulman & Philip Mirowski一种离策略算法,用于连续控制,使用评论家和策略网络。7
算法近端策略优化(PPO)John Schulman & Philip Mirowski一种无模型算法,使用信任区域优化来更新其策略。8
算法优势演员 - 评论家(A2C)John Schulman & Philip Mirowski结合策略梯度方法和基于值的方法的优点的算法。9
框架GymUniversity of Alberta & Uber用于强化学习的 Python 库,提供对该领域各个方面实现的通用接口。4
框架RayRaphaël Sellem & Eric Jang用于开发和训练强化学习模型的高级框架。5
书籍强化学习Richard S. Sutton & Andrew G. Barto一本全面介绍强化学习基础和应用的书籍。6
书籍深度学习Ian Goodfellow, Yoshua Bengio & Aaron Courville一本全面介绍深度学习的书籍,包括一章关于强化学习的内容。10
期刊机器学习研究杂志Various Authors机器学习研究的主要期刊,包括强化学习主题。11
加载中...
此文章数据所有权由区块链加密技术和智能合约保障仅归创作者所有。