shiqi

shiqi

Study GIS, apply to world
twitter
github
bento
jike

強化學習介紹-1

介紹#

文件#

表格#

下面的表格基本不能看,因為是 AIGC,網頁都是錯亂的。

類別名稱作者描述連結
演算法SARSARichard S. Sutton & Andrew G. Barto使用時間差分(TD)更新其策略的 Q 學習演算法。1
演算法Q-LearningChristopher J. C. H. Watkins & Peter Dayan一種無模型的強化學習演算法,學習預測在特定狀態下執行特定動作的預期回報。2
演算法深度 Q 網絡(DQN)Volodymyr Mnih & Geoffrey Hinton基於神經網絡的演算法,應用 Q 學習來使用高級控制玩 Atari 遊戲。3
演算法深度確定性策略梯度(DDPG)John Schulman & Philip Mirowski一種離線策略演算法,使用評論家和策略網絡進行連續控制。7
演算法近端策略優化(PPO)John Schulman & Philip Mirowski一種無模型演算法,使用信任區域優化來更新其策略。8
演算法優勢演員 - 評論家(A2C)John Schulman & Philip Mirowski結合策略梯度方法和基於價值的方法的演算法。9
框架GymUniversity of Alberta & Uber一個用於強化學習的 Python 庫,提供了對該領域各個方面實現的共同接口。4
框架RayRaphaël Sellem & Eric Jang用於開發和訓練強化學習模型的高級框架。5
書籍強化學習Richard S. Sutton & Andrew G. Barto一本全面介紹強化學習基礎和應用的書籍。6
書籍深度學習Ian Goodfellow, Yoshua Bengio & Aaron Courville一本包含有關深度學習的全面書籍,其中包括一章關於強化學習的內容。10
期刊機器學習研究期刊Various Authors一本領先的機器學習研究期刊,包括強化學習主題。11
載入中......
此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。