shiqi

Study GIS, apply to world

強化學習介紹-1

2024年4月21日#Reinforcement Learning #AI Answer250

AI 翻譯

這篇文章透過AI由英文翻譯成繁體中文。查看原文

AI 生成的摘要

這份文件介紹了不同的強化學習算法、框架和書籍，以及相關的文檔和表格。其中包括了SARSA、Q-Learning、DQN、DDPG、PPO、A2C等算法，以及Gym、Ray等框架和相關書籍。

介紹#

文件#

https://stable-baselines3.readthedocs.io/en/master/guide/install.html

表格#

下面的表格基本不能看，因為是 AIGC，網頁都是錯亂的。

類別	名稱	作者	描述	連結
演算法	SARSA	Richard S. Sutton & Andrew G. Barto	使用時間差分（TD）更新其策略的 Q 學習演算法。	1
演算法	Q-Learning	Christopher J. C. H. Watkins & Peter Dayan	一種無模型的強化學習演算法，學習預測在特定狀態下執行特定動作的預期回報。	2
演算法	深度 Q 網絡（DQN）	Volodymyr Mnih & Geoffrey Hinton	基於神經網絡的演算法，應用 Q 學習來使用高級控制玩 Atari 遊戲。	3
演算法	深度確定性策略梯度（DDPG）	John Schulman & Philip Mirowski	一種離線策略演算法，使用評論家和策略網絡進行連續控制。	7
演算法	近端策略優化（PPO）	John Schulman & Philip Mirowski	一種無模型演算法，使用信任區域優化來更新其策略。	8
演算法	優勢演員 - 評論家（A2C）	John Schulman & Philip Mirowski	結合策略梯度方法和基於價值的方法的演算法。	9
框架	Gym	University of Alberta & Uber	一個用於強化學習的 Python 庫，提供了對該領域各個方面實現的共同接口。	4
框架	Ray	Raphaël Sellem & Eric Jang	用於開發和訓練強化學習模型的高級框架。	5
書籍	強化學習	Richard S. Sutton & Andrew G. Barto	一本全面介紹強化學習基礎和應用的書籍。	6
書籍	深度學習	Ian Goodfellow, Yoshua Bengio & Aaron Courville	一本包含有關深度學習的全面書籍，其中包括一章關於強化學習的內容。	10
期刊	機器學習研究期刊	Various Authors	一本領先的機器學習研究期刊，包括強化學習主題。	11

此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。

區塊鏈編號
#67539-56
擁有者
0x98402d4f982678e0bfdc6ddae66f118aa2505926
交易雜湊值
創作 0x5e9c72c5...bfc3c83583 最後更新 0x1a29941b...e76beb879b
IPFS 位址
ipfs://Qmd3jBmPK2MTp5bnLuGCJkNfxcD1CwoW93ZCEUoMqBgftK