shiqi

Study GIS, apply to world

強化学習入門-1

2024年4月21日#Reinforcement Learning #AI Answer263

AI 翻訳

この記事はAIを通じて英語から日本語に翻訳されました。原文を表示

AI が生成した要約

文档链接：https://stable-baselines3.readthedocs.io/en/master/guide/install.html 表格中列出了不同算法、框架、书籍和期刊的信息，包括作者、描述和链接。算法包括SARSA、Q-Learning、DQN、DDPG、PPO和A2C。框架包括Gym和Ray。书籍包括关于强化学习和深度学习的内容。期刊包括机器学习研究领域的内容。

イントロダクション#

ドキュメント#

https://stable-baselines3.readthedocs.io/en/master/guide/install.html

テーブル#

以下のテーブルは基本的に見ることができません。AIGC であり、ウェブページが乱れています。

カテゴリー	名前	著者	説明	リンク
アルゴリズム	SARSA	Richard S. Sutton & Andrew G. Barto	方策を更新するために一時差分法（TD）を使用する Q 学習アルゴリズム。	1
アルゴリズム	Q 学習	Christopher J. C. H. Watkins & Peter Dayan	特定の状態で特定のアクションを取ることに対する予想されるリターンを学習するモデルフリーの強化学習アルゴリズム。	2
アルゴリズム	Deep Q-Networks (DQN)	Volodymyr Mnih & Geoffrey Hinton	Atari ゲームを高レベルの制御でプレイするために Q 学習を適用するニューラルネットワークベースのアルゴリズム。	3
アルゴリズム	Deep Deterministic Policy Gradients (DDPG)	John Schulman & Philip Mirowski	クリティックとポリシーネットワークを使用した連続制御のためのオフポリシーアルゴリズム。	7
アルゴリズム	Proximal Policy Optimization (PPO)	John Schulman & Philip Mirowski	トラストリージョン最適化を使用してポリシーを更新するモデルフリーアルゴリズム。	8
アルゴリズム	Advantage Actor-Critic (A2C)	John Schulman & Philip Mirowski	ポリシーグラディエント法と価値ベースの手法の利点を組み合わせたアルゴリズム。	9
フレームワーク	Gym	University of Alberta & Uber	強化学習のための Python ライブラリで、フィールドのさまざまな側面の実装のための共通インターフェースを提供します。	4
フレームワーク	Ray	Raphaël Sellem & Eric Jang	強化学習モデルの開発とトレーニングのための高レベルフレームワーク。	5
書籍	強化学習	Richard S. Sutton & Andrew G. Barto	強化学習の基礎と応用をカバーした包括的な書籍。	6
書籍	深層学習	Ian Goodfellow, Yoshua Bengio & Aaron Courville	強化学習に関する章を含む深層学習についての包括的な書籍。	10
ジャーナル	Journal of Machine Learning Research	Various Authors	機械学習研究の主要なジャーナルで、強化学習のトピックも含まれています。	11

文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。

Blockchain ID
#67539-56
所有者
0x98402d4f982678e0bfdc6ddae66f118aa2505926
取引ハッシュ
作成 0x5e9c72c5...bfc3c83583 最後更新 0x1a29941b...e76beb879b
IPFS アドレス
ipfs://Qmd3jBmPK2MTp5bnLuGCJkNfxcD1CwoW93ZCEUoMqBgftK