shiqi

shiqi

Study GIS, apply to world
twitter
github
bento
jike

強化学習入門-1

イントロダクション#

ドキュメント#

テーブル#

以下のテーブルは基本的に見ることができません。AIGC であり、ウェブページが乱れています。

カテゴリー名前著者説明リンク
アルゴリズムSARSARichard S. Sutton & Andrew G. Barto方策を更新するために一時差分法(TD)を使用する Q 学習アルゴリズム。1
アルゴリズムQ 学習Christopher J. C. H. Watkins & Peter Dayan特定の状態で特定のアクションを取ることに対する予想されるリターンを学習するモデルフリーの強化学習アルゴリズム。2
アルゴリズムDeep Q-Networks (DQN)Volodymyr Mnih & Geoffrey HintonAtari ゲームを高レベルの制御でプレイするために Q 学習を適用するニューラルネットワークベースのアルゴリズム。3
アルゴリズムDeep Deterministic Policy Gradients (DDPG)John Schulman & Philip Mirowskiクリティックとポリシーネットワークを使用した連続制御のためのオフポリシーアルゴリズム。7
アルゴリズムProximal Policy Optimization (PPO)John Schulman & Philip Mirowskiトラストリージョン最適化を使用してポリシーを更新するモデルフリーアルゴリズム。8
アルゴリズムAdvantage Actor-Critic (A2C)John Schulman & Philip Mirowskiポリシーグラディエント法と価値ベースの手法の利点を組み合わせたアルゴリズム。9
フレームワークGymUniversity of Alberta & Uber強化学習のための Python ライブラリで、フィールドのさまざまな側面の実装のための共通インターフェースを提供します。4
フレームワークRayRaphaël Sellem & Eric Jang強化学習モデルの開発とトレーニングのための高レベルフレームワーク。5
書籍強化学習Richard S. Sutton & Andrew G. Barto強化学習の基礎と応用をカバーした包括的な書籍。6
書籍深層学習Ian Goodfellow, Yoshua Bengio & Aaron Courville強化学習に関する章を含む深層学習についての包括的な書籍。10
ジャーナルJournal of Machine Learning ResearchVarious Authors機械学習研究の主要なジャーナルで、強化学習のトピックも含まれています。11
読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。