shiqi

shiqi

Study GIS, apply to world
twitter
github
bento
jike

叉乘

強化学習において、State×Action のクロス積は通常、状態空間と行動空間のデカルト積を指し、すべての可能な状態 - 行動ペアを含む集合を生成します。

例えば、状態空間が {s1、s2} であり、行動空間が {a1、a2、a3} である場合、それらのデカルト積は {(s1、a1)、(s1、a2)、(s1、a3)、(s2、a1)、(s2、a2)、(s2、a3)} となります。

強化学習では、State×Action のクロス積は通常、各状態で可能な行動を表すために使用されるか、または Q テーブルを構築する際に各状態 - 行動ペアに対応する Q 値を表すために使用されます。

読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。