強化学習において、State×Action のクロス積は通常、状態空間と行動空間のデカルト積を指し、すべての可能な状態 - 行動ペアを含む集合を生成します。
例えば、状態空間が {s1、s2} であり、行動空間が {a1、a2、a3} である場合、それらのデカルト積は {(s1、a1)、(s1、a2)、(s1、a3)、(s2、a1)、(s2、a2)、(s2、a3)} となります。
強化学習では、State×Action のクロス積は通常、各状態で可能な行動を表すために使用されるか、または Q テーブルを構築する際に各状態 - 行動ペアに対応する Q 値を表すために使用されます。