shiqi

shiqi

Study GIS, apply to world
twitter
github
bento
jike

叉乘

在强化学习中,State×Action 叉乘通常是指在状态空间和动作空间上的笛卡尔积,它产生一个包含所有可能状态 - 动作对的集合。

假设我们有一个状态空间 S,其中包含 s1, s2, ..., sn 这些状态,以及一个动作空间 A,其中包含 a1, a2, ..., am 这些动作。那么状态空间和动作空间的笛卡尔积就是所有可能的状态 - 动作对的集合,共有 n × m 个元素。

例如,如果我们有一个状态空间 {s1, s2},和一个动作空间 {a1, a2, a3},那么它们的笛卡尔积就是 {(s1, a1), (s1, a2), (s1, a3), (s2, a1), (s2, a2), (s2, a3)}。

在强化学习中,State×Action 叉乘通常用于表示每个状态下可能的动作,或者在构建 Q 表时表示每个状态 - 动作对对应的 Q 值。

加载中...
此文章数据所有权由区块链加密技术和智能合约保障仅归创作者所有。