shiqi

shiqi

Study GIS, apply to world
twitter
github
bento
jike

叉乘

在強化學習中,State×Action 叉乘通常是指在狀態空間和動作空間上的笛卡爾積,它產生一個包含所有可能狀態 - 動作對的集合。

假設我們有一個狀態空間 S,其中包含 s1, s2, ..., sn 這些狀態,以及一個動作空間 A,其中包含 a1, a2, ..., am 這些動作。那麼狀態空間和動作空間的笛卡爾積就是所有可能的狀態 - 動作對的集合,共有 n × m 個元素。

例如,如果我們有一個狀態空間 {s1, s2},和一個動作空間 {a1, a2, a3},那麼它們的笛卡爾積就是 {(s1, a1), (s1, a2), (s1, a3), (s2, a1), (s2, a2), (s2, a3)}。

在強化學習中,State×Action 叉乘通常用於表示每個狀態下可能的動作,或者在構建 Q 表時表示每個狀態 - 動作對對應的 Q 值。

載入中......
此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。