文章目录
1. Q-learning问题描述
Q-learning是一种典型的基于价值(Value)函数的强化学习方法,其中的Q是一个数值(可以理解为价值value),通常在初始化时有可能被赋予一个任意数值(因问题场景而异),在迭代时刻 t t t,我们有状态 s t s_t st,此时代理做出动作 a t a_t at,然后得到奖励 r t r_t rt,从而进入到一个更新的状态 s t + 1 s_{t+1} st+1,从而Q值得到更新,其更新公式为:
(1) Q ( s t , a t ) ← ( 1 − α ) ⋅ Q ( s t , a t ) ⎵ old    value + α ⎵ learnig    rate ⋅ ( r t ⎵ reward + γ ⎵ discount    factor ⋅ max a Q ( s t + 1 , a ) ⎵ estimate    of    optimal    future    value ) ⏞ learned    value Q\left( { {s_t},{a_t}} \right) \leftarrow \left( {1 - \alpha } \right) \cdot \underbrace {Q\left( { {s_t},{a_t}} \right)}_{ {\text{old}}\;{\text{value}}} + \underbrace \alpha _{ {\text{learnig}}\;{\text{rate}}} \cdot \overbrace {\left( {\underbrace { {r_t}}_{ {\text{reward}}} + \underbrace \gamma _{ {\text{discount}}\;{\text{factor}}} \cdot \underbrace {\mathop {\max }\limits_a Q\left( { {s_{t + 1}},a} \right)}_{ {\text{estimate}}\;{\text{of}}\;{\text{optimal}}\;{\text{future}}\;{\text{value}}}} \right)}^{ {\text{learned}}\;{\text{value}}} \tag {1} Q(st,at)←(1−α)⋅oldvalue Q(st,at)+learnigrate α⋅⎝⎜⎜⎛reward rt+discountfactor γ⋅estimateofoptimalfuturevalue amaxQ(st+1,a)⎠⎟⎟⎞

本文深入探讨Q-learning,一种基于价值函数的强化学习方法。通过Q-table学习,阐述Q-value的更新过程,展示了一个使用Python实现Q-learning解决路径规划问题的示例,最终得出能够指导agent自主行动的Q-table。
——Q-learning(Q-learning问题描述,Q-table方法,一个Python小例子)&spm=1001.2101.3001.5002&articleId=88352624&d=1&t=3&u=f20aa4dcbc9241ff932d9dbb14b2b3d8)
2万+

被折叠的 条评论
为什么被折叠?



