增强学习和控制
在监督学习中,算法试图模仿训练机的labels y,训练集中的每一个输入x都有一个确定的对应的y,但是对于很多需要连续作决定的问题和控制问题,给算法提供一个明确的标签是很难的。例如我们有一个四足机器人,并且试图让他行走,开始的时候我们并不知道采取怎样的操作使他行走,也不知道怎么给算法提供一个标签来模仿。
在增强学习中,我们会给算法提供一个奖励函数来反应做的好还是不好。例如对于上述的4足机器人,当他向前行走是给出正面的奖励,当他向后退或者摔倒时给出负面的奖励。然后学习算法就会学习选择怎样的操作来获取更多的奖励。
增强学习在自治直升机、机器人、手机网络路由、销售策略选择、工业控制、网页索引等多领域取得了成功。对增强学习的研究从MDP(Markov desicion processes)开始。
1.MDP
MDP是一个元组(S,A,Psa,γ,R),S是状态集,A是状态集,Psa是处于状态s采用动作a的状态转移概率,γ是折现因子,R是SA的奖励函数。
MDP过程如下:初始状态s0,采用动作a0,按照Ps0a0转移到状态s1

本文深入探讨了吴恩达在斯坦福大学的机器学习课程中的增强学习部分,涵盖MDP(马尔科夫决策过程)、价值迭代、策略迭代,以及连续状态的MDP处理方法。通过奖励函数,学习算法学习如何做出最优决策以获得最大奖励,在机器人控制、网络路由等领域有广泛应用。

1638

被折叠的 条评论
为什么被折叠?



