斯坦福吴恩达《机器学习》--增强学习

最新推荐文章于 2026-04-24 09:20:53 发布

原创

最新推荐文章于 2026-04-24 09:20:53 发布 · 3.5k 阅读

标签

#机器学习 #增强学习 #吴恩达 #斯坦福

收录于

本文深入探讨了吴恩达在斯坦福大学的机器学习课程中的增强学习部分，涵盖MDP（马尔科夫决策过程）、价值迭代、策略迭代，以及连续状态的MDP处理方法。通过奖励函数，学习算法学习如何做出最优决策以获得最大奖励，在机器人控制、网络路由等领域有广泛应用。

增强学习和控制

在监督学习中，算法试图模仿训练机的labels y,训练集中的每一个输入x都有一个确定的对应的y，但是对于很多需要连续作决定的问题和控制问题，给算法提供一个明确的标签是很难的。例如我们有一个四足机器人，并且试图让他行走，开始的时候我们并不知道采取怎样的操作使他行走，也不知道怎么给算法提供一个标签来模仿。
在增强学习中，我们会给算法提供一个奖励函数来反应做的好还是不好。例如对于上述的4足机器人，当他向前行走是给出正面的奖励，当他向后退或者摔倒时给出负面的奖励。然后学习算法就会学习选择怎样的操作来获取更多的奖励。
增强学习在自治直升机、机器人、手机网络路由、销售策略选择、工业控制、网页索引等多领域取得了成功。对增强学习的研究从MDP（Markov desicion processes）开始。