斯坦福吴恩达《机器学习》--增强学习

本文深入探讨了吴恩达在斯坦福大学的机器学习课程中的增强学习部分,涵盖MDP(马尔科夫决策过程)、价值迭代、策略迭代,以及连续状态的MDP处理方法。通过奖励函数,学习算法学习如何做出最优决策以获得最大奖励,在机器人控制、网络路由等领域有广泛应用。

增强学习和控制

  在监督学习中,算法试图模仿训练机的labels y,训练集中的每一个输入x都有一个确定的对应的y,但是对于很多需要连续作决定的问题和控制问题,给算法提供一个明确的标签是很难的。例如我们有一个四足机器人,并且试图让他行走,开始的时候我们并不知道采取怎样的操作使他行走,也不知道怎么给算法提供一个标签来模仿。
  在增强学习中,我们会给算法提供一个奖励函数来反应做的好还是不好。例如对于上述的4足机器人,当他向前行走是给出正面的奖励,当他向后退或者摔倒时给出负面的奖励。然后学习算法就会学习选择怎样的操作来获取更多的奖励。
  增强学习在自治直升机、机器人、手机网络路由、销售策略选择、工业控制、网页索引等多领域取得了成功。对增强学习的研究从MDP(Markov desicion processes)开始。

1.MDP

  MDP是一个元组(S,A,Psaγ,R),S是状态集,A是状态集,Psa是处于状态s采用动作a的状态转移概率,γ是折现因子,R是SA的奖励函数。
  MDP过程如下:初始状态s0,采用动作a0,按照Ps0a0转移到状态s1

机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径。 随着统计学的发展,统计学习在机器学习中占据了重要地位,支持向量机(SVM)、决策树和随机森林等算法的提出和发展,使得机器学习能够更好地处理分类、回归和聚类等任务。进入21世纪,深度学习成为机器学习领域的重要突破,采用多层神经网络模型,通过大量数据和强大的计算能力来训练模型,在计算机视觉、自然语言处理和语音识别等领域取得了显著的成果。 机器学习算法在各个领域都有广泛的应用,包括医疗保健、金融、零售和电子商务、智能交通、生产制造等。例如,在医疗领域,机器学习技术可以帮助医生识别医疗影像,辅助诊断疾病,预测病情发展趋势,并为患者提供个性化的治疗方案。在金融领域,机器学习模型可以分析金融数据,识别潜在风险,预测股票市场的走势等。 未来,随着传感器技术和计算能力的提升,机器学习将在自动驾驶、智能家居等领域发挥更大的作用。同时,随着物联网技术的普及,机器学习将助力智能家居设备实现更加智能化和个性化的功能。在工业制造领域,机器学习也将实现广泛应用,如智能制造、工艺优化和质量控制等。 总之,机器学习是一门具有广阔应用前景和深远影响的学科,它将持续推动人工智能技术的发展,为人类社会的进步做出重要贡献。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值