强化学习:原理、算法与应用
1. 强化学习概述
强化学习(RL)是机器学习中一个迅速发展且重要性日益凸显的分支,它属于无监督机器学习的一种形式。虽然强化学习本身是一个丰富的研究领域,但近年来,人工神经网络(ANN)与强化学习的结合取得了巨大成功,例如ChatGPT就是ANN和RL互补成功的一个典型例子。
强化学习的灵感源于生物动物的行为直觉。动物(包括人类)厌恶痛苦和饥饿,而喜欢愉悦和满足感,这些感受与自然选择密切相关。当与愉悦和痛苦相关的行为与环境中的选择压力相匹配时,动物就能生存得更好。这种现象在机器学习中被数学建模,形成了正强化的概念。人类可以通过正强化来训练或驯化一些动物,在机器学习中,同样可以利用这种原理来训练模型。
强化学习与之前介绍的ANN方法有本质区别。ANN通过监督学习技术进行训练,数据集包含真实标签,训练的目标是在高维空间中找到合适的决策边界近似,这种方法在分类任务中表现出色。而强化学习的目标是训练模型学习行为,例如机器人学习拿起一本书或学习下棋。对于这些问题,监督学习技术往往难以解决,因为训练集的规模和生成方式都存在挑战。强化学习模型通过与环境的交互来学习,而不是通过示例学习,通过正强化和负强化来教导智能体如何行动。
2. 强化学习的要素
强化学习是一种无监督机器学习技术,与之前的训练方法不同,它不需要标记数据。强化学习的核心抽象概念是智能体(agent),智能体通过在环境中不断尝试和犯错来学习,通过与环境的交互获得奖励,从而强化期望的行为。
- 环境(Environment) :环境由训练智能体的人提供,代表问题领域。例如,训练智能体下棋时,环境
超级会员免费看
订阅专栏 解锁全文

1114

被折叠的 条评论
为什么被折叠?



