20、强化学习：原理、算法与应用

原创于 2025-09-02 16:46:00 发布 · 71 阅读

0 GEO检测

标签

#强化学习 # 机器学习 # 马尔可夫决策过程

深度学习入门：从神经网络开始专栏收录该内容

24 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化学习：原理、算法与应用

1. 强化学习概述

强化学习（RL）是机器学习中一个迅速发展且重要性日益凸显的分支，它属于无监督机器学习的一种形式。虽然强化学习本身是一个丰富的研究领域，但近年来，人工神经网络（ANN）与强化学习的结合取得了巨大成功，例如ChatGPT就是ANN和RL互补成功的一个典型例子。

强化学习的灵感源于生物动物的行为直觉。动物（包括人类）厌恶痛苦和饥饿，而喜欢愉悦和满足感，这些感受与自然选择密切相关。当与愉悦和痛苦相关的行为与环境中的选择压力相匹配时，动物就能生存得更好。这种现象在机器学习中被数学建模，形成了正强化的概念。人类可以通过正强化来训练或驯化一些动物，在机器学习中，同样可以利用这种原理来训练模型。

强化学习与之前介绍的ANN方法有本质区别。ANN通过监督学习技术进行训练，数据集包含真实标签，训练的目标是在高维空间中找到合适的决策边界近似，这种方法在分类任务中表现出色。而强化学习的目标是训练模型学习行为，例如机器人学习拿起一本书或学习下棋。对于这些问题，监督学习技术往往难以解决，因为训练集的规模和生成方式都存在挑战。强化学习模型通过与环境的交互来学习，而不是通过示例学习，通过正强化和负强化来教导智能体如何行动。