1、不确定性下决策算法的综合指南

最新推荐文章于 2025-11-10 19:00:00 发布

原创最新推荐文章于 2025-11-10 19:00:00 发布 · 38 阅读

0 GEO检测

标签

#不确定性决策 #决策算法 #强化学习

决策算法：智能选择的艺术专栏收录该内容

50 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

不确定性下决策算法的综合指南

1. 决策制定概述

在众多重要问题中，不确定性下的决策制定至关重要，像飞机避撞、野火管理和灾难响应等。设计自动化决策系统或决策支持系统时，要充分考虑各种不确定因素，同时谨慎平衡多个目标。

决策主体（agent）是基于对环境的观察而行动的实体。它可以是像人类或机器人这样的物理实体，也可以是完全以软件形式实现的决策支持系统等非物理实体。主体与环境的交互遵循观察 - 行动循环，如下图所示：

graph LR
    classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A(环境):::process -->|观察 ot| B(主体):::process
    B -->|行动 at| A

主体在时间 t 接收环境的观察信息 ot，观察方式可以是人类的生物感官过程，也可以是空中交通管制系统中的雷达等传感器系统。但观察往往不完整或有噪声，比如人类可能看不到接近的飞机，雷达系统可能因电磁干扰而漏检。然后主体通过决策过程选择行动 at，该行动可能对环境产生不确定的影响。

我们关注的是能智能交互以实现长期目标的主体。在存在多种不确定性的情况下，主体需根据过去的观察序列 o1, …, ot 和对环境的了解，选择最能实现目标的行动 at。这些不确定性来源包括：
- 结果不确定性：行动的效果不确定。
- 模

会员秒杀 ¥9.9 重磅福利

超级会员免费看