不确定性下决策算法的综合指南
1. 决策制定概述
在众多重要问题中,不确定性下的决策制定至关重要,像飞机避撞、野火管理和灾难响应等。设计自动化决策系统或决策支持系统时,要充分考虑各种不确定因素,同时谨慎平衡多个目标。
决策主体(agent)是基于对环境的观察而行动的实体。它可以是像人类或机器人这样的物理实体,也可以是完全以软件形式实现的决策支持系统等非物理实体。主体与环境的交互遵循观察 - 行动循环,如下图所示:
graph LR
classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A(环境):::process -->|观察 ot| B(主体):::process
B -->|行动 at| A
主体在时间 t 接收环境的观察信息 ot,观察方式可以是人类的生物感官过程,也可以是空中交通管制系统中的雷达等传感器系统。但观察往往不完整或有噪声,比如人类可能看不到接近的飞机,雷达系统可能因电磁干扰而漏检。然后主体通过决策过程选择行动 at,该行动可能对环境产生不确定的影响。
我们关注的是能智能交互以实现长期目标的主体。在存在多种不确定性的情况下,主体需根据过去的观察序列 o1, …, ot 和对环境的了解,选择最能实现目标的行动 at。这些不确定性来源包括:
- 结果不确定性:行动的效果不确定。
- 模
超级会员免费看
订阅专栏 解锁全文

2097

被折叠的 条评论
为什么被折叠?



