1、不确定性下决策算法的综合指南

不确定性下决策算法的综合指南

1. 决策制定概述

在众多重要问题中,不确定性下的决策制定至关重要,像飞机避撞、野火管理和灾难响应等。设计自动化决策系统或决策支持系统时,要充分考虑各种不确定因素,同时谨慎平衡多个目标。

决策主体(agent)是基于对环境的观察而行动的实体。它可以是像人类或机器人这样的物理实体,也可以是完全以软件形式实现的决策支持系统等非物理实体。主体与环境的交互遵循观察 - 行动循环,如下图所示:

graph LR
    classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A(环境):::process -->|观察 ot| B(主体):::process
    B -->|行动 at| A

主体在时间 t 接收环境的观察信息 ot,观察方式可以是人类的生物感官过程,也可以是空中交通管制系统中的雷达等传感器系统。但观察往往不完整或有噪声,比如人类可能看不到接近的飞机,雷达系统可能因电磁干扰而漏检。然后主体通过决策过程选择行动 at,该行动可能对环境产生不确定的影响。

我们关注的是能智能交互以实现长期目标的主体。在存在多种不确定性的情况下,主体需根据过去的观察序列 o1, …, ot 和对环境的了解,选择最能实现目标的行动 at。这些不确定性来源包括:
- 结果不确定性:行动的效果不确定。
- 模

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值