【决策状态机FSM(finite state machine)梳理】

原创

已于 2022-08-01 14:32:53 修改 · 2.8k 阅读

标签

#人工智能 #机器学习 #自动驾驶

于 2022-07-07 13:24:19 首次发布

本文探讨了自动驾驶中的行为决策，包括基于规则和强化学习的方法。重点介绍了有限状态机（FSM）在行为决策中的作用，阐述了FSM的基础知识，如状态、事件、转移条件和动作。此外，还提到了Stanford FSM在DARPA Urban Challenge中的应用，以及如何使用Matlab/StateFlow构建有限状态机模型。FSM通过增强鲁棒性，应对道路阻挡、路口阻挡等复杂场景，提高了自动驾驶的安全性和效率。

背景：写论文需要，对需要有限状态机部分进行整理。论文内容是关于自动驾驶避撞决策。

参考Junior: The Stanford Entry in the Urban Challenge的有限状态机

1. 行为决策

1.1 基于规则的行为决策

1.2 基于强化学习的行为决策

2. 有限状态机FSM

2.1 基础知识

有限状态机四大要素：

有限状态机三集合：

2.2 斯坦福FSM

3. Matlab/StateFlow 构建有限状态机模型

需具备的知识

1. 状态框架

2. 状态动作

3. 状态转移标签

创建一个状态机的步骤：

1. 行为决策

行为决策主要分为两类
1、基于规则的行为决策
2、基于强化学习的行为决策

1.1 基于规则的行为决策

在基于规则的行为决策中，有限状态机法是最经典也是最具有代表性的方法，其具有实用性强、可靠性高和逻辑推理清晰等特点。有限状态机是一种离散的数学模型，用来研究有限个状态以及状态之间的转移。

优点：其具有易于搭建和调整，实时性好，应用简单等

缺点：其难以适应所有情况，需要进行针对性调整，其行为规则库易重叠而失效，有限状态机难以覆盖车辆可能遇到的所有工况而导致决策错误。

1.2 基于强化学习的行为决策

基于强化学习算法的行为决策方法主要是利用各种学习算法来进行决策，利用无人车配备的各种传感器，来感知周边的环境信息，传递给强化学习决策系统，此时强化学习决策系统的作用就相当于人脑，来对各类信息进行分析和处理，并结合经验来对无人驾驶汽车做出行为决策。如自动驾驶汽车公司Waymo 就通过模拟驾驶及道路测试来获取了大量的数据对其基于学习算法的行为决策系统进行训练，使得该系统对物体的检测性能得到了极大地提高，还可以对障碍物进行语义理解等
主要方法有：马尔科夫决策、Q学习算法、神经网络Q学习算法等