用于强化学习的自动驾驶仿真场景highway-env(2)： obs，action，dynamics

最新推荐文章于 2026-04-23 18:50:59 发布

原创

最新推荐文章于 2026-04-23 18:50:59 发布 · 6.5k 阅读

本文详细介绍了用于强化学习的自动驾驶仿真环境highway-env，涵盖观测模型如kinematic、grayscaleimage和OccupancyGrid等，以及不同的车辆动作类型，包括continuousactions和discretemeta-actions。此外，还阐述了车辆动力学模型，如道路网络、车辆行为和控制策略。文中提到的交通规则和车辆行为模型如IDM和MOBIL，为自动驾驶研究提供了丰富的模拟场景。

开发板推荐：天空星STM32F407VET6开发板

超高性价比 STM32主控 | 超高主频 | 一板兼容百芯 | 比赛神器 | 沉金彩色丝印

点击查看

在用于强化学习的自动驾驶仿真场景highway-env(1)中，我们简要说明如何使用该仿真场景。

本文重心为关键的场景配置说明。

I、Observation

所有的环境都包含观测模型。可以通过config来配置对应模型。

观测就是使用一种合适的数学模型将周围交互环境表征出来。对应到强化学习中的state！比如car的位置朝向起点、终点等特征。

1. kinematic

最常用的一种表征环境的形式。

通过list的形式，将所有的vehicle的坐标的速度表示出来。
形如：
在这里插入图片描述

上表中共包含四个feature，横纵坐标和速度。
ego-vehicle总是在第一排。
如果配置参数中的normalize=True，意味着所有参数都统一伸缩固定比例。
如果参数absolute = False，所有的坐标值是指相对于ego-vehicle而言

2. 其他形式

grayscale image

config：

config = {
   
   
       "observation": {
   
   
           "type": "GrayscaleObservation",
           "observation_shape": (128, 64),
           "stack_size": 4,
           "weights": [0.2989, 0.5870, 0.1140],  # weights for RGB conversion
           "scaling": 1.75,
       },
       "policy_frequency": 2
   }

在这里插入图片描述
occpancy grid栅格表示

config

"observation": {
   
   
    "type": "OccupancyGrid",
    "vehicles_count": 15,
    "features": ["presence", "x", "y", "vx", "vy", "cos_h", "sin_h"],
    "features_range": {
   
   
        "x": [-100, 100],
        "y": [-100, 100],
        "vx": [-20, 20],
        "vy": [-20, 20]
    },
    "grid_size": [[-27.5, 27.5], [-27.5, 27.5]],
    "grid_step": [5, 5],
    "absolute": False
}

效果如下：
第一个维度的presence表征当前的小车相对于ego vehicle的位置。
在这里插入图片描述
time to collision碰撞时间

config

"observation": {
   
   
    "type": "TimeToCollision"
    "horizon": 10
}

基于当前速度，计算可能发生的碰撞时间。这种表征模式感觉不太好用。

II、Actions

与状态的表征一样，仿真平台同样提供很多动作类型的描述。

1. continuous actions

这种action类型允许agent直接设置Kinematic Bicycle Model. 通过throttle 和 steering angle

关于该模型的详细描述，参见论文

Philip Polack, Florent Altché, and Brigitte D’Andréa-Novel. The Kinematic Bicycle Model : a Consistent Model for Planning Feasible Trajectories for Autonomous Vehicles ? IEEE Intelligent Vehicles Symposium, pages 6–8, 2017.

公式表述如下：

在这里插入图片描述
其中， $x, y$ 为车辆的pos， $v$ 为车辆的前向速度， $\psi$