在用于强化学习的自动驾驶仿真场景highway-env(1)中,我们简要说明如何使用该仿真场景。
本文重心为关键的场景配置说明。
I、Observation
所有的环境都包含观测模型。可以通过config来配置对应模型。
观测就是使用一种合适的数学模型将周围交互环境表征出来。对应到强化学习中的state!比如car的位置朝向起点、终点等特征。
1. kinematic
最常用的一种表征环境的形式。
通过list的形式,将所有的vehicle的坐标的速度表示出来。
形如:

-
上表中共包含四个feature,横纵坐标和速度。
-
ego-vehicle总是在第一排。
-
如果配置参数中的
normalize=True,意味着所有参数都统一伸缩固定比例。 -
如果参数
absolute = False,所有的坐标值是指相对于ego-vehicle而言
2. 其他形式
grayscale image
config:
config = {
"observation": {
"type": "GrayscaleObservation",
"observation_shape": (128, 64),
"stack_size": 4,
"weights": [0.2989, 0.5870, 0.1140], # weights for RGB conversion
"scaling": 1.75,
},
"policy_frequency": 2
}

occpancy grid栅格表示
config
"observation": {
"type": "OccupancyGrid",
"vehicles_count": 15,
"features": ["presence", "x", "y", "vx", "vy", "cos_h", "sin_h"],
"features_range": {
"x": [-100, 100],
"y": [-100, 100],
"vx": [-20, 20],
"vy": [-20, 20]
},
"grid_size": [[-27.5, 27.5], [-27.5, 27.5]],
"grid_step": [5, 5],
"absolute": False
}
效果如下:
第一个维度的presence表征当前的小车相对于ego vehicle的位置。

time to collision碰撞时间
config
"observation": {
"type": "TimeToCollision"
"horizon": 10
}
基于当前速度,计算可能发生的碰撞时间。这种表征模式感觉不太好用。
II、Actions
与状态的表征一样,仿真平台同样提供很多动作类型的描述。
1. continuous actions
这种action类型允许agent直接设置Kinematic Bicycle Model. 通过throttle 和 steering angle
关于该模型的详细描述,参见论文
Philip Polack, Florent Altché, and Brigitte D’Andréa-Novel. The Kinematic Bicycle Model : a Consistent Model for Planning Feasible Trajectories for Autonomous Vehicles ? IEEE Intelligent Vehicles Symposium, pages 6–8, 2017.
公式表述如下:

其中, x , y x, y x,y为车辆的pos, v v v为车辆的前向速度, ψ \psi

本文详细介绍了用于强化学习的自动驾驶仿真环境highway-env,涵盖观测模型如kinematic、grayscaleimage和OccupancyGrid等,以及不同的车辆动作类型,包括continuousactions和discretemeta-actions。此外,还阐述了车辆动力学模型,如道路网络、车辆行为和控制策略。文中提到的交通规则和车辆行为模型如IDM和MOBIL,为自动驾驶研究提供了丰富的模拟场景。

1万+

被折叠的 条评论
为什么被折叠?



