文章主要内容与创新点总结
一、主要内容
- 研究背景:随着移动设备可同时连接Wi-Fi、LTE、5G等多接入网络,多接入流量拆分(动态分配各设备在不同网络中的流量占比)成为优化网络性能的关键,但当前计算机网络领域缺乏标准化的强化学习(RL)基准测试环境,现有离线RL算法在网络场景中的适用性未得到充分验证。
- 核心工具:NetworkGym:提出一种高保真网络环境模拟器,基于开源网络仿真工具ns-3构建,提供类gym的开放API,支持ML算法训练与数据收集,具备编程语言灵活性(如PythonAgent与C++仿真环境交互)和独立模块化部署能力,可模拟多接入流量拆分场景,用于训练和评估在线/离线RL算法。
- 算法探索与改进:
- 测试发现多数现有顶尖离线RL算法(如CQL)在NetworkGym中平均性能未超越手工设计的启发式策略,且在D4RL等流行基准上的优势无法迁移到网络场景。
- 提出Pessimistic TD3(PTD3)算法,基于TD3+BC扩展,引入价值函数悲观主义的行为约束机制,通过估计Q值不确定性优化策略更新,在实验中表现优于多数现有离线RL算法。
- 实验设计与结论:在含4个用户设备(UE)、特定基站与Wi-Fi接入点布局的仿真环境中,基于三种启发式策略(throughput_argmax、system_default、utility_logistic)收集离线数据集,测试多种RL算法。

订阅专栏 解锁全文


被折叠的 条评论
为什么被折叠?



