2025_NIPS_NetworkGym: Reinforcement Learning Environments for Multi-Access Traffic Management in ...

文章主要内容与创新点总结

一、主要内容

  1. 研究背景:随着移动设备可同时连接Wi-Fi、LTE、5G等多接入网络,多接入流量拆分(动态分配各设备在不同网络中的流量占比)成为优化网络性能的关键,但当前计算机网络领域缺乏标准化的强化学习(RL)基准测试环境,现有离线RL算法在网络场景中的适用性未得到充分验证。
  2. 核心工具:NetworkGym:提出一种高保真网络环境模拟器,基于开源网络仿真工具ns-3构建,提供类gym的开放API,支持ML算法训练与数据收集,具备编程语言灵活性(如PythonAgent与C++仿真环境交互)和独立模块化部署能力,可模拟多接入流量拆分场景,用于训练和评估在线/离线RL算法。
  3. 算法探索与改进
    • 测试发现多数现有顶尖离线RL算法(如CQL)在NetworkGym中平均性能未超越手工设计的启发式策略,且在D4RL等流行基准上的优势无法迁移到网络场景。
    • 提出Pessimistic TD3(PTD3)算法,基于TD3+BC扩展,引入价值函数悲观主义的行为约束机制,通过估计Q值不确定性优化策略更新,在实验中表现优于多数现有离线RL算法。
  4. 实验设计与结论:在含4个用户设备(UE)、特定基站与Wi-Fi接入点布局的仿真环境中,基于三种启发式策略(throughput_argmax、system_default、utility_logistic)收集离线数据集,测试多种RL算法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值