2025_NIPS_NetworkGym: Reinforcement Learning Environments for Multi-Access Traffic Management in ...

原创于 2026-05-14 09:15:00 发布 · 119 阅读

·

4

·

标签

#人工智能 #语言模型

LLM Daily 同时被 3 个专栏收录

1151 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

981 篇文章

订阅专栏

207 篇文章

订阅专栏

文章主要内容与创新点总结

一、主要内容

研究背景：随着移动设备可同时连接Wi-Fi、LTE、5G等多接入网络，多接入流量拆分（动态分配各设备在不同网络中的流量占比）成为优化网络性能的关键，但当前计算机网络领域缺乏标准化的强化学习（RL）基准测试环境，现有离线RL算法在网络场景中的适用性未得到充分验证。
核心工具：NetworkGym：提出一种高保真网络环境模拟器，基于开源网络仿真工具ns-3构建，提供类gym的开放API，支持ML算法训练与数据收集，具备编程语言灵活性（如PythonAgent与C++仿真环境交互）和独立模块化部署能力，可模拟多接入流量拆分场景，用于训练和评估在线/离线RL算法。
算法探索与改进：
- 测试发现多数现有顶尖离线RL算法（如CQL）在NetworkGym中平均性能未超越手工设计的启发式策略，且在D4RL等流行基准上的优势无法迁移到网络场景。
- 提出Pessimistic TD3（PTD3）算法，基于TD3+BC扩展，引入价值函数悲观主义的行为约束机制，通过估计Q值不确定性优化策略更新，在实验中表现优于多数现有离线RL算法。
实验设计与结论：在含4个用户设备（UE）、特定基站与Wi-Fi接入点布局的仿真环境中，基于三种启发式策略（throughput_argmax、system_default、utility_logistic）收集离线数据集，测试多种RL算法。

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。