无线供能D2D通信：基于李雅普诺夫优化的双时间尺度资源分配算法

最新推荐文章于 2026-06-19 10:40:20 发布

原创最新推荐文章于 2026-06-19 10:40:20 发布 · 733 阅读

18 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#无线供能D2D通信 #李雅普诺夫优化 #双时间尺度资源分配

AI助手已提取文章相关产品：

1. 项目概述：当无线供能遇上D2D通信，如何让“自私”的设备高效协作？

在蜂窝网络的边缘，设备到设备（D2D）通信技术允许终端用户之间直接交换数据，绕开基站，这不仅能大幅减轻核心网的负载，还能显著降低端到端时延、提升频谱效率。然而，一个现实的挑战是：参与转发的D2D发射机（D2D-Tx）往往是“自私”的个体，它们消耗自身宝贵的能量为他人做“嫁衣”，却缺乏内在动力。与此同时，随着物联网和低功耗广域网的发展，如何为海量设备持续供能也成了难题。无线能量传输（WPT）技术为此提供了一种思路，让设备能从专用的功率信源（PS）或环境射频信号中“收割”能量。

将这两者结合，就构成了“无线供能D2D通信”这一充满前景却又异常复杂的场景。这里，资源分配不再是简单的分蛋糕游戏，而是一场涉及多维度、多时间尺度、且参与者各有私心的动态博弈。基站（BS）需要决定给哪个D2D-Tx推送多少内容（速率分配，RA）；D2D-Tx需要决定花多少“钱”（虚拟令牌）从功率信源购买多少能量（能量交易，ET）；在每一个细小的时隙里，D2D-Tx还要根据实时的信道干扰状况，决定用多大功率进行转发（发射功率控制，TPC）。这些决策环环相扣：能量不足就无法转发，转发消耗能量又影响后续的能量购买决策；信道变化快，但设备的数据队列、剩余能量、令牌数量这些“资源状态”却相对稳定。

传统的单时间尺度优化要么跟不上信道快变，要么会因频繁交互产生巨大的信令开销。因此，我们研究的核心，就是提出一种 双时间尺度资源分配算法 。其核心思想是“分而治之”：在大的时间帧尺度上（比如几百毫秒），处理变化慢的资源状态（RA和ET）；在小时隙尺度上（比如几毫秒），快速响应变化快的信道状态（TPC）。通过 李雅普诺夫优化 这一强大工具，我们将复杂的长期随机优化问题，转化为一系列可在线求解的确定性子问题，并设计了一套完整的在线两时间尺度资源分配（OTTRA）算法。最终目标，是在保证网络稳定性的前提下，最大化长期平均网络效用，并巧妙地在效用和时延之间取得平衡。无论你是通信专业的学生、研发工程师，还是对网络优化感兴趣的爱好者，理解这套框架，都能为你打开一扇通往下一代智能、高效、可持续无线网络设计的大门。

2. 系统模型与问题构建：一个多维度动态博弈的数学刻画

要设计算法，首先必须用数学语言精确地描述我们所处的战场。无线供能D2D通信系统是一个典型的随机动态系统，其状态由多种队列和随机过程共同驱动。

2.1 核心角色与动态队列模型

系统中有三类关键角色：基站（BS）、功率信源（PS）和多个D2D通信对。每个D2D对包含一个发射机（D2D-Tx，记为n_T）和一个接收机（D2D-Rx，记为n_R）。D2D-Tx扮演着中继的角色，它从BS接收用户n_R请求的内容，然后以D2D方式转发给n_R。

整个系统的动态性由三个核心队列来刻画，它们分别代表了三种关键资源的积累与消耗：

数据队列（Q_n(t)） ：位于D2D-Tx的缓冲区，存储从BS接收到的、待转发给D2D-Rx的数据包。在每个时间帧t，BS以速率 f_n(t) 向D2D-Tx n_T 推送数据；而在该时间帧内的每个时隙τ，D2D-Tx以速率 r_n^τ 向n_R转发数据。因此，队列的更新方程为： Q_n(t+1) = max[Q_n(t) - Σ_{τ=0}^{ρ-1} r_n^τ, 0] + f_n(t) 这个队列的长度直观反映了数据的积压情况，与传输时延直接相关。
虚拟令牌队列（M_n(t)） ：这是一个为了激励协作而设计的虚拟货币系统。D2D-Tx通过成功转发数据来赚取令牌（奖励R_g），而向PS购买能量则需要花费令牌（成本R_p）。假设R_p > R_g，这意味着“用电”比“赚钱”更贵，从而防止令牌无限膨胀。其更新方程为： M_n(t+1) = max[M_n(t) - ρ * R_p * e_n(t), 0] + R_g * Σ_{τ=0}^{ρ-1} r_n^τ 其中 e_n(t) 是时间帧t内购买的能量单位数。令牌队列反映了D2D-Tx的“财富”状况，是激励其参与转发的经济杠杆。
虚拟能量队列（E_n(t)） ：表征D2D-Tx的剩余能量。能量来源有两个：一是从PS购买（效率为ϑ，考虑路径损耗和转换效率），二是初始能量。能量消耗主要用于数据转发（功率p_n^τ）。其更新方程为： E_n(t+1) = E_n(t) - Σ_{τ=0}^{ρ-1} p_n^τ + ρ * ϑ * g_n * e_n(t) 其中 g_n 是到PS的信道增益。能量队列是设备可持续工作的生命线。

注意：这里使用“虚拟队列”是李雅普诺夫优化中的常见技巧。对于令牌和能量，我们通常更关心其不超过某个容量上限（如电池最大容量）。通过定义辅助变量和虚拟队列（如 ˜E_n(t) = E_max - E_n(t)），可以将不等式约束转化为队列稳定性问题，从而统一到优化框架中处理。

2.2 双时间尺度网络状态

这是本方案区别于传统方法的关键。网络状态被划分为两种变化速度不同的部分：

大时间尺度状态（时间帧级） ：包括数据队列Q_n(t)、令牌队列M_n(t)和能量队列E_n(t)。这些状态通常由数据到达、能量交易等较慢的过程驱动，在一个时间帧（包含ρ个时隙）内保持不变。
小时间尺度状态（时隙级） ：主要指信道状态h_n^τ（包括直射链路和干扰链路）。信道由于多径、移动性等因素，在每个时隙都可能发生快速变化。

这种划分是符合实际物理特性的。设备的电量、缓冲区数据量不会每秒剧烈波动，但无线信道质量却可能毫秒级变化。基于此，我们的决策也相应分层：

时间帧级决策 ：BS的速率分配 f_n(t) 和 D2D-Tx的能量交易决策 e_n(t)。这些决策基于大时间尺度状态做出，并在一个时间帧内保持有效。
时隙级决策 ：D2D-Tx的发射功率 p_n^τ。这个决策在每个时隙开始时，基于当前瞬时信道状态和其他D2D-Tx的功率策略（造成干扰）快速做出。

2.3 随机优化问题构建

我们的终极目标是设计一套动态控制策略，在满足所有物理和队列稳定性约束的前提下，最大化网络长期平均效用。效用函数通常定义为用户满意度的总和，这里我们采用对数函数形式 U(t) = Σ_n ϖ_n * log(f_n(t) + e) ，其中ϖ_n是权重，e是一个小正常数防止log(0)。对数函数能体现“边际效用递减”，即给低速率用户提升一点速率带来的满意度提升，比给高速率用户同样提升要大，有利于公平性。

因此，我们构建的随机优化问题（P1）如下：

最大化：长期平均网络效用 lim_{T→∞} (1/T) Σ_{t=0}^{T-1} E[U(t)]
约束条件：
(C1) 速率分配总和不超过BS总带宽：Σ_n f_n(t) ≤ C_t
(C2) 发射功率非负且不超过最大值：0 ≤ p_n^τ ≤ P_n_max
(C3) 能量交易量非负且不超过PS供应上限：0 ≤ e_n(t) ≤ o_n
(C4) 数据队列平均稳定（保证有限时延）
(C5) 能量队列平均稳定（保证能量可持续）
(C6) 令牌队列平均稳定（保证激励机制可行）
(C7) 购买能量所需令牌不超过持有量：ρ * R_p * e_n(t) ≤ M_n(t)
(C8) 消耗能量不超过可用量：Σ_{τ=0}^{ρ-1} p_n^τ ≤ E_n(t) + ρ * ϑ * g_n * e_n(t)

这个问题非常复杂，它是一个随机、动态、多约束的优化问题，且决策变量存在于两个时间尺度上。直接求解几乎不可能。接下来，就需要请出我们的核心工具——李雅普诺夫优化。

3. 算法核心：李雅普诺夫优化与问题分解

面对上述复杂问题，李雅普诺夫优化提供了一种将长期随机控制问题转化为一系列确定性、可在线求解的瞬时问题的优雅框架。其核心思想是定义一个李雅普诺夫函数L(Θ(t))，该函数衡量当前时刻所有虚拟队列（这里包括数据队列和为了处理约束而引入的虚拟令牌、虚拟能量队列）的“拥挤”程度。然后，我们最小化每个时隙的“漂移加惩罚”项： Δ(Θ(t)) - V * E[U(t) | Θ(t)] ，其中Δ是李雅普诺夫漂移（队列长度变化的期望），V是一个非负的控制参数。

原理解读 ：最小化“漂移加惩罚”项具有双重意义。一方面，最小化漂移意味着努力稳定所有队列，防止队列无限增长（满足稳定性约束）。另一方面，减去V倍的效用，意味着在稳定队列的同时，我们还要尽可能最大化效用。参数V就像一个“调节旋钮”：V越大，算法越倾向于优化效用，但可能以队列长度（即时延）增加为代价；V越小，算法越倾向于快速清空队列（降低时延），但可能牺牲一部分效用。这正是实现 效用-时延权衡 的理论基础。

通过对“漂移加惩罚”项的上界进行最小化，并利用双时间尺度状态特性，原问题（P1）被神奇地分解为两个解耦的、按不同时间尺度执行的子问题。这是整个方案最精妙的部分。

3.1 时间帧级子问题：联合速率分配与能量交易

在大时间尺度上，信道快速变化的细节被平均掉了，我们关注的是基于资源状态（队列状态）的长期资源规划。分解后得到的时间帧级子问题如下：

1. 基站速率分配问题：

最大化：Σ_n [ V * ϖ_n * log(f_n(t) + e) - Q_n(t) * f_n(t) ]
约束：Σ_n f_n(t) ≤ C_t

这个问题的物理意义非常直观。目标函数中，第一项 V * ϖ_n * log(...) 代表最大化网络效用，第二项 - Q_n(t) * f_n(t) 可以理解为“成本”，队列 Q_n(t) 越长的用户，其“成本权重”越高。这迫使BS将速率更多地分配给队列积压严重的用户，从而起到 稳定队列 的作用。这是一个严格的凹优化问题，其最优解具有典型的“注水”形式： f_n(t) = [ V * ϖ_n / (Q_n(t) + η(t)) - e ]_{[0, C_t]} 其中 η(t) 是与总带宽约束 C_t 相关的拉格朗日乘子（水线）， [·] 表示投影到区间 [0, C_t] 。可以通过简单的梯度下降法快速求解。

2. D2D-Tx能量交易问题：

最大化：Σ_n ρ * ( ϑ * g_n * ˜E_n(t) * e_n(t) - R_p * ˜M_n(t) * e_n(t) )
约束：0 ≤ e_n(t) ≤ o_n, ρ * R_p * e_n(t) ≤ M_n(t), ...

其中 ˜E_n(t) = E_max - E_n(t) （虚拟能量队列）， ˜M_n(t) = M_max - M_n(t) （虚拟令牌队列）。这个目标函数可以重写为 Σ_n ρ * e_n(t) * (ϑ * g_n * ˜E_n(t) - R_p * ˜M_n(t)) 。其决策逻辑极其清晰：

如果 ϑ * g_n * ˜E_n(t) > R_p * ˜M_n(t) ，意味着对于D2D-Tx n来说， 能量的边际收益（与能量匮乏程度正相关）大于令牌的边际成本（与令牌匮乏程度负相关） 。此时，应该尽可能多地购买能量，上限受限于PS供应 o_n 、电池容量 (E_max - E_n(t))/(ϑρg_n) 和令牌预算 M_n(t)/(ρR_p) 。
反之，如果 ϑ * g_n * ˜E_n(t) ≤ R_p * ˜M_n(t) ，则购买能量不划算，最优决策是 e_n(t) = 0 。

这个决策完美体现了经济学中的“边际决策”原则，让每个自私的D2D-Tx基于自身资源稀缺度做出理性的利己选择，而这个选择在系统层面恰好能促进整体效率。

3.2 时隙级子问题：分布式功率控制

在小时间尺度上，资源状态（队列）是固定的，我们需要针对瞬时信道状态做出快速反应。分解后得到的时隙级子问题对于每个D2D-Tx n在时隙τ是独立的：

最大化：(Q_n(t) + ˜M_n(t)*R_g) * W * log2(1 + SINR_n^τ) - ˜E_n(t) * p_n^τ
约束：0 ≤ p_n^τ ≤ P_n

其中， SINR_n^τ = (ζ * h_{nn}^τ * p_n^τ) / (σ^2 + Σ_{m≠n} h_{mn}^τ * p_m^τ) ，即信干噪比。

目标函数解读 ：这是整个算法的“智能”所在。它不再是传统的最大化速率或最小化功率，而是一个 收益-成本 的权衡。

收益部分 ： (Q_n(t) + ˜M_n(t)*R_g) * W * log2(1+SINR) 。 Q_n(t) 高意味着数据积压多，迫切需要提高速率来清空队列； ˜M_n(t) 大（即 M_n(t) 小）意味着令牌匮乏，通过转发赚取令牌的动机更强。两者之和构成了当前传输的“收益权重”。
成本部分 ： ˜E_n(t) * p_n^τ 。 ˜E_n(t) 大（即 E_n(t) 小）意味着能量匮乏，此时消耗能量的“成本”就很高。

因此，这个功率控制策略是 状态感知 和 上下文感知 的。它告诉D2D-Tx：当你数据多、令牌少时，应该更“积极”地提高功率以获取速率（收益）；当你能量少时，应该更“保守”地使用功率以节约能源（成本）。

然而，这个目标函数由于存在来自其他D2D-Tx的干扰项（ Σ_{m≠n} h_{mn}^τ * p_m^τ ），是一个非凸函数，直接求解全局最优解非常困难。论文中采用了一种巧妙的 连续凸近似 方法。通过对数变换 p̂_n^τ = log(p_n^τ) ，并将非凹的速率项在某个固定点（如0点）进行一阶泰勒展开，将其近似为一个线性函数。经过近似后，原问题转化为一个关于 p̂_n^τ 的严格凹优化问题，其最优解具有一个非常优美的闭合形式： p_n^τ = [ (Q_n(t) + ˜M_n(t)*R_g) * ζ * h_{nn}^τ / ( (˜E_n(t) + μ_n^τ) * (σ^2 + I_n^τ + ζ*h_{nn}^τ) ) ]_{[0, P_n]} 其中 I_n^τ = Σ_{m≠n} h_{mn}^τ * p_m^τ 是干扰项， μ_n^τ 是功率约束对应的拉格朗日乘子。

这个解的形式类似于 加权注水 。注水线不仅受到噪声和干扰 ( σ^2 + I_n^τ ) 的影响，更关键的是受到动态权重 (Q_n(t) + ˜M_n(t)*R_g) / (˜E_n(t) + μ_n^τ) 的调节。权重高（收益权重高、成本权重低）的用户，注水线更低，从而获得更高的功率和速率。

4. OTTRA算法实现与实操详解

基于上述分解，我们提出了 在线两时间尺度资源分配算法 。该算法以分布式和在线的方式运行，每个实体（BS和D2D-Tx）只需要本地或邻居信息即可做出决策。

4.1 算法步骤与伪代码解读

算法1（OTTRA）的流程可以清晰地分为三个层次：

初始化 ：设定迭代索引和收敛门限。 时间帧t开始（大时间尺度决策）：

BS收集信息并执行速率分配（RA） ：
- BS观测所有D2D-Tx的数据队列状态 Q_n(t) 。
- BS求解凹优化问题（公式16），通过梯度下降法更新拉格朗日乘子 η(t) ，直至分配的速率 f_n(t) 收敛（变化小于门限 ϱ ）。最终按公式17计算每个D2D-Tx的分配速率。
- 实操要点 ：BS的RA计算复杂度为 O(N^3) ，其中N是D2D对数量。在实际系统中，这步计算在帧开始时完成，周期为数百毫秒，对于中等规模的网络是完全可行的。BS通过控制信道将分配结果 f_n(t) 广播给各D2D-Tx。
各D2D-Tx独立执行能量交易（ET）决策 ：
- 每个D2D-Tx n基于本地信息：虚拟能量队列 ˜E_n(t) 、虚拟令牌队列 ˜M_n(t) 、信道增益 g_n 、价格参数 R_p 和 R_g 。
- 直接根据公式19的规则进行判断和计算：比较 ϑ*g_n*˜E_n(t) 和 R_p*˜M_n(t) 。
- 若前者大，则购买能量 e_n(t) = min[o_n, (E_max - E_n(t))/(ϑρg_n), M_n(t)/(ρR_p)] 。
- 若后者大或相等，则不购买 e_n(t)=0 。
- 实操要点 ：ET决策是纯本地计算，复杂度极低 O(1) 。D2D-Tx将购买请求发送给PS，PS在无线能量传输阶段统一进行能量广播。

时间帧t内的每个时隙τ（小时间尺度决策）： 3. 各D2D-Tx执行分布式功率控制（TPC） ： * 这是一个迭代过程。每个时隙τ开始时，所有D2D-Tx同步或异步地执行： a. 信息感知 ：D2D-Tx n测量当前时隙自身的直射信道增益 h_{nn}^τ ，并估计来自其他D2D-Tx的干扰 I_n^τ （可通过接收的参考信号强度估算）。 b. 并行计算 ：每个D2D-Tx根据公式24，使用当前感知到的干扰 I_n^τ 和其他D2D-Tx 上一轮迭代 的功率值（初始值可设为0或上一时隙的值），计算自己本轮迭代的期望功率 p_n^τ(i) 。 c. 迭代与收敛 ：所有D2D-Tx将新计算的功率值通过低开销信令（如通过BS协调或在专用信道广播）进行交换。然后重复步骤a和b，直到所有D2D-Tx的功率值变化小于预设门限 φ ，即达到纳什均衡或近似最优解。 * 实操要点 ：这一步采用了 块坐标下降法 。在每次迭代中，每个D2D-Tx在假设其他D2D-Tx功率不变的情况下优化自己的功率。由于近似后的问题关于单个 p_n^τ 是凹的，这种迭代算法能保证收敛到一个局部最优点，在实际中通常收敛很快。计算复杂度约为 O(N^3ρ) ，但这是在每个时间帧内（ρ个时隙）的总开销。

时间帧t结束 ： 4. 队列更新 ：根据本时间帧内的所有决策（ f_n(t) , e_n(t) , p_n^τ ）和实际的服务速率 r_n^τ ，所有D2D-Tx按照第2.1节的更新方程，更新自己的数据队列 Q_n(t+1) 、令牌队列 M_n(t+1) 和能量队列 E_n(t+1) 。这些更新后的状态将用于下一个时间帧的决策。

4.2 关键参数设置与调优经验

算法的性能高度依赖于几个关键参数，在实际部署前需要进行仔细的仿真调优：

控制参数V ：这是权衡网络平均效用和平均队列长度（时延）的“总开关”。理论分析表明，平均效用与最优值的差距在 O(1/V) 以内，而平均队列长度（时延）上界为 O(V) 。
- 调优建议 ：从小V值（如0.1, 1）开始测试，观察系统时延。若时延可接受，逐步增大V，网络效用会提升，但时延也会增加。需要在仿真中绘制出“效用-时延权衡曲线”，根据业务需求（如对时延敏感还是对吞吐量敏感）选取合适的V值。通常V需要设置为远大于1的值才能显著提升效用。
权重系数ϖ_n ：代表不同用户（D2D对）的优先级。可以设置为1（平等对待），也可以根据用户的业务类型（如视频流用户ϖ_n高，背景下载用户ϖ_n低）或服务等级协议（SLA）进行差异化设置。
令牌经济参数R_g和R_p ： R_g 是转发单位数据获得的令牌奖励， R_p 是购买单位能量花费的令牌成本。必须保证 R_p > R_g ，否则令牌系统会失去调节作用（只赚不花或花费成本低于收益）。 R_p/R_g 的比值决定了能量交易的积极性。比值越大，D2D-Tx越“吝啬”于购买能量；比值越小，则购买能量越容易，但需要防止令牌通胀。
收敛门限ϱ和φ ：分别控制RA和TPC迭代算法的精度。门限越小，结果越精确，但迭代次数越多，计算和信令开销越大。需要在精度和开销之间折衷。通常可以设置为一个相对较小的值，如 1e-3 或 1e-4 ，并观察算法在典型场景下的收敛速度。

避坑指南 ：在仿真或实际部署初期，最常见的错误是参数设置不当导致系统不稳定。例如，V值过大，虽然效用上去了，但队列长度爆炸式增长，意味着数据包在缓冲区积压过久，时延不可接受。再如， R_p 设置得只比 R_g 大一点点，导致令牌激励作用微弱，D2D-Tx缺乏购买能量进行转发的动力。建议采用 控制变量法 进行调参：固定其他参数，每次只调整一个参数，观察关键性能指标（如平均效用、平均时延、平均能量水平）的变化趋势，从而理解每个参数的物理意义和影响方向。

5. 性能分析与仿真验证

理论分析和仿真验证是评估算法有效性的两个支柱。OTTRA算法的优越性在这两方面都得到了体现。

5.1 理论性能保证：效用-时延权衡

通过李雅普诺夫优化理论，我们可以严格证明OTTRA算法具有以下性能上界（定理2）：

队列稳定性 ：所有队列（数据、令牌、能量）的平均长度都存在上界，且上界与控制参数V成正比。这意味着算法能保证系统稳定运行，不会出现队列无限增长的情况。
效用最优性 ：算法所能达到的时间平均网络效用 U ，与离线最优解 O* 之间的差距不超过 (B+ϒ)/V 。其中B是一个与系统参数有关的常数，ϒ是一个正常数。

这两个结论共同揭示了算法的核心特性： 通过调节参数V，可以在网络平均效用和平均时延（正比于平均队列长度）之间实现明确的、可预测的权衡 。这为网络运营商提供了清晰的工程指导：如果业务可以容忍一定时延以换取更高吞吐量，就调大V；如果业务对时延极其敏感，就调小V。

5.2 通信开销与复杂度分析

双时间尺度设计的一个巨大优势是 显著降低了信令开销和计算复杂度 。

信令开销 ：RA和ET决策只在每个时间帧（大时间尺度）进行，只需要交换一次队列状态信息和决策结果。TPC决策虽然在每个时隙进行，但其迭代过程主要依赖本地信道测量和有限的邻居功率信息交换。论文分析指出，整体信令开销为 O((2N + (2N-1)ρ)ξ) 量级，其中ξ是量化比特数。相比于在每个时隙都进行所有决策的单时间尺度方案，开销大大降低。
计算复杂度 ：RA和TPC子问题经过转化后都是凸优化问题，可以用高效的内点法、梯度下降法等求解。整体计算复杂度为多项式级别 O(N^3 + N + N^3ρ) ，对于实际网络中D2D对数量N不大的情况（通常几十对），是完全可以接受的。

5.3 仿真结果解读

通过仿真（例如设置4个D2D对，参数如正文所示），我们可以直观地看到算法的动态行为和优越性能：

动态过程与收敛性 ：图4展示了资源分配的动态过程。可以看到，BS的速率分配 f_n(t) 、D2D-Tx的能量交易 e_n(t) 和发射功率 p_n^τ 都能在几次迭代内快速收敛到稳定值。图5则展示了三个队列的演化过程，它们都在有限范围内波动，验证了队列的稳定性。
与传统方法的对比 ：图6将OTTRA算法与传统的平均分配资源（TA）方案进行了对比。横坐标是控制参数V，纵坐标是平均网络效用。明显可以看出，OTTRA算法在不同V值下获得的网络效用始终高于TA方案。这是因为OTTRA能够智能地根据队列状态和信道状态进行差异化资源分配。
效用-时延权衡的验证 ：图7(a)展示了平均数据队列长度（代表时延）随V的变化。随着V增大，效用提升（图6），但平均队列长度也增加，即时延变大。这直接验证了理论分析中的权衡关系。图7(b)和(c)则显示，OTTRA方案下D2D-Tx持有的令牌和剩余能量也优于TA方案，说明我们的激励机制能更有效地促使节点存储能量并积极参与协作。

仿真心得 ：在搭建此类仿真平台时，有几个细节需要注意。一是信道模型的生成，建议采用经典的瑞利衰落或莱斯衰落模型，并合理设置路径损耗和阴影衰落参数，以反映真实的无线环境。二是随机数据到达过程的建模，可以采用泊松过程或伯努利过程。三是迭代算法的停止条件，除了设定最大迭代次数外，必须设置如 ϱ 和 φ 这样的相对误差门限，以避免在数值误差上无谓迭代。最后，为了得到稳定的统计结果，每次蒙特卡洛仿真需要运行足够长的时间（例如数万个时间帧），并舍弃初始的瞬态过程数据。

6. 扩展思考与工程实践挑战

虽然OTTRA算法在理论框架和仿真中表现优异，但要走向实际部署，还需要考虑和解决一系列工程实践中的挑战。

6.1 从理论到实践的桥梁

状态信息的获取与信令设计 ：算法假设BS能完美获知所有D2D-Tx的队列状态（Q, M, E），D2D-Tx能实时感知干扰 I_n^τ 。在实际中，这需要设计高效、低开销的信令反馈机制。队列状态可以在每个时间帧开始时通过上行控制信道汇报。干扰感知则更具挑战，一种可行方案是让每个D2D-Tx在专用时频资源上发送参考信号，其他节点通过测量该信号的接收强度来估计干扰信道增益 h_{mn}^τ 。这需要精密的帧结构设计和同步。
分布式功率控制的实现 ：TPC的迭代过程要求D2D-Tx之间交换功率信息。在密集部署场景下，这可能导致较大的信令开销。可以考虑采用更简化的规则，例如基于部分干扰信息（如最强的一两个干扰源）的近似，或者利用机器学习方法训练一个功率映射函数，直接根据本地观测（自身队列、直接信道、总接收干扰功率）输出功率值，避免多轮迭代。
令牌系统的实现与防欺诈 ：虚拟令牌系统需要有一个可信的中心（如BS）或分布式账本来记录和更新每个D2D-Tx的令牌余额。这涉及到轻量级区块链或可信执行环境等技术，以防止节点伪造交易记录。同时，需要设计机制防止“女巫攻击”（一个恶意节点伪装成多个节点骗取令牌）。

6.2 算法可能的扩展方向

多播与组播场景 ：当前模型假设每个D2D-Tx只为单一接收机服务。可以扩展到更通用的多播场景，即一个D2D-Tx转发的内容可能被多个感兴趣的接收机接收。这时，速率和功率分配问题将变得更加复杂，需要定义组效用函数并设计相应的分布式算法。
移动性管理 ：本文模型假设节点位置相对固定。当D2D对存在移动性时，信道状态 h_n^τ 和网络拓扑（干扰关系）会随时间变化。算法需要引入预测机制，例如利用移动轨迹预测未来的信道状态大尺度衰落部分，或者设计更鲁棒的、对信道预测误差不敏感的控制策略。
与高层协议的跨层优化 ：当前资源分配主要聚焦在物理层和链路层。可以进一步与应用层（如视频码率自适应）、传输层（如TCP拥塞控制）进行跨层优化。例如，BS的速率分配 f_n(t) 可以结合视频块的紧急程度（播放截止时间）来动态调整权重 ϖ_n 。
机器学习赋能 ：李雅普诺夫优化虽然提供了坚实的理论保证，但其性能依赖于准确的系统模型（如信道分布、数据到达分布）。在模型不确定或环境非平稳时，可以结合深度强化学习（DRL）。DRL智能体可以学习在复杂环境下直接做出RA、ET、TPC决策，而李雅普诺夫框架则可以用于设计奖励函数，引导智能体朝着稳定队列和最大化效用的方向学习，形成“理论指导学习，学习超越模型”的混合智能范式。

在我个人看来，这套双时间尺度资源分配框架的价值，不仅在于它针对无线供能D2D这一特定场景给出了优雅的解决方案，更在于它提供了一种处理通信网络中 多时间尺度动态性 和 自私节点激励 的通用方法论。将快变和慢变状态分离，用李雅普诺夫优化处理长期约束和随机性，用经济学中的边际效用和虚拟货币设计激励机制，这些思想可以广泛应用于边缘计算任务卸载、无人机基站部署、车联网资源调度等众多领域。理解其精髓，远比记住几个公式更重要。在实际研究中，我常常发现，最困难的部分不是推导公式，而是如何将复杂的现实问题抽象成这样一个既贴合实际、又便于理论分析的数学模型，这需要深厚的领域知识和对优化理论的深刻理解。

您可能感兴趣的与本文相关内容