基于WiFi的多模态协同感知跨域行为识别

最新推荐文章于 2026-06-17 19:14:54 发布

原创最新推荐文章于 2026-06-17 19:14:54 发布 · 1.7k 阅读

27 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#人工智能

大家读完觉得有帮助记得及时关注和点赞！！！

抽象

基于 WiFi 的人类行为识别旨在通过分析无线信号变化来识别手势和活动。然而，现有的方法通常专注于单一类型的数据，而忽略了多个特征的交互和融合。为此，我们提出了一种新的多模态协作意识方法。通过利用反映动态路径长度变化的相位数据和与手势运动速度相关的频率变化相对应的多普勒频移（DFS）数据，我们实现了这些特征的高效交互和融合，从而提高了识别准确性。具体来说，我们首先引入了一个双分支自我注意模块，以捕获每种模态中的时空线索。然后，将群体注意力机制应用于级联阶段和 DFS 特征，以挖掘对行为识别至关重要的关键群体特征。通过门控机制，将组合特征进一步划分为 PD-strong 和 PD-weaken 分支，优化信息熵，促进跨模态协同感知。对两个大型公开数据集 Widar3.0 和 XRF55 进行的广泛域内和跨域实验证明了我们方法的卓越性能。

1介绍

人类行为识别（HBR）在智能监控、医疗保健、智能家居和人机交互等应用中发挥着至关重要的作用。HBR 可分为基于传感器、基于视觉和基于无线信号[1,2,3]方法。随着 WiFi 系统的广泛部署和无线技术的进步，使用无线传感的 HBR 受到了极大的关注。HBR 场景涵盖家庭、工作场所和医疗设施等室内环境，而行为类型包括人与对象、人与人以及人与计算机交互。使用运动跟踪技术可以轻松检测到粗粒度活动，但涉及细微运动和最小信号干扰的细粒度手势仍然难以识别[4].

以信道状态信息（CSI）或接收信号强度指示器（RSSI）为特征的 WiFi 信号用于对无线信道进行建模。WiFi 传感的核心思想是，由于人类或物体运动而导致的 CSI 模式变化包含独特的信息。例如，手势识别是通过学习这些信号变化与人类行为之间的映射来实现的[5,6].基于 CSI 的跨域任务手势识别大致可分为基于建模的方法和基于学习的方法。

基于建模的 HBR。基于模型的方法主要侧重于开发信号处理算法，以从接收的信号中提取与环境无关的特征，例如体坐标速度曲线（BVP）[7]、运动变化模式（MCP）[8]和多普勒频移（DFS）[9].然而，这些方法存在局限性，尤其是在复杂的手势识别任务中，因为它们无法捕获所有原始数据，从而导致性能下降。

基于学习的 HBR。深度学习的最新进展已经彻底改变了各个领域[10,11]，包括 Wi-Fi 感应。然而，CSI 信号对环境因素（例如用户的位置、方向和周围环境）很敏感，因此对基于学习的方法提出了重大挑战。接收到的 CSI 信号不仅对有关目标对象的信息进行编码，还捕获与被感应对象无关的特定环境细节，例如静态路径和噪声[12,13].在跨域识别中，训练和测试数据的分布不同，这种环境噪声使任务复杂化，因此需要使用域不变特征来指导学习过程。

图 1：Wi-CBR 处理流程。

由于上述方法的固有局限性，我们建议 Wi-CBR 利用所有原始数据，同时确保集成独立于域的特征图 1。具体来说，我们的方法引入了一种新的多模态协作感知框架，该框架有效地结合了捕获动态路径长度变化的相位数据和反映与手势速度相关的频移的多普勒频移（DFS）数据。为了捕捉每种模态中的时空模式，我们采用了双分支自我注意模块，使系统能够专注于每种信号类型中重要的时间和空间特征。然后将组注意力机制应用于级联阶段和 DFS 特征，使模型能够识别对行为识别至关重要的关键组特征。最后，采用门控机制将融合后的特征划分为增强和抑制分支，优化信息熵，促进跨模态协同互补。这种多个数据源的融合，以及注意力和门控机制的创新使用，实现了更准确和稳健的行为识别，尤其是在跨域场景中。我们的主要贡献总结如下：

•

我们提出了一种基于 WiFi 的行为识别的多模态协作感知方法，该方法利用了两个模态线索：相位和 DFS。Phase 反映动态路径长度变化，而 DFS 捕获与手势移动速度相关的频率变化。
•

开发了一个双分支自我注意学习模块来捕捉模态内的时空线索，并设计了一个群体注意力机制来从级联阶段和 DFS 数据中挖掘关键的群体特征。
•

通过门控机制，将组合特征分为 PD-strong 和 PD-weaken 分支，并进一步进行协作意识交互以提高跨模态互补性。

2相关工作

基于 WiFi 的人类行为识别[14,15]可以大致分为基于建模的方法和基于学习的方法。基于模型的方法依靠专业知识从原始信号中提取与上下文无关的特征，但这可能会导致重要信息丢失。另一方面，基于学习的方法使用机器学习进行手势识别，尽管它们通常缺乏独立于领域的特征指导，从而限制了它们的有效性。

2.1基于建模的 HBR

基于建模的方法包括预处理原始 CSI 数据、提取手动特征（例如速度分布统计）以及使用机器学习模型进行手势识别[6,16,17,18,19,20,21,22].

WiFinger 的[6]使用详细的 CSI 来识别手语，减轻环境噪音并适应手势不一致。Gao 等人。[18]使用动态相位指数误差（EDP 指数）对手势质量进行建模。无线网络[22]应用时域特征选择和 KNN 分类器进行识别。WiGest[5]使用手动构建的模式，但它对粗粒度 RSS 的依赖限制了准确性。威姆[23]由于手动模式定义而面临可扩展性问题，而 WiDraw[24]需要超过 25 个 WiFi 收发器才能准确追踪手部，因此不切实际。QGesture[25]使用两个天线识别手势，但需要事先了解手部位置。

虽然这些研究在 WiFi 信号和手势之间建立了相关性，但它们忽视了不同环境对手势识别的影响。在不同环境中执行相同的手势会显著改变 WiFi 波形[26,27].维达尔3[7]引入了不受环境因素影响的域无关功能 BVP，而 WiHF[8]派生与域无关的运动模式以进行跨域识别。但是，手工制作的功能限制了完整的时空提示捕获。WiGesture 手势[28]将焦点转移到面向手部的特征，提取独立于位置的运动导航基元（MNP）。

2.2基于学习的 HBR

基于学习的方法依赖于直接学习原始 CSI 数据（例如振幅和相位）以进行自动模式识别。

威奇[29]应用 WiFi 感应进行击键识别，但它对环境变化高度敏感。威签[30]提取振幅和相位的时空特征以进行连续的手语识别，但基于深度学习的方法需要广泛的特定领域训练。Tong 等人。[31]使用动态 CNN-GRU-Attention （CGA）模型开发了基于 CSI 的手势识别系统，并引入了相位校正和自适应手势动作截断等技术来提高数据有效性。Yang 等人。[32]提出了一种结合 CNN 和双向 RNN 的深度级联表示学习架构，用于一次性手势识别，提高了时空模式学习。WiHGR[33]构建相位差矩阵，并使用改进的基于注意力的双向门循环单元（ABGRU）自动提取判别特征。

为了应对跨领域的挑战，还出现了一些基于学习的方法。ABLSTM[34]引入了一个基于注意力的框架，避免了因手工制作的功能而导致的隐式知识丢失。CROSSGR[35]从 WiFi 信道数据中提取独立于用户的手势相关功能，从而在用户事先不了解的情况下增强系统的实用性。WiGr[36]利用查询样本和类原型相似性进行手势分类，从而减少跨域 CSI 变化。WIGRUNT 威格隆[37]提出了一个时空双注意力网络，该网络使用 ResNet 将相位数据处理成图像以进行特征提取。Wi-SFDAGR 协议[38]是使用无监督域适应（UDA）解决跨域问题的最新工作，解决了在适应未标记的测试数据期间源数据不可用的情况。

3方法

图 2：阶段和 DFS 可视化。

Wi-CBR 分为四个主要部分：信号预处理、双分支模态内自注意力学习、跨模态协同交互融合和分类预测。在信号预处理中，采用CSI-ratio模型进行去噪，利用STFT获得DFS。随后，CSI 比率的相矩阵和 DFS 矩阵可视化为适合深度学习处理的图像。在网络部分，初始功能提取是通过两个分支模态内集中学习以及预训练的 ResNet18 实现的。然后，通过跨模型交互式融合模块实现特征融合。最后，行为预测是通过分类器实现的，两种损失都实现了约束。如图 3 所示。

3.1任务定义

WiFi CSI 描述了信号在其传播路径上的衰减，例如散射、多径衰落或阴影，以及功率随距离的变化。它可以被描述为：

哪里𝐘和𝐗分别是接收和传输的信号向量。𝐍是加性白色高斯噪声，而𝐇是表示 CSI 的通道矩阵。CSI 是所有传播路径的信号叠加，其信道频率响应（CFR）可以表示为：

哪里f和t表示中心频率和时间戳，m是多路径组件。一个m⁢(f,t)和dm⁢(t)表示mth 多路径组件。Φ表示多路径组件集，而λ是信号波长。对于基于 CSI 的手势识别，multipath 组件m由动态路径和静态路径组成：

3.2CSI 去噪预处理

如上一节所示，手势可以通过 CSI 中相移的变化来描绘。不幸的是，对于商用 WiFi 设备，由于发射器和接收器不同步，因此存在时变随机相位偏移e−j⁢θ抵消:

哪里一个⁢(f,t),e−j⁢2⁢π⁢d⁢(t)λ和d⁢(t)分别表示 Dynamic Components 的 Complex Attenuation、Phase-Shift 和 Path Length。因此，这种随机偏移量阻止了我们直接使用 CSI 相位信息。

因此，我们需要消除e−j⁢θ抵消.幸运的是，对于商用 WiFi 卡，由于共享相同的 RF 振荡器，因此同一 WiFi 网络接口卡（NIC）上不同天线的随机偏移保持相同。因此，CSI 比率模型可以消除它 [16， 25]：

哪里H1⁢(f,t)和H2⁢(f,t)是两个接收天线的 CSI。当两根天线彼此靠近时，Δ⁢d可以看作是一个常数。根据莫比乌斯变换[39]，（5）表示相移的缩放和旋转等变换e−j⁢2⁢π⁢d1⁢(t)λ天线 1 在复平面中，这些变换不会影响相移的变化趋势[40,41,42].

CSI 到 Phase。阶段P提取自Hr可用于描述手势：

哪里一个⁢n⁢g⁢l⁢e⁢(⋅)表示相位提取函数。对于复合体z=ABS 抗体⁢(z)⋅ej⁢θ，我们可以使用一个⁢n⁢g⁢l⁢e⁢(⋅)要获取z,θ=一个⁢n⁢g⁢l⁢e⁢(z).可视化的相位图像如图 1 所示。2（a）的。

CSI 到 DFS。DFS 捕获由于手势运动（例如手速）引起的频率变化。为了提取 DFS，将短时傅里叶变换应用于Hq⁢(f,t):

哪里：w⁢(t−τ)：窗口函数（例如，Hanning 窗口）对信号进行分段。τ：时间本地化。ω：以弧度为单位的频率，与多普勒频移有关。然后计算功率频谱图：

在此频谱图中：频率ω在每次τ对应于多普勒频移fd=ω2⁢π.fd与手势速度成正比v⁢(t).正频率表示朝向接收器运动，而负频率表示远离接收器。这种时频表示支持对手势动态进行详细分析。对于 Widar3.0 数据集，每个 DFS 文件都是一个 6*121*T 矩阵，其中第一维代表 6 个接收机，第二维代表 [-60， 60] Hz 的 121 个频段，第三维代表采样率为 1000Hz 的时间戳。可视化的 DFS 图像如图 1 所示。2（b）的。

图 3：Wi-CBR 的系统框架。Wi-CBR 分为四个主要部分：信号预处理、双分支模态内自注意力学习、跨模态协同交互融合和手势识别。

3.3双分支模态内自我注意学习

双分支自我注意。提出的双路径空间注意力机制处理阶段（𝐏x）和多普勒（𝐃x）功能。让f卷(k)表示具有内核大小的卷积运算k×k和 BN 表示批量规范化。注意力权重的计算公式为：

哪里σ⁢(⋅)是 sigmoid 函数。优化后的特征通过以下方式获得：

哪里⊗是元素乘法，⊕是元素级求和。每个分支都维护独立的卷积参数，通道维度保留在第一个卷积（3→3）并缩减为单通道（3→1）的调用。

双分支特征提取。P/D 分支的独立空间注意力参数;每种模态的单独批量归一化统计数据; 在所有卷积中保持对称填充（3 个像素）;之间没有参数共享φResNet 公司P和φResNet 公司D.

哪里φResNet 公司P和φResNet 公司D表示独立的 ResNet-18 主干。最终表示通过以下方式组合特征：

3.4跨模态协同交互与融合

跨模式交互。为了使提取的 Phase 和 DFS 特征交互合并，我们使用分组归一化来实现不同渠道的关注。对生成的注意力图进行阈值处理，得到加强和减弱的地图，进而得到加强和减弱的 Phase 和 DFS 特征。基于保留重要特征和减弱次要特征[43]，则在使用这两个特征时，特征空间冗余会减少。

Separate operation 旨在将那些信息量较大的特征图与对应于空间内容的信息量较少的特征图分开。我们利用了 Group Normalization （GN）中的比例因子[44]层来评估不同特征图的信息内容。具体来说，给定一个中间特征图X帕金森∈ℝN×C×H×W哪里N是批处理轴，C是通道轴，H和W是空间高度和宽度轴。我们首先标准化输入特征X通过减去平均值μ和除以标准差σ如下：

哪里μ和σ是X帕金森,ε是为数值稳定性而添加的小正常数，γ和β是可训练的仿射变换参数。

注意到我们利用了可训练参数γ∈ℝC作为测量相位和 DFS 空间像素方差的一种方式。空间信息越丰富，空间像素的变化就越大，导致空间像素的变化越大γ.标准化的相关权重Wγ∈ℝC由公式 14 获得，它表明了不同相位和 DFS 特征图的重要性。

然后，将特征图的权重值重新加权为Wγ通过 sigmoid 函数映射到范围（0， 1），并由阈值进行门控。我们将阈值以上的权重设置为 1 以获得信息权重W1同时将它们设置为 0 以获得非信息权重W2（阈值在实验中设置为 0.5）。获取全过程W可以表示为方程（16）：

我们乘以输入特征X帕金森由W1和W2分别产生两个加权特征：加强特征X帕金森S以及信息较少的X帕金森W.因此，我们完成了 input phase 和 DFS 特征之间的交互。注意力权重是通过群体归一化学习方差和偏差来获得的，群体归一化是门控的，以获得加强和减弱的注意力图。获得的两个组件如下：X帕金森S具有信息丰富且富有表现力的空间内容，并得到加强，而X帕金森W的信息很少或没有，这被认为是冗余和弱化的。

跨模态融合。我们提出了一种融合作，以实现协同利用。强化后信息丰富的特征被添加到弱化后信息较少的特征中。生成具有更丰富信息的新功能，即一个特征占主导地位，而其他特征则辅助。我们不是直接添加这两个组件，而是使用交叉融合作来彻底组合两个加权的不同信息特征，以增强它们之间的信息流。然后将交叉渲染的特征 Xw1 和 Xw2 拼接在一起，以获得 Xw 的空间精细特征映射。 Fusion作的整个过程可以表示为：

哪里⊗是元素乘法，⊕是元素求和∪是串联。YPS_DW是一种相位主导的 DFS 辅助融合特征，而YPW_DS是一种相位辅助的 DFS 主导的融合特征。将跨模型融合应用于中间输入特征后X帕金森，我们不仅将信息量较大的特征与信息量较小的特征区分开来，而且还对其进行了重构以增强代表性特征并抑制了空间维度上的冗余特征。

3.5Gestrue 识别和对比损失优化

在上述模块的基础上，我们获得了跨模型融合特征表示X外.大多数现有作品直接提供给全球代表X外放入分类器（即具有 Softmax 的全连接层）中，以预测手势的概率y^.然后，通过最小化相应的损失来训练模型Lc⁢e在预测值之间y^及其基本事实y.

哪里Θc⁢l⁢一个⁢s⁢s⁢我⁢f⁢我⁢e⁢r是学习的参数，Lc⁢e是分类交叉熵损失，并且M是数据样本的数量，S是手势的数量。

对比损失通过学习基于多个正和负样本对的距离测量来优化目标。这背后的关键思想是学习一个嵌入空间，其中相似的样本对彼此靠近，而不同的样本对相距甚远。因此，对于同一实例，我们可以在不同环境中获得不变的表示，即与域无关的特征。我们的目标是通过最小化以下基于对比的目标来学习可推广的表示。对于我th 样本提取特征x我:

其中，对(x我,x+)表示同一类的样本（正对），而(x我,x−)表示来自不同类的样本（负对），其中τ用作 temperature 参数。有几个元素可以影响 CSI 信号的变化模式，影响程度不同。例如，与位置和方向的变化相比，用户对信号模式的影响较小。重要的是，不同环境中的阳性样本对不同，并且由于数据差异很大，有些样本对可能难以匹配。完全对齐所有负样本可能会限制模型的泛化能力。为了缓解这种情况，我们利用类代理来符号化每个手势，理想情况下增强了来自不同设置的样本的弹性。从形式上讲，这些代理向量被定义为分类器中最终全连接层的权重。为了进一步提高语义一致性，我们实现了一种基于代理的对比损失，它利用类代理和样本之间的连接来培养稳健的表示[45]. 给定表示x我之我th sample 中，我们选择它的类 proxywc代替阳性样本x+形成代理到样本阳性对。对比度损失被纳入整体损失函数中ℒ:

哪里wc表示 sample 的类代理我,R是类的数量，而P是负对的数量。一般来说，我们的目标是最小化以下最终损失函数，其中ℒc⁢e是交叉熵损失，并且ℒc⁢o⁢n是基于代理的对比损失。β是权衡参数。

4实验

4.1实现细节

Datasets 设置。为了评估我们的模型在跨域手势识别方面的有效性，我们对 Widar 3.0 和 XRF55 数据集进行了广泛的实验。对于 Widar 3.0 上的域内、跨位置和方向评估，我们使用 80% 的数据进行训练，将 20% 的数据用于测试，并进行五重交叉验证。对于跨地点评估，一个地点用于测试，其余四个地点用于训练。域内和横向评估遵循类似的方法。对于跨环境评估，我们使用了来自三个环境的数据，总共 12,750 个样本（17 个用户× 5 个位置× 5 个方向× 6 个手势× 5 个实例），在两个环境中进行训练，在第三个环境中使用三重交叉验证进行测试。对于 XRF55，跨环境评估涉及四种场景，对 6,240 个样品进行了四重交叉验证。

在我们的实现中，我们使用 Matlab 对 CSI 数据进行预处理并生成 224×224 张 RGB 图像。在获取了相位和 DFS 镜像后，所有模型都在 PyTorch 1.13.1 中实现。网络架构和数据维度如图 2 所示。3. Wi-CBR 采用 ResNet-18[46]使用预先训练的 ImageNet 权重作为特征提取器，解决由于训练数据有限而导致的参数学习挑战[37,47].Cross-Model Interaction 模块使用 4 个组，阈值设置为 0.5。造影剂减重β和 temperature 均设置为 0.1。在训练期间，使用 Adam 优化模型，学习率为 0.001，批量大小为 10，周期为 30。我们对 Widar 3.0 和 XRF55 数据集使用相同的网络结构，以确保跨数据集的稳健性。最终的全连接层调整为 6 或 8 个单位，对应于每个数据集中的手势数量。为了可重复性，随机设置了 42 个种子。

4.2整体性能

表 1：WIDAR3.0 数据集和 XRF55 数据集中 CL（交叉位置）、CO（交叉方向）和 CE（交叉环境）设置下 Wi-CBR 的准确性。

方法	处理流程	维达3.0			意味着	XRF55 系列
方法	处理流程	CL	CO	CE	意味着	XRF55 系列
维达3.0[7]	CSI 公司→DFS 系列→无人驾驶	90.48%	81.58%	83.30%	85.12%	–
IMGFI[48]	CSI 公司→STFT、RT 图像	39.58%	38.12%	40.37%	39.36%	31.90%
EI[49]	CSI 公司→波幅	73.33%	79.70%	–	–	–
WiSR 系列[50]	CSI 图像	67.73%	69.74%	52.77%	63.41%	26.66%
Recurrent ConFormer[51]	原始 CSI	73.84%	85.88%	50.38%	70.03%	16.54%
那[52]	原始 CSI	71.56%	81.76%	49.71%	67.68%	23.23%
无线局域网[8]	CSI 公司→DFS 系列→MCP	91.22%	80.64%	–	–	–
维恩[53]	CSI 公司→DFS 系列	95.20%	93.30%	–	–	–
WIGRUNT 威格隆[37]	CSI 公司→阶段	97.08%	93.39%	95.36%	95.28%	55.92%
WiDual[54]	CSI 公司→阶段	97.39%	94.87%	–	–	–
AaD[55]	CSI 公司→阶段	95.90%	95.38%	93.00%	94.83%	55.64%
Wi-SFDAGR 协议[38]	CSI 公司→阶段	97.30%	97.17%	95.52%	96.66%	57.99%
Wi-CBR 型	CSI 公司→阶段、 DFS	98.34%	96.30%	96.57%	97.07%	66.05%

与最先进的方法进行比较。我们首先评估了 Wi-CBR 在跨位置、跨方向和跨环境场景下的整体性能，并与一些跨域识别方法进行了比较，如表 1 所示。基于建模的方法：Widar3.0[7]，WiHF[8]，WIGNN[53].他们从去噪的 CSI 数据中提取 DFS 特征，并进一步手动提取与域无关的特征，例如 BVP 和 MCP。这些方法在 Widar3.0 数据集上的跨域平均性能可以达到 85.12%。基于低级语义学习的方法：ImgFi[48]，EI[49]、WiSR[50]，Recurrent ConFormer[51]那[52].它们使用低级语义数据，例如原始 CSI、振幅和可以找到的初步 CSI 可视化图像。这些努力在 Widar 3.0 数据集上的平均跨域性能在 40% 到 70% 之间，而切换到 XRF55 数据集时，最大值仅为 31.90%。基于高级语义学习的方法：WIGRUNT[37]，WiDual[54]，AaD[55], Wi-SFDAGR 协议[38].他们在去噪提取阶段使用 CSI-ratio，然后使用高效的 ResNet18 主干网络作为特征提取器。特别是， Wi-SFDAGR 使用吸引力分散网络来优化预测边界并增强特征聚合。在 Widar 3.0 上，跨域平均性能达到 96.66%。

表 2：Widar 3.0 和 XRF55 的详细性能。

数据	设置	1	2	3	4	5
维达尔 3.0	域内	99.04%	99.70%	99.48%	99.78%	99.70%
	CL	97.85%	97.63%	98.74%	98.00%	99.48%
	CO	92.07%	98.22%	97.85%	99.19%	94.15%
	CE	93.19%	99.33%	97.20%	--	--
XRF55 系列	CE	55.65%	68.13%	72.50%	67.92%	--

Wi-CBR 在这两个数据集上通常优于最先进的工作。此外，我们观察到一个有趣的现象：无论使用哪种方法，XRF55 数据集在不同环境中的性能都低于 Widar3.0。这是因为 XRF55 数据集的采样率低于 Widar3.0，环境中的接收器布置数量是 Widar3.0 的一半。另一方面，Wi-CBR 在数据集中表现出稳健性，尽管接收器和采样率等条件发生了变化，我们的工作仍然实现了 66.05% 的准确率。

对于 Widar 3.0 数据集，Wi-CBR 的域内手势识别平均识别准确率为 99.54%，跨位置、方向和环境的平均识别准确率分别为 98.34%、96.30% 和 96.57%。对于 XRF55 数据集，不同环境的平均识别准确率为 66.05%。详细结果如表 2 所示。该设置表示用于测试的数据，而其他数据用于训练。

图 4：我们的方法在域内（重复 1）、CL（位置 1）、CO（方向 1）和 CE（环境 3）设置中的混淆矩阵。

为了分析识别准确性和误分类率，我们在 Widar 3.0 上提供了测试位置 1、方向 1 和环境 3 的混淆矩阵，如图 3 所示。4. 在跨位置和交叉方向测试中，“push” 和 “zigzag” 手势的准确性最高，而 “slide” 和 “sweep” 手势的准确率最低。在跨环境测试中，“sweep” 和 “clap” 表现最佳。有趣的是，“slide” 经常被错误地归类为 “clap”。这可能源于相似的运动轨迹，因为这两种手势都涉及倾斜或滑动运动，因此更难区分。

表 3：不同设置下的消融分析

方法	域内	CL	CO	CE
Wi-CBR 型	99.54%	98.34%	96.30%	96.57%
无 D 的 Wi-CBR	99.42%	96.07%	92.76%	93.76%
无 P 的 Wi-CBR	97.13%	95.04%	87.09%	94.93%
不带 IF 的 Wi-CBR	99.11%	97.07%	95.07%	95.93%
不带 CL 的 Wi-CBR	99.49%	97.26%	95.56%	96.08%

消融研究。我们评估模型的四种变体以进行消融研究。 Wi-CBR w/o D：仅 CSI 比率阶段用作模型的输入数据。 Wi-CBR w/o P：仅将 DFS 图像用作输入数据。 Wi-CBR w/o IF：无交互，使用 WiGRUNT[37]channel-attention 模块 CRU 而不是我们的。 Wi-CBR w/o CL：仅使用交叉熵损失。

表 3 中的结果表明，输入数据显著影响模型性能，相位数据和 DFS 都有助于识别准确性。相位数据提供了全面的原始信息，而 DFS 则有一些遗漏。删除我们的特征交互和融合模块始终会降低模型的准确性，这凸显了跨模态交互对于平衡相位和 DFS 数据的重要性。多模态融合模块有效地集成了不同的模态特征。此外，省略对比度损失指导导致跨域性能明显下降，而域内性能保持稳定，这表明对比度损失有助于模型专注于手势相关特征而不是环境噪声。总体而言，Wi-CBR 有效地利用了完整的 CSI 原始数据和 DFS 来提高跨域性能。

5结论

我们提出了 Wi-CBR，一种基于 WiFi 的跨域人类行为识别框架，具有强大的跨域性能。它结合了基于模型和基于学习的方法，利用相位数据（动态路径长度变化）和 DFS 数据（与手势速度相关的频率变化）。通过利用完整的数据和独立于域的特征指导，Wi-CBR 提高了识别准确性。该框架包括一个双分支自我注意模块，用于捕获时空线索，然后是双门控，用于功能增强和抑制。时域和频域中的跨模态数据融合可实现稳健的行为特征提取，专注于行为本身，同时最大限度地减少环境影响。