大家读完觉得有帮助记得关注和点赞!!!
摘要
真实、大规模且标记良好的网络安全数据集对于训练和评估入侵检测系统(IDS)至关重要。然而,由于隐私限制、数据敏感性以及构建受控收集环境(如测试台和网络靶场)的成本,这些数据集仍然难以获得。本文研究了大型语言模型(LLM)是否可以作为受控的知识到数据引擎,生成适用于IDS研究的结构化合成网络流量数据集。我们提出了一种方法,该方法结合了协议文档、攻击语义和明确的统计规则来调节LLM,而无需进行微调或访问原始样本。通过使用AWID3 IEEE 802.11基准作为一个要求严苛的案例研究,我们使用四个最先进的LLM生成了标记数据集,并通过一个多级验证框架(包括全局相似性度量、每特征分布测试、结构比较和跨域分类)来评估保真度。结果表明,在明确约束下,LLM生成的数据集可以紧密逼近真实网络流量的统计和结构特征,使得梯度提升分类器在真实样本上评估时F1分数高达0.956。总体而言,研究结果表明,受约束的LLM驱动生成可以促进按需进行的IDS实验,提供了一种无测试台、保护隐私的替代方案,克服了物理流量收集和手动标记的传统瓶颈。
1. 引言
在Clive Humby[8]提出"数据是新石油"这一说法近二十年后,数据已成为推动技术创新和进步不可或缺的资产。近年来观察到的颠覆性进步在很大程度上依赖于庞大、多样化和高质量训练数据的可用性;最引人注目的是生成式人工智能(GenAI)的出现和大型语言模型(LLM)的快速发展。数据的这种核心地位同样适用于网络安全领域,其中完善的数据集对于设计、训练和评估入侵检测系统(IDS)及威胁监控方案至关重要。特别是,基于机器学习的安全解决方案严重依赖于具有代表性的网络流量数据,以准确建模正常行为并将其与恶意活动区分开来。
然而,由于隐私问题、数据敏感性以及建立受控生态系统(如测试台[4, 17]、数字孪生[14, 11]或网络靶场[12])的运营成本等多种原因,获取真实、大规模且标记良好的网络安全数据集仍然是一个持续的挑战。为此,合成数据生成已成为解决这些局限性的一种有前景的替代方案,支持超越仅使用真实世界流量追踪所能实现的实验。尽管传统的合成数据生成方法,如模拟器、概率模型或流量重放,在受控环境中显示出巨大效用,但它们常常难以同时捕获复杂的特征间依赖关系、协议约束和高层行为语义。
在此背景下,LLM的最新进展为结构化合成数据生成开辟了新途径[15]。具体来说,除了在自然语言处理方面的成功之外,现代LLM在知识整合、约束推理和结构化输出生成方面展现出强大能力。这些特性表明,LLM可以作为知识到数据引擎,能够将文本规范、统计约束和领域专业知识转化为反映低层特征分布和高层行为模式的真实、高维数据集。与传统的合成数据生成方法不同,LLM有可能直接从描述性输入中编码协议语义、时间依赖性和跨特征关系。这一观察促使本研究旨在回答一个基本的研究问题(RQ),如下所示。
RQ: LLM生成的合成数据能在多大程度上忠实地保留真实网络流量的统计、结构和语义特征,从而在入侵检测研究中作为真实数据集的可靠替代品?
贡献: 我们提出了一种用于网络安全研究的、受控的LLM驱动合成标记数据集生成方法。目标不是复制任何特定数据集,而是评估LLM是否能紧密逼近现实安全实验所需的统计、结构和语义属性。本质上,我们的方法探索了LLM实现无测试台数据集生成的潜力,从而降低与传统数据收集基础设施相关的成本、复杂性和运营开销。为了演示和验证所提出的方法,我们采用了完善的AWID3[4]入侵检测基准作为代表性用例。即,我们采用了一个结合了全局相似性度量、每特征统计分析、降维和跨域分类的多级验证框架。总体而言,本文将LLM定位为一类新型的受控合成数据生成器。结果表明,在仔细约束和验证的情况下,LLM可以生成支持现实实验的结构化数据集,同时减少对成本高昂且困难重重的真实世界数据收集的依赖。
本文的其余部分结构如下。下一节介绍所提出的LLM驱动合成数据集生成方法,详细说明知识提取过程、受控的多阶段生成流程和验证策略。第3节报告实验结果,包括跨多个LLM和学习模型的统计相似性分析、结构比较和跨域分类性能。第4节讨论了从实证结果中得出的主要优势、局限性和未来工作方向。第5节回顾了关于合成数据生成和LLM在网络安全中应用的相关工作。最后一节总结了研究并概述了未来研究方向。
2. 方法
本节描述了通过结合自然语言描述和显式统计约束,使用LLM作为受控知识到数据引擎来生成合成数据集的方法。我们的目标是评估LLM生成的数据是否能够在不直接访问原始数据、无需构建测试台的情况下,准确逼近完善的安全数据集的统计分布、结构依赖性和语义属性。图1所示的方法遵循一个三阶段流程:(i)知识提取,(ii)合成数据集生成,和(iii)验证。请注意,尽管使用了特定的入侵检测数据集作为案例研究,但方法本身与数据集无关,可应用于任何结构化数据集。
如第1节所述,我们选择AWID3数据集[4]作为代表性案例研究。AWID3提供了在受控Wi-Fi测试台中捕获的真实世界IEEE 802.11流量追踪的综合集合,包括正常和恶意活动。即,该数据集针对IEEE 802.11无线流量,这是部署最广泛的无线通信协议,不仅用于小型办公室/家庭办公室(SOHO)和企业环境,也日益用于工业生态系统[13]。它包含四个主要流量类别,即伪装、注入、泛洪和正常流量,包括从Wi-Fi帧中提取的物理层(PHY)(例如,信号强度、帧持续时间、传输速率)和媒体访问控制(MAC)层(例如,帧类型、源和目的MAC地址、序列号)特征。每个实例都明确标记,为监督学习和系统评估提供了分类基准事实。
总之,AWID3通过大量严格约束的PHY和MAC层特征展现出丰富的语义结构,这使其成为结构化合成数据生成的一个要求严苛的测试案例。我们的选择进一步得到了AWID系列数据集被研究界广泛采用作为Wi-Fi入侵检测参考基准的事实支持,并且据我们所知,它代表了最现代的公开可用Wi-Fi安全数据集之一,因为它包含针对现代IEEE 802.11部署的攻击场景以及与最新WPA3认证相一致的保护机制,例如,针对强制性受保护管理帧(PMF)方案的解除认证攻击。因此,在这种语义丰富且协议受限的环境中证明所提方法的适用性,为其潜在的可推广性和可扩展性到其他安全(但不限于)数据集以及涉及不同协议、领域和特征语义的案例研究提供了间接证据。

图1: 提出的三阶段无测试台生成流程。
2.1 知识提取
为了启动合成生成过程,我们首先构建自然语言描述,总结AWID3数据集中反映的操作特征和攻击行为,如图1最左侧所示。这些描述基于:i) 官方IEEE 802.11协议文档[9],ii) 每种攻击类型的性质和机制,iii) 有关AWID3数据集的信息,包括类别分布、特征说明和使用的测试台描述,iv) 观察到的与正常和异常活动相关的特征模式,以及v) 从真实数据集经验推导出的、定义特征概率、依赖关系和确定性约束的统计规则集。这些文本摘要要么直接从现有文档中提取,要么手动编写,封装了原始数据集的语义。此外,数值数据被直接纳入生成过程。
具体来说,在生成之前,LLM被提供了以下材料作为附件或手动构建的上下文基础。具体包括:IEEE 802.11–2020标准[9],以理解MAC和PHY层结构、有效的类型-子类型映射和协议约束;两篇学术论文[21, 2],描述了泛洪和伪装攻击类型及其可观察的网络特征;AWID3数据集文档[4]及相关出版物[4, 3],解释了测试台设置、特征定义和类别分布;一个手动形成的规则集,采用JSON格式,包含从AWID3经验分析中得出的特征分布、概率和约束,如附录0.B所述。关于规则集,由于AWID3数据集包含具有高可变性特征的IEEE 802.11特征,我们发现仅靠自然语言描述来训练LLM几乎是不切实际的。因此,我们编制了补充的统计和数值数据,这是LLM生成器捕获数据集结构和特征模式所必需的。这些数据是通过观察原始AWID3数据集的10万个样本中每个特征的允许值范围以及它们可能具有的值依赖关系而推导出来的。
2.2 合成数据集生成
在准备好参考资料和规则集(如知识提取步骤2.1所述)之后,LLM被交互式地用作受控的合成数据生成器。也就是说,模型没有进行微调或重新训练;而是通过迭代提示工程进行调节。随后,数据集生成分两个不同的阶段进行,如图1中间部分所示。
阶段1 — 硬编码统计规则集: 在此阶段,模型被提供了一个初步规则集,其中每个AWID3特征都有明确定义的离散值和相关的出现概率。LLM直接从JSON文件解析这些分布,并生成一百万个完全符合规则的合成样本,确保严格满足标签计数、概率限制(配额)和协议不变量。请注意,此阶段作为一个逆向工程操作,将AWID3数据集的统计行为解构为确定性数值模式。重要的是,我们校准规则集以在所有主要指标(即精确度、召回率、F1分数和准确度)上实现稳定性和保真度,目标是使在阶段1数据上训练的分类器达到在原始AWID3训练集上训练时观察到的F1分数的至少75%作为性能基线。我们故意省略报告此阶段的结果,因为它们不反映自主的基于LLM的数据生成,而是反映了模型严格遵循预定义指令和约束的能力。因此,通过阶段1和硬编码规则集的定义和校准,我们建立了一个明确的基线,随后在阶段2中从该基线推导出更具描述性的表示。
阶段2 — 描述性和统计混合规则集: 在阶段1的基础上,向LLM提供了规则集的更具描述性的版本,包含更少的显式概率和更丰富的特征行为自然语言规范。值得注意的是,第2.1节中提到的相同知识库附件被重用。此阶段测试了LLM从描述性上下文中推断缺失定量关系的能力,同时保持符合IEEE 802.11的特征逻辑和真实的统计分布。重要的是,为了消除阶段之间任何潜在的记忆持久性或模型偏差,来自阶段1的所有中间数据、提示和缓存模型状态都被完全清除。换句话说,阶段2是使用新会话和单独的模型实例启动的,确保完全的上下文隔离和无偏的生成行为。本质上,阶段2代表了阶段1中定义的确定性约束的受控放松,展示了LLM对结构化的、部分指定的统计系统进行泛化推理的能力。
在这两个阶段中,LLM被明确指示:生成完全符合[3]中提出的精炼的16特征AWID3模式的表格数据;遵循从规则集(概述于附录0.B)导出的确定性采样逻辑;遵守分层采样逻辑,优先考虑协议特定的锁,然后是管理和整体流量配额,最后是后标志分类分布;以逗号分隔值(CSV)格式生成输出,确保数字字段保持在IEEE 802.11有效范围内;验证生成的特征分布并强制执行与AWID3中相同的类别(高度不平衡)比率,即正常=97%,泛洪=2%,伪装=1%。每个数据集都是在严格规则执行下直接在LLM环境中生成的。即,打印中间验证日志以验证是否符合配额、分布和特征依赖关系。每个阶段最终的一百万样本数据集以CSV格式导出,用于下游训练和评估。请注意,本研究中呈现的所有分析、比较和结果仅指阶段2生成的数据集。回顾一下,阶段1仅作为受控校准阶段,为阶段2的合成构建统计基础。同样重要的是要注意,我们确认LLM没有直接访问真实的AWID3数据集,如下所示。
关于先前访问和数据独立性的声明(ChatGPT)。 在本研究之前,我无法访问AWID3数据集,也无法访问任何源自它的原始样本、数据包追踪或特征级数值数据。作为我一般训练的一部分,我不保留或检索特定的基准数据集。生成过程中使用的任何AWID3特定理解仅从本次交互中明确提供的文档、规则集和描述性材料中获取。没有访问、回忆或重建任何原始数据样本,并且所有生成的输出在数据上是独立的,同时在设计上保持统计对齐。
2.3 验证
本节详细说明了用于衡量LLM生成数据集的保真度和实际有效性的评估过程。为此,我们采用了五种互补的评估策略:(i)余弦相似度和(ii)欧几里得距离,(iii)Kolmogorov–Smirnov检验,(iv)主成分分析,以及(v)使用LightGBM、随机森林和MLP分类器的跨域分类,以验证合成数据相对于真实AWID3数据集的语义一致性。我们使用的每种验证方法都进行了简要描述,以方便读者理解并细致把握以下各节的内容。
余弦相似度。 余弦相似度衡量表示为特征向量的两个数据集之间的方向对齐。在此上下文中,A 对应于真实AWID3数据集的特征空间,B 对应于合成数据集的特征空间,如公式1所示。接近1的余弦相似度值表明合成数据集在特征空间中展现出与真实AWID3数据几乎相同的方向结构,意味着在多变量模式上具有很强的全局对应关系。

欧几里得距离。 欧几里得距离量化了特征空间中两个数据集之间的几何分离。此处,较低的距离对应于底层特征分布的数值表示中较小的偏差,如公式2所述。在AWID3上下文中,较小的D_E表明合成样本保留了与原始网络流量相同的特征量级和缩放关系,反映了全局数值景观的准确复制。

Kolmogorov–Smirnov (KS) 统计量。 KS统计量衡量了来自真实和合成数据集的相应特征的经验累积分布函数(ECDF)之间的最大差异。在公式3中,F_1(x) 和 F_2(x) 分别表示给定特征(例如,信号强度、帧持续时间或信道频率)在真实和合成数据集中的ECDF。较低的D_KS意味着合成数据的每特征分布紧密跟随真实AWID3数据集的分布,确认了局部统计保真度。

主成分分析 (PCA)。 PCA用于将两个数据集投影到一个共享的低维子空间中进行结构比较,如公式4所示。当应用于AWID3和合成数据集时,PCA可视化揭示了二者是否在方差空间中占据相似区域。投影中重叠的聚类结构表明LLM成功保留了真实网络流量底层的全局协方差结构和特征间依赖关系。

跨域分类评估。 为了评估生成数据集的语义和功能有效性,监督式随机森林和LightGBM分类器以及一个多层感知器(MLP)前馈网络被专门在合成数据上训练,并在真实AWID3样本上进行测试。这种跨域设置评估了合成数据是否保留了真实数据集中区分正常、泛洪和伪装流量的相同判别性结构和决策边界。
模型性能使用标准分类指标进行衡量,包括精确度、召回率、F1分数、准确度以及附录0.A中的混淆矩阵(CM)。这些指标共同捕捉了分类器正确识别正常和攻击流量模式的能力。高的F1分数和准确度值,以及跨类别的平衡精确度-召回率分数,表明合成数据集有效复制了原始AWID3数据的行为特征和特征关系[10]。混淆矩阵进一步提供了预测的类别级细分,确认了在合成数据上训练的模型是否能够泛化到真实网络条件而不会显著降低检测能力。
3. 结果
本节介绍了第2.3节所述的验证实验的结果。回顾一下,目标是量化LLM在保持特征相互依赖性和攻击类别可区分性的同时,复制AWID3数据集的统计、结构和行为特征的有效性。对于我们的验证基准,我们使用了四个最先进LLM的接口:ChatGPT-5、Gemini 2.5 Pro、Claude Opus 4.1和Qwen3-Max。数据收集和生成实验于2025年11月结束。每个LLM的任务是基于第2.1节详述的相同上下文输入生成类似AWID3的合成数据集。同样,所有模型在相同的模式和规则集约束下运行,以确保生成数据的公平可比性。
使用定义的验证框架对生成的数据集与真实AWID3数据集进行定量比较。采用余弦相似度和欧几里得距离来评估合成数据集与真实数据集之间的全局结构对齐,同时计算每个特征的KS统计量以评估每个特征统计分布的保真度。通过PCA散点图进一步检查维度和结构一致性,可视化降维特征空间中真实样本和合成样本的重叠情况,如图2所示。最后,随机森林和LightGBM分类器以及MLP神经网络专门在合成数据上训练,并在真实AWID3样本上评估,性能通过准确度、精确度、召回率、F1分数和混淆矩阵分析来衡量,如先前在第2.3节中所述。
表1:真实数据集与合成数据集之间的全局相似性。 每个条目报告均值 / 中位数 / 标准差。最佳值以蓝色突出显示,最差值以红色突出显示。
|
模型 |
欧几里得距离 |
余弦相似度 | ||||
|---|---|---|---|---|---|---|
|
均值 |
中位数 |
标准差 |
均值 |
中位数 |
标准差 | |
|
ChatGPT–5 |
1005.85 |
358.87 |
1094.50 |
0.97937 |
0.99851 |
0.04438 |
|
Gemini 2.5 Pro |
1019.60 |
372.14 |
1125.30 |
0.97783 |
0.99762 |
0.04522 |
|
Claude Opus 4.1 |
1059.70 |
427.58 |
1100.17 |
0.97678 |
0.99857 |
0.04536 |
|
Qwen3–Max |
1051.06 |
386.03 |
1100.46 |
0.97713 |
0.99862 |
0.04534 |
表1总结了使用欧几里得距离和余弦相似度评估的真实与LLM生成的AWID3数据集之间的全局相似性。从表中可以看出,ChatGPT-5与真实数据集实现了最接近的对齐,表现出最低的欧几里得均值(1005.85)、中位数(358.87)和标准差(1094.50),以及最高的余弦均值(0.97937)和最低的余弦变异性(0.04438)。Qwen3-Max紧随其后,产生了最高的余弦中位数(0.99862),表明具有很强的典型方向相似性,尽管欧几里得距离略高于ChatGPT-5。Gemini 2.5 Pro产生了有竞争力的平均值,但显示出最大的欧几里得分布范围,表明存在一些异常偏差。Claude Opus 4.1的整体性能最弱,具有最高的欧几里得均值和最低的余弦均值,反映了对真实数据分布的保真度较低。总的来说,结果表明所有四个LLM都成功捕获了AWID3数据集的一般结构和统计模式,其中ChatGPT-5在特征间的数值和几何关系方面表现出最准确和稳定的再现。
表2:每特征KS距离前三名(越低越好)。 每个单元格显示特征(KS值)。
|
模型 |
第1名 |
第2名 |
第3名 |
|---|---|---|---|
|
ChatGPT–5 |
wlan.duration (0.29439) |
frame.len (0.24179) |
radiotap.dbm_antsignal (0.10986) |
|
Gemini 2.5 Pro |
wlan.duration (0.31402) |
frame.len (0.26458) |
radiotap.dbm_antsignal (0.11692) |
|
Claude Opus 4.1 |
frame.len (0.14352) |
wlan.duration (0.12041) |
radiotap.dbm_antsignal (0.10947) |
|
Qwen3–Max |
frame.len (0.15071) |
wlan.duration (0.12054) |
radiotap.dbm_antsignal (0.10971) |
表2报告了每个模型KS距离最高的三个特征,指出了合成数据与真实AWID3数据之间分布偏差最大的地方。特征wlan.duration、frame.len和radiotap.dbm_antsignal一致出现在所有模型的顶部KS值中,表明这些属性表现出最大的可变性,因此是最难准确复制的。然而,这种行为在某种程度上是预期的。即,wlan.duration和frame.len特征本质上是突发性的,受流量类型和传输条件的影响,而radiotap.dbm_antsignal反映了由于信道干扰和天线动态引起的真实世界信号波动。对于缺乏实时时间上下文的纯LLM驱动生成器来说,捕获这些随机的PHY层属性是困难的。有趣的是,虽然ChatGPT-5在全局指标上领先,但Claude Opus 4.1和Qwen3-Max在这些特定的协议密集型特征上表现出更优的局部保真度,为frame.len和wlan.duration实现了更低的KS距离。这表明尽管建模信号方差很困难,但某些模型可能更擅长捕获严格的、离散的协议约束。

(a)

(b)
请参阅标题
(c)

(d)
图2: 二维PCA投影,比较所有四个模型的真实(橙色)和LLM生成(蓝色)AWID3数据。
图2展示了真实与LLM生成的AWID3数据的二维PCA散点图。在所有模型中,合成样本与真实数据集表现出强烈的空间重叠,表明生成的特征保留了整体方差结构和特征间关系。攻击和正常类别的紧密聚类进一步证明所有四个LLM都捕获了底层IEEE 802.11流量模式的统计和几何结构。请注意,在合成点中观察到的轻微离散反映了生成采样过程中引入的可变性,而非系统偏差。对于跨域分类过程,我们选择了LightGBM、随机森林和MLP分类器,涵盖了梯度提升、基于集成和神经架构。具体来说,LightGBM提供了对特征交互敏感的高容量梯度提升基线,随机森林提供了对分布噪声具有鲁棒性的稳健集成学习器,而MLP评估了合成数据是否支持神经架构下的表示学习。
表3:跨域分类结果(在合成数据上训练,在真实数据上测试)。 最佳值以蓝色突出显示,最差值以红色突出显示。
LightGBM
|
模型 |
精确度 |
召回率 |
F1分数 |
准确度 |
|---|---|---|---|---|
|
ChatGPT–5 |
0.9399 |
0.9620 |
0.9487 |
0.9945 |
|
Gemini 2.5 Pro |
0.9372 |
0.9593 |
0.9460 |
0.9942 |
|
Claude Opus 4.1 |
0.9361 |
0.9780 |
0.9543 |
0.9948 |
|
Qwen3–Max |
0.9404 |
0.9754 |
0.9558 |
0.9950 |
随机森林
|
模型 |
精确度 |
召回率 |
F1分数 |
准确度 |
|---|---|---|---|---|
|
ChatGPT–5 |
0.9423 |
0.8961 |
0.9090 |
0.9927 |
|
Gemini 2.5 Pro |
0.9425 |
0.8993 |
0.9113 |
0.9928 |
|
Claude Opus 4.1 |
0.9416 |
0.9006 |
0.9116 |
0.9928 |
|
Qwen3–Max |
0.9469 |
0.9256 |
0.9299 |
0.9941 |
MLP
|
模型 |
精确度 |
召回率 |
F1分数 |
准确度 |
|---|---|---|---|---|
|
ChatGPT–5 |
0.8410 |
0.7772 |
0.8022 |
0.9842 |
|
Gemini 2.5 Pro |
0.8410 |
0.7768 |
0.8020 |
0.9841 |
|
Claude Opus 4.1 |
0.7535 |
0.7447 |
0.6733 |
0.9691 |
|
Qwen3–Max |
0.7180 |
0.9503 |
0.7880 |
0.9759 |
表3展示了专门在合成数据上训练每个分类器并在真实样本上评估所获得的跨域分类性能。虽然为了完整性报告了准确度,但众所周知,在像AWID3这样高度不平衡的环境中(其中多数类(正常)占实例的97%),准确度是一个较差的性能指标。因此,我们的分析主要关注F1分数和召回率,它们更准确地反映了模型识别少数攻击类(泛洪和伪装)的能力。总体而言,LightGBM在所有LLM生成的数据集上取得了最强和最一致的结果,Qwen3–Max产生了最高的F1分数(0.9558)和准确度(0.9950),而所有LightGBM配置的精确度和召回率分别保持在0.93和0.95以上,展示了判别性结构的强保留能力。与LightGBM相比,随机森林表现出略低的召回率和F1分数,但在所有模型上保持了接近0.993的稳定准确度水平,反映了对合成数据中适度分布可变性的鲁棒性。相比之下,MLP表现出明显更低且更可变的性能,最差情况下F1分数低至0.6733,准确度降至0.9691,表明对残留统计失配的敏感性更高,并突出了从合成域到真实域传递神经表示的更大难度。总体而言,结果表明所有评估的LLM都能够生成紧密保留AWID3数据集的统计、结构和行为特征的合成数据集。每个模型都有效地捕获了与泛洪和伪装场景相关的底层流量动态和攻击行为模式。在信号强度和帧持续时间等高方差特征中观察到了微小偏差,但分布和分类性能的整体一致性证实了生成数据对真实AWID3数据集保持了很强的保真度。
4. 优势、局限性与未来工作
本节提供了关于在网络安全中使用LLM进行合成数据集生成的几个关键见解,涉及优势、局限性和未来方向。
4.1 优势
第3节的结果表明,当基于协议特定知识和显式统计约束时,LLM可以生成保留真实数据关键统计分布、结构依赖性和语义特征的合成网络流量数据集。即使对于本研究中考虑的要求严苛的IEEE 802.11用例,这也成立。具体来说,在全局相似性度量、每特征统计检验、基于PCA的结构比较和跨域分类方面,合成数据集表现出与AWID3基准的强对齐,如表1、表3和图2所总结。值得注意的是,梯度提升和集成学习器在跨域任务中的有效性表明LLM成功编码了网络协议的底层决策逻辑。重要的是,专门在合成数据上训练的模型能够有效地泛化到真实流量,特别是对于梯度提升和基于集成的学习器(LightGBM和随机森林),这表明当访问真实世界流量追踪受限或不切实际时,LLM生成的数据集可以支持现实的IDS实验。
除了性能之外,所提出方法的一个关键优势在于其与数据集无关和可控的设计。虽然AWID3作为代表性案例研究,但方法本身独立于任何特定数据集,可应用于其他协议、领域和特征模式。与许多现有的基于LLM的合成数据方法不同,这项工作不依赖于微调或直接暴露于原始样本,从而降低了数据泄露的风险,并使该方法适用于合规敏感的环境。此外,使用显式规则集和协议约束提供了高度的可解释性,使得能够进行有针对性的数据集修改、原则性调试和攻击行为的语义扩展,而无需进行新的数据收集活动。
4.2 局限性
尽管存在强烈的整体对齐,但仍存在一些局限性。首先,当前的生成过程侧重于表格保真度,并未明确建模时间连续性或长程依赖关系,这可能会限制基于序列或流级IDS任务的真实性。换句话说,对于受环境和时间动态影响的高方差特征(如信号强度以及突发性的持续时间或长度模式),这种局限性是明显的,如表2中的顶部KS距离所示。其次,虽然该方法消除了对测试台的需求,但仍需要大量的手动努力来构建统计规则集和验证约束,如果没有进一步的自动化,这可能会引入偏差或限制可扩展性。
最后,跨域泛化性能在不同的学习模型之间存在差异,神经架构对残留分布失配表现出比基于树的方法更高的敏感性,表明合成到真实的可转移性并非普遍保证。在基于树的学习器和MLP架构之间观察到的性能差距表明这些模型消费合成数据的方式存在根本差异。虽然LLM有效地复制了LightGBM用于划分数据的离散逻辑阈值(例如,协议特定规则),但它们难以合成神经网络依赖用于特征表示的平滑统计流形和随机噪声。LLM生成数据中缺乏这种随机细微差别,突显了为实现深度学习架构的高保真可转移性所面临的一个关键挑战。
4.3 未来工作
基于实证发现并识别剩余的差距,未来研究出现了几个方向。一个有前景的途径涉及集成显式时间建模,以捕获网络流量中的顺序依赖关系和突发级动态,可能通过将基于LLM的约束推理与生成对抗网络(GAN)或专门的时间序列模拟器相结合的混合架构来实现。此外,从有限的真实数据或专家反馈中自动提取和精炼统计规则集可以进一步提高可扩展性并减少手动工作。另外,将评估扩展到其他协议、网络环境和攻击类别将有助于评估该方法的普遍性。最后,未来的研究可以探索基于下游检测性能迭代精炼合成数据集的自适应生成策略,从而能够针对特定安全任务闭环优化合成数据质量。
进行中的工作。
所提出的LLM驱动方法的一个显著优势是其合成零日攻击模式(即原始AWID3训练集中不存在的恶意行为)的潜力。传统的合成生成器通常受限于其训练所依据的历史数据的统计界限。相比之下,LLM的推理能力使它们能够从抽象的安全概念和协议文档中进行推断,以生成新的攻击签名。在Wi-Fi特定攻击的背景下,此类新颖且语义复杂的攻击包括著名KRACK攻击[18]的新变体、分片攻击[20]和侧信道攻击[19]。为了评估这一点,我们定义了一个语义注入过程,其中向LLM提供假设或新出现漏洞的自然语言描述,例如,一种新颖的WPA3握手耗尽攻击。通过利用其对IEEE 802.11协议栈的内部知识,LLM将这些语义描述投射到我们模式中使用的16维特征空间中。这实现了一个合成到零日的验证场景。在此设置中,我们评估一个在LLM合成数据上训练的分类器是否能检测到被故意排除在原始训练基线之外的攻击变体。这种能力表明LLM不仅可以作为数据复制器,还可以作为主动安全引擎,使研究人员能够在物理测试台中观察到或在野外捕获之前,就为新兴威胁生成标记数据集。
初步结果预览。 作为对所提出的零日攻击检测语义注入框架的初步验证,我们进行了一项初步的跨域实验,其中使用包含从[5]中描述的最近披露的Block ACK (BA) 和 Block ACK Request (BAR) 解除认证攻击中派生出的语义定义攻击模式的合成生成数据集训练了一个LightGBM分类器,并在不相交的真实数据块上进行了评估。具体来说,训练集和测试集都包含10万个样本,类别分布为70%良性流量和30%攻击流量。尽管在训练期间没有任何真实的零日样本,该分类器实现了0.7293的精确度、0.7100的召回率、0.7196的F1分数和0.8339的整体准确度。显然,这些结果明显低于在分布内攻击场景中观察到的结果,然而,它们表明LLM合成的语义攻击表示可以诱导可转移的决策边界,这些边界能够泛化到先前未见过的真实世界行为。这些早期发现提供了令人鼓舞的证据,表明LLM驱动的合成生成可以支持零日条件下的主动IDS评估,激励更广泛和系统的研究。
5. 相关工作
本节回顾了使用LLM进行合成数据生成的先前工作,重点关注网络安全应用。
在[1]中,作者提出了一种基于LLM的方案,用于生成侧重于社交媒体内容中危害指标(IoC)的合成文本网络安全数据集。具体来说,他们在真实社交媒体数据集和精心整理的IoC知识上对GPT-3.5实例进行了微调,从而能够生成标记评论以模拟平台特定的写作风格。随后,通过训练常规的机器学习和深度学习分类器对生成的文本执行IoC分类来评估合成数据。总之,这项研究针对非结构化文本和网络威胁情报(CTI)风格的数据,依赖于对真实样本的直接访问进行LLM微调。
[7]中的工作提出了一个通用的基于LLM的合成数据生成平台,结合了微调的LLM和差分隐私机制,跨多个领域(包括网络安全)生成合成数据集。所提出的框架使用户能够扩展现有数据集或从高级描述生成新的表格数据,并通过差分隐私技术确保隐私保证。作者在小的通用表格数据集上评估了他们的方案,重点关注统计相似性、隐私-效用权衡和下游机器学习性能。总体而言,作者针对领域无关的表格数据,并依赖于LLM微调和差分隐私。
[6]中的作者探索了使用LLM生成合成网络事件响应过程日志。他们的方法通过使用由事件响应预案指导和领域专家精修的少量提示(few-shot prompting)与ChatGPT和Gemini,来扩展现有的事件响应数据集,生成反映事件响应工作流程的互连事件日志和文本通信数据。总之,这项研究侧重于具有强文本组成部分的过程和通信日志,并使用上下文中的示例执行数据集扩充。
在[16]中,作者介绍了DataDreamer,一个开源的Python框架,旨在通过基于提示的LLM生成和链式处理步骤,支持可重现的LLM在环工作流,包括合成数据生成、数据集扩充和模型微调。具体来说,他们侧重于工具和基础设施,为提示、链接多阶段工作流、缓存、可重现性指纹以及发布合成数据集和模型提供了标准化抽象,主要针对自然语言处理和通用机器学习研究。
总之,关于LLM驱动的合成数据集生成的工作体系仍然有限,特别是在网络安全领域。值得注意的是,所有先前讨论的工作都是最近(2024-2025年)出现的,强调这一研究方向仍处于早期阶段。当前的努力主要集中于非结构化文本工件(例如,CTI叙述和事件响应日志)、领域无关的表格数据或示例驱动的数据集扩充,通常依赖于微调或直接暴露于真实数据集。与这些现有工作相比,我们的研究解决了一个 largely unexplored 的范式:在没有微调或直接访问原始样本的先决条件下,生成结构化的、协议约束的网络流量。虽然当前文献主要通过示例驱动的扩充来处理非结构化文本工件(例如CTI叙述)或通用表格数据,但这项工作调查了LLM作为自主协议推理引擎的能力。通过强调统计保真度、协议语义和跨域IDS泛化,这项研究将重点从单纯的数据复制转向知识驱动的合成,为将LLM作为高度特定网络安全环境的受控生成器进行了首批系统评估之一。
6. 结论
本文研究了使用LLM作为结构化合成网络流量数据的受控生成器用于IDS研究的可行性。受物理测试台的高成本和物流复杂性的驱动,我们提出了一种方法,将LLM基于协议语义和统计约束,绕过了对微调或直接访问原始数据集的需求。我们使用AWID3基准对四个最先进的LLM进行的评估表明,这种知识驱动的合成保留了真实世界流量的统计和结构属性。值得注意的是,合成数据集实现了高达0.979的余弦相似度均值,并支持高保真度的跨域检测。专门在合成数据上训练的梯度提升学习器实现了高达0.956的F1分数,证明LLM可以成功编码网络攻击的判别逻辑。虽然在捕获随机信号层噪声方面仍存在微小差异,但结果提供了令人信服的证据,表明LLM可以作为生成高质量网络安全数据的一种实用的、无测试台的替代方案。最终,这项工作为一种更敏捷的研究范式铺平了道路,即按需合成真实数据集。这种方法通过绕过物理数据收集、手动标记以及与共享真实世界网络追踪相关的限制性隐私法规这些资源密集型瓶颈,极大地加速了稳健IDS的研发周期。
附录0.A 混淆矩阵
图3展示了从跨域分类实验获得的混淆矩阵(CM),其中LightGBM模型在合成数据集上训练,并在真实AWID3样本上评估。所有四个LLM生成的数据集都表现出与真实数据的强对齐,在正常、泛洪和伪装类别上实现了高识别准确度。轻微的误分类主要发生在正常流量和泛洪流量之间,它们共享重叠的时间和时间信号特征。这些结果证实生成的数据集保留了与真实网络行为一致的有意义的判别性结构。

(a)

(b)

(c)

(d)
图3: 所有四个LLM生成数据集上表现最佳的分类器(LightGBM)的混淆矩阵。所有模型在正常类和攻击类上都表现出高真阳性率。
附录0.B 规则集概述
清单1中的伪代码定义了一个规则严格的Wi-Fi流量生成器,它根据人类专家在真实网络追踪中观察到的标签先验和每标签分布精确生成N行。对于每个标签,它对核心字段进行采样:类型/子类型、信道频率和PHY标志,包括radiotap.length、RSSI、DS方向、frame.len(来自离散的、标签特定的支持集)和wlan.duration。每一行都根据硬约束进行验证,即子类型到类型的允许列表、频带/标志一致性、DS规则、当radiotap.length=64时TSFT必须为0、合法的控制持续时间以及支持的frame.len);否则将被拒绝并重新采样。采样后,应用配额阶段:首先强制执行硬锁,然后是wlan.fc.protected和其他标志(例如,重试、节能管理、更多数据),这些标志与每标签目标匹配,同时从不影响受保护的行或禁止的控制子类型。分离采样、验证和配额调整保留了目标分布和多字段不变量。单个随机数生成器(RNG)种子可实现完全可重现性。可选的标签特定覆盖(例如,泛洪:radiotap.length=56且radiotap.present.tsft=1)可以在全局混合之前应用,以纠正偏差而不影响其他类别。
清单1:规则集伪代码
1# 全局变量: R 规则集; N 行数; 种子; 类别={0,1,2}
2
3过程 生成(R, N, 种子):
4 rng := 初始化RNG(种子); C := R.标签分布.计数
5 断言 求和(C.值) == N
6 D := 空列表
7 对于 标签 在 类别 中:
8 当 计数(D 中 标签=标签) < C[标签] 时:
9 r := 生成行(R, 标签, rng); 如果 检查(R, r): 追加(D, r)
10 D := 强制执行配额(R, D); 断言 精确标签计数(D, C); 返回 D
11
12函数 生成行(R, 标签, rng) -> 行:
13 # 类型/子类型
14 t := 抽取(R.按标签的类型混合百分比[标签], rng)
15 st := 抽取(R.按标签和类型的wlan_fc子类型百分比[标签][t], rng)
16 断言 st 在 R.编码.类型到子类型允许列表_数值[t] 中
17 # Radiotap
18 f := 抽取(R.按标签的信道频率百分比[标签], rng)
19 如果 f==5180: (cck, ofdm):=(0,1) 否则: (cck, ofdm):=抽取(R.radiotap.观测到的24标志百分比, rng)
20 rtlen := 抽取(R.radiotap.按标签的radiotap长度百分比.获取(标签, R.radiotap.长度混合百分比), rng)
21 tsft := 抽取_伯努利(R.radiotap.按标签的tsft对应长度.获取(标签,{}).获取(rtlen, R.radiotap.tsft对应长度[rtlen]).伯努利参数, rng)
22 rssi := 抽取_RSSI(R.rssi规则[标签], rng)
23 # MAC 字段
24 如果 t 在 {0,1} 中: ds:=1 否则: ds:=抽取(R.wlan_fc_ds规则.数据配额百分比, rng)
25 flen := 抽取_帧长度(R.帧长度规则, 标签, rng)
26 如果 t==1: dur:=抽取(R.持续时间规则.按子类型的控制百分比[st], rng)
27 否则: dur:=抽取(R.持续时间规则.按标签百分比[标签], rng)
28 frag:=0; retry:=0; pwrmgt:=0; moredata:=0; prot:=0
29 返回 {"标签":标签, "wlan.fc.type":t, "wlan.fc.subtype":st, "wlan.fc.ds":ds,
30 "frame.len":flen, "wlan.duration":dur, "radiotap.channel.freq":f,
31 "radiotap.channel.flags.cck":cck, "radiotap.channel.flags.ofdm":ofdm,
32 "radiotap.length":rtlen, "radiotap.present.tsft":tsft, "radiotap.dbm_antsignal":rssi,
33 "wlan.fc.frag":frag, "wlan.fc.retry":retry, "wlan.fc.pwrmgt":pwrmgt,
34 "wlan.fc.moredata":moredata, "wlan.fc.protected":prot}
35
36函数 检查(R, r) -> 布尔值:
37 如果 r["wlan.fc.subtype"] 不在 R.编码.类型到子类型允许列表_数值[r["wlan.fc.type"]] 中: 返回 假
38 如果 (r["radiotap.channel.freq"]==5180 且 非(r["radiotap.channel.flags.ofdm"]==1 且 r["radiotap.channel.flags.cck"]==0)) \
39 或 (r["radiotap.channel.flags.cck"]==1 且 r["radiotap.channel.flags.ofdm"]==1): 返回 假
40 如果 (r["wlan.fc.type"] 在 {0,1} 中 且 r["wlan.fc.ds"]!=1) 或 (r["wlan.fc.type"]==2 且 r["wlan.fc.ds"] 不在 {2,3} 中): 返回 假
41 如果 r["radiotap.length"]==64 且 r["radiotap.present.tsft"]==1: 返回 假
42 如果 r["wlan.fc.type"]==1 且 r["wlan.duration"] 不在 键集合(R.持续时间规则.按子类型的控制百分比[r["wlan.fc.subtype"]]) 中: 返回 假
43 如果 非 支持的帧长度(R.帧长度规则, r["标签"], r["frame.len"]): 返回 假
44 返回 真
45
46过程 强制执行配额(R, D):
47 D := 应用锁(R.受保护联合策略.锁, D) # 先应用硬锁
48 对于 标签 在 {0,1,2} 中:
49 D := 匹配百分比(D, "wlan.fc.protected", R.受保护联合策略.配额目标.管理帧百分比[标签],
50 符合条件=管理帧行(D, 标签), 保护行=R.受保护联合策略.从不触碰条件)
51 D := 匹配[其余配额...]

5085

被折叠的 条评论
为什么被折叠?



