sok DRL4SEC

2/26/2026developer

sok DRL4SEC

Disclaimer:
All papers referenced here remain the copyright of their respective authors and publishers. These notes are for personal learning and non-commercial use only. If there is any infringement, please contact me for immediate removal.

这篇论文题为《SoK: The Pitfalls of Deep Reinforcement Learning for Cybersecurity》（SoK：深度强化学习在网络安全中的陷阱），系统性地分析了将深度强化学习（DRL）应用于网络安全任务时常见的11个方法论陷阱。作者通过对2018年至2025年间发表的66篇重要论文进行审查，发现平均每篇论文存在超过5个陷阱，并利用三个典型领域的实验展示了这些陷阱如何导致模型性能下降或产生误导性结果。

摘要 (Abstract)

深度强化学习（DRL）在处理序列决策任务方面表现卓越，但在从实验室模拟转向定制的网络安全环境时面临诸多挑战。网络任务往往具有对抗性、非平稳性和部分可观察性。本文识别并系统化了DRL应用在网络安全（DRL4SEC）中的11个方法论陷阱，涵盖环境建模、代理训练、性能评估和系统部署四个阶段。通过对66篇显著论文的量化分析，本文揭示了这些陷阱的普遍性，并提供了实验证据和改进建议，以支持更严谨、可部署的系统开发。

前言

1. 引言 (Introduction)

DRL已在游戏、机器人和芯片设计等领域取得巨大成功，这些成功激励了其在网络安全中的应用，如恶意活动检测、防御策略制定和漏洞挖掘。然而，网络环境中的对手会主动调整策略，系统状态往往只能被部分观察，这违反了马尔可夫决策过程（MDP）的核心假设。

未能解决这些挑战可能导致模型在模拟中表现优异，但在实际部署时以危险的方式失败，因为人们会错误地相信模型适应了现实情况。

本文贡献：

定量统计了论文进入陷阱的情况
为陷阱分类
做实验证明了陷阱有害
提出了建议

2. 基础概念 (Foundational Concepts)

强化学习与MDP：RL通常被形式化为MDP五元组 $(S, A, R, T, \gamma)$。代理通过与环境交互，学习能够最大化累计奖励的策略。
深度强化学习：使用深度神经网络作为函数近似器，解决高维状态空间下的泛化与扩展问题。主要范式包括基于价值的方法（如DQN）、基于策略的方法和演员-评论家（Actor-Critic）方法。
部分可观察性（POMDP）：在网络安全中，代理往往无法观察到真实状态（如攻击者的隐藏凭据），必须从不完整的观察中推断隐藏动态。

方法论

3. 审查方法 (Review Methodology)

作者通过IEEE Xplore、ACM DL和Google Scholar检索了2018-2025年间的文献。经过显著性标准（顶级会议或高引用）和主题标准过滤，最终选取了66篇论文进行深入审查。

收集论文：两轮收集，筛选出66篇论文
- 显著性标准：长度足够、有10个以上引用
- 主题标准：不要non-deep的RL，不要多agent，
语料特征：论文涵盖对抗性样本生成（22.7%）、入侵检测（22.7%）、模糊测试与Web安全（15.2%）、自动防御（10.6%）、渗透测试（9.1%）等。
- 这里应该画个图
审查过程：由两名审查员独立评估11个陷阱的严重程度（完全存在、部分存在、不存在），最终达成81.5%的共识。解决分歧的方法是疑罪从无。

4. 案例研究环境 (Case Study Environments)

为了展示陷阱的影响，研究使用了三个实验环境：

MiniCAGE (自主网络防御)：模拟防御者防止攻击者渗透核心服务器的场景。CAGE环境就是一个模拟的企业网络。蓝队的目标是防御，红队有两种策略，B-Line策略倾向于攻击特定服务器，Meander倾向于控制整个网络。该环境用于证明Training和Deployment两阶段的设计确实是会影响最终表现的。
AutoRobust (对抗恶意软件生成)：通过修改恶意软件动态分析报告来规避检测，同时保持软件功能正确。该环境用于证明状态-动作空间的设计的重要性。
SQIRL/Link (Web安全测试)：分别针对SQL注入和XSS漏洞生成Payload 。
- Link：Link DRL Agent迭代构建xss payload，本文基于WAVSEP数据集重新训练。用来证明环境建模的重要性。
- SQIRL：生成sql payload，本文基于它自己的benchmark重新训练。用来证明复杂环境的重要性

陷阱

5. 环境建模中的陷阱 (Modeling Environments)

建模是DRL4SEC的基础，若建模不当，后续训练将失去意义。

5.1 M-MS MDP规范不完整

许多论文对状态空间、动作空间、奖励函数或转移动态的定义模糊。59.1%的论文存在此问题，最常缺失的是状态空间和转移动态描述。

核心定义补充：

transition dynamics就是转移模型，转移模型通常表示为一个函数或矩阵，它给出了从状态 ( s ) 采取行动 ( a ) 后转移到状态 ( s’ ) 的概率。

陷阱表现：

有M-MS问题的论文中，状态空间是最常缺失的，其次是转移模型、动作空间、奖励函数
6.1%完全没定义，53.0%定义不全

后果：

影响后续工作，如果不知道转移动态，就无法评估代理是否在利用模拟器本身的漏洞而非学习真正的安全策略
难以迁移复现
难以评估其在真实世界中的效果

建议：

要完整定义四个必要模型

5.2 M-MC 建模正确性问题 (Modeling Correctness)

即便定义了 MDP 组件，如果其逻辑不符合网络安全领域的物理约束或违反了马尔可夫假设，模型依然无效。

核心定义补充：

马尔可夫性质（Markov Property）：指“未来只取决于现在，而与过去无关”。
领域约束（Domain Constraints）：指真实网络中存在的限制，如防火墙规则、拓扑结构、API调用的合法顺序等。

陷阱表现：

违反马尔可夫性：在许多网络攻击任务中，成功的关键往往取决于之前的攻击步骤（如先提权再扫描），如果状态 s_t不包含这些历史信息，代理就无法做出最优决策。
非法状态转移：例如在漏洞挖掘中，代理生成的 Payload 导致了模拟环境崩溃，而环境却重置到了一个不切实际的中间状态。
奖励黑客行为（Reward Hacking）：代理找到了获取高分的“捷径”。例如，在恶意软件规避检测的任务中，代理可能学会了删除所有恶意功能代码，虽然通过了检测，但软件也失去了其原始功用。

后果：

训练出的代理在现实中不可用，因为现实世界不会容忍非法操作。
模型可能会过度拟合模拟器的特定逻辑漏洞。

建议：

专家审核：由安全专家审查 MDP 的逻辑，确保状态转移符合网络协议和攻击路径。
约束验证：在奖励函数中加入惩罚项，严惩违反领域约束的动作。

5.3 M-PO 忽视部分可观察性 (Neglecting Partial Observability)

这是安全领域最致命的建模错误之一。现实中的网络安全任务几乎全是 POMDP（部分可观察 MDP），但许多研究将其简化为完全可观察的 MDP。

核心定义补充：

部分可观察性（Partial Observability）：代理无法看到环境的完整状态。
防御者视角：看不见攻击者的内部工具、已建立的 C2 通道或当前的内存状态。
攻击者视角：看不见目标服务器的补丁情况或杀毒软件的检测逻辑。
观察空间（Observation Space, Ω）：代理实际感知到的信息（如系统日志），它只是真实状态 S 的一个子集或某种经过噪声处理的投影。

陷阱表现：

全知全能陷阱：研究者为了训练方便，给防御代理提供了本不该有的权限（如直接读取攻击者进程的内存）。这种模型在模拟中表现完美，但在真实部署（只能接触到碎片化的日志）时会立即崩溃。
状态混淆：由于信息不完整，两个本质上不同的安全状态可能表现出完全相同的观察值，导致代理做出错误的反应。

后果：

策略脆弱性：代理习惯了获取精确信息，对数据缺失或对抗性噪声（如攻击者清理日志）极度敏感。
部署失败：在实验室模拟中获得的所谓“最佳性能”在真实世界中根本无法复现。

建议：

采用 POMDP 框架：承认信息的不完备性。
引入记忆机制：使用循环神经网络（RNN/LSTM）或记忆缓冲区，让代理根据历史观察序列来推断隐藏的真实状态。
鲁棒性测试：在训练中随机掩盖或加入噪声观察值，评估代理在信息受限时的适应能力。

6. 代理训练中的陷阱 (Agent Training)

训练过程中的随机性和透明度直接影响结果的可复现性。

6.1 T-HR 超参数报告缺失 (Missing Hyperparameter Reporting)

DRL算法对超参数（Hyperparameters）极度敏感，微小的改变可能导致模型从“专家级表现”跌落至“随机推测”。审查显示，36.4%的论文未完整报告其超参数设置。

核心背景：超参数是在学习过程开始前设置的参数（如学习率 $\alpha$、折扣因子 $\gamma$、批次大小 $B$、神经网络层数和每层神经元数量等），它们决定了算法如何“学习”。
现状分析：在有此问题的论文中，最常缺失的是神经网络架构（54.2%）和优化器设置（如学习率、正则化参数等，占45.8%）。
后果：
1. 复现危机：由于DRL的非线性特性，缺乏超参数意味着其他研究者几乎不可能复现出相同的实验结果。
2. 调优黑盒：读者无法判断性能提升是源于算法创新，还是仅仅通过密集的超参数搜索（Hyperparameter Tuning）在特定种子下“凑巧”获得的。
建议：在正文或附录中提供完整的超参数列表，鼓励发布源代码和预训练模型。

6.2 T-VA 缺乏方差分析 (Insufficient Variance Analysis)

由于权重初始化、环境随机性和探索策略（如 $\epsilon$-greedy）的存在，DRL训练具有固有的随机性。66.7%的论文未进行充分的统计方差分析。

核心背景：方差（Variance）反映了实验结果的离散程度。在RL中，单次运行的成功可能只是“初学者的运气（Beginner's Luck）”。
统计现状：大多数论文仅报告了单次训练的最佳结果或平均值，而没有说明该结果在多次独立实验（使用不同随机种子）中的稳定性。
后果：
1. 误导性结论：如果只报告最高分，可能会夸大算法的有效性，掩盖了其在其他运行中可能完全失败的风险。
2. 安全隐患：在网络安全部署中，一个高方差的模型意味着它在处理某些边界案例时是不可预测的，这对于防御系统来说是致命的。
建议：
1. 必须运行多个随机种子（通常建议5到20个）。
2. 报告平均性能的同时，必须标注置信区间（Confidence Intervals）或标准差，并使用统计显著性检验（如Welch’s t-test）。

6.3 T-PC 未证明策略收敛 (No Proof of Strategy Convergence)

收敛（Convergence）是指随着训练的进行，代理的策略逐渐稳定，不再发生剧烈波动。这是本研究中发现的最普遍的陷阱，高达 71.2% 的论文存在此问题。

核心背景：在训练过程中，奖励曲线（Reward Curve）通常应表现为初期上升，随后进入平稳期（Plateau）。
现状分析：许多论文只给出了最终的性能数字，或者展示的奖励曲线在结束时仍处于剧烈震荡状态，或者仍有上升趋势。
后果：
1. 策略不成熟：如果模型未收敛，说明它还没有学到稳定的防御或攻击逻辑，此时的评估结果具有高度的偶然性。
2. 过度拟合与欠拟合：未收敛的模型可能在训练集的特定序列上表现良好，但由于未捕捉到环境的深层分布，其泛化能力极差。
建议：
1. 展示完整的训练奖励曲线，并证明在训练结束前曲线已进入稳定阶段。
2. 区分训练奖励和评估奖励，确保在不带探索噪声的情况下，策略性能依然稳定。

7. 性能评估中的陷阱 (Performance Evaluation)

评估阶段的错误往往掩盖了算法的真实效用。

7.1 E-AM 应用动机不足 (Insufficient Application Motivation)

在决定使用DRL之前，研究者应证明其必要性。然而，39.4% 的论文未能解释为何 DRL 优于更简单的替代方案。

核心背景：DRL 并非万能药，其训练成本高、可解释性差且会引入额外的攻击面。如果传统的启发式算法、线性规划或监督学习能解决问题，则不应强行使用 DRL。
现状分析：许多研究直接跳向 DRL 建模，而没有与非学习类（Non-learning）基准进行对比。
后果：
1. 不必要的复杂性：在安全关键型系统中引入 DRL 增加了系统脆弱性和维护成本。
2. 研究偏见：过度追求技术深度而忽略了实际工程的简洁性。
建议：
1. 必须包含简单的基准（Baselines），如随机策略（Random Search）、贪婪算法（Greedy Search）或静态启发式规则。
2. 证明 DRL 带来的性能提升足以弥补其在计算资源和架构复杂性上的开销。

7.2 E-GA 增益归因错误 (Erroneous Gain Attribution)

这一陷阱涉及对“性能提升究竟来自哪里”的误解。24.2% 的论文存在归因错误，即高性能可能源于环境设计而非 DRL 代理的智能。

核心背景：如果环境中的动作集（Action Set）本身就非常强大，或者奖励函数设计得过于精细以至于“手把手”教代理怎么做，那么任何算法（甚至随机尝试）都能取得好结果。
现状分析：一些研究声称 DRL 取得了突破，但实际上是因为他们改进了模拟器的底层功能，或者通过特征工程简化了问题。
后果：
1. 虚假的进步：掩盖了 DRL 算法本身的局限性。
2. 消融实验缺失：没有通过消融实验（Ablation Studies）来拆解不同组件（如奖励设计、神经网络结构、状态表示）对最终性能的贡献。
建议：
1. 进行消融实验，逐一移除关键组件以观察性能变化。
2. 明确区分“代理学到的策略”和“环境提供的便利”。

7.3 E-EC 环境复杂度过低 (Low Environment Complexity)

网络安全环境往往具有极高的复杂性，但 45.5% 的论文使用的模拟环境过于简单。

核心背景：这就是所谓的“从模拟到现实的差距（Sim-to-Real Gap）”。在只有 5 台主机的网络拓扑中训练出的防御策略，无法直接迁移到拥有成千上万节点的企业内网。
现状分析：
1. 拓扑结构静态：网络拓扑在训练和测试中保持不变，代理只需记住 IP 地址而非理解网络逻辑。
2. 攻击者行为单一：对手往往只执行固定的攻击路径，不具备随机性或自适应能力。
后果：
1. 脆弱的泛化性：代理在处理稍微偏离模拟环境的边缘案例（Edge Cases）时会完全失效。
2. 部署风险：在简单环境中训练出的策略在面对真实世界复杂对手时表现极差。
建议：
1. 增加环境的随机性和多样性（如动态变化的拓扑、随机生成的攻击载荷）。
2. 使用具有代表性的开源安全基准环境（如 CyberBattleSim, NASIM），而不是自建过于简化的私有环境。

8. 系统部署中的陷阱 (System Deployment)

部署阶段的陷阱揭示了静态训练与动态现实之间的鸿沟。

8.1 D-UA 潜在假设不成立 (Underlying Assumptions)

当代理的设计或环境假设在实践中无法满足时，就会出现此陷阱。在被审查的论文中，有 28.8% 的研究受到了这一问题的影响。

核心背景：在将安全问题转化为 DRL 任务时，研究者常会为了简化问题而“放松”对信息访问权限或系统能力的约束。
常见表现：例如，假设防御代理可以实时获取全网流量的特权访问权限，或者在攻击者无法检测的情况下进行无限次的探测（忽略查询预算/Query Budgets）。
后果：
1. 部署失效：在拥有硬性约束（如严格的 API 调用限制或隐私保护）的现实中，这些在“特权环境”下训练出的代理可能完全无法运行。
2. 虚假的安全感：这种与现实脱节的假设会导致对代理能力的过度自信，实则在部署时极易被对手利用其未曾考虑的限制进行攻击。
建议：
1. 评估设计应镜像现实问题，通过限制观察/动作空间和强制执行实际的查询预算来约束环境。
2. 如果必须放松约束，必须显式讨论其带来的权衡，并进行鲁棒性消融实验。

8.2 D-NS 忽视非平稳性 (Non-Stationarity)

DRL 通常假设环境动态是静态的，但网络安全本质上是高度非平稳的（Non-stationary）。只有 45.5% 的论文能够妥善处理这一问题。

核心背景：非平稳性来源广泛，包括：不断进化的防御者、自适应的对手（Adaptive Adversaries）、软件更新导致的“概念漂移”（Concept Drift）以及变化的攻击方法论。
现状分析：最常见的疏忽是不考虑环境中其他参与者的行为变化。例如，在自动网络防御（ACD）中，往往假设攻击者使用固定不变的攻击脚本。
后果：
1. 策略过时：在固定动态下训练的代理在面对策略演进后的对手时，会因为采用过时（Obsolete）的防御手段而迅速溃败。
2. 静默失败：由于概念漂移（如防火墙规则更新），代理的性能可能在部署后随时间缓慢下降，且这种下降往往难以立即察觉。
建议：
1. 将非平稳组件（如对手的适应性）整合到训练环境的动态中。
2. 采用对手压力测试，模拟运营中的不确定性和对手的自适应能力，以增强策略的泛化性。

结语

9. 建议 (Recommendations)

针对上述陷阱，作者提出了具体改进方案：

明确建模：完整定义MDP所有组件，必要时采用POMDP架构或上下文多臂土匪（Contextual Bandits）。
严谨实验：报告所有超参数；运行至少5-20个不同的种子并报告置信区间；绘制奖励曲线证明收敛。
诚实评估：与非DRL基准对比；执行消融实验以区分环境增益与策略增益；使用具有随机性和多样性的复杂环境。
鲁棒部署：进行跨环境测试，考虑对手适应性，并在部署前评估模型在非稳态下的性能。

10. 相关工作 (Related Work)

11. 结论 (Conclusion)

尽管DRL在解决复杂网络安全挑战方面具有潜力，但目前文献中普遍存在的陷阱削弱了其结论的可信度。本研究通过系统化这些挑战并提供操作指南，旨在建立DRL4SEC的方法论标准，使社区能够区分真正稳健的解决方案与仅在理想化设置中成功的实验成果。

附录

附录 A：审查细节

搜索词：包括“Deep Reinforcement Learning”、“Cybersecurity”、“Intrusion Detection”、“Adversarial Malware”等关键词。
信度分析：评估过程中使用的Cohen's k系数为0.712，显示审查员之间具有实质性的一致性。

附录 B：案例研究MDP规格

MiniCAGE：防御代理面临13台主机的网络，状态包括各主机受损程度，动作包括恢复主机配置。奖励函数对红队渗透成功处以重罚（如关键服务器受损扣10分）。
Link/SQIRL：状态由Payload特征向量和HTML响应组成；动作集包括添加前缀、后缀、字符混淆等39种动作。奖励基于是否成功触发漏洞及Payload的简洁性。
AutoRobust：使用DistilBERT提取恶意软件分析报告的嵌入作为状态，动作包括添加白名单项或编辑现有的恶意项。