sok DRL4SEC translate

2/26/2026developer

5 Modeling Environments

Disclaimer:
All papers referenced here remain the copyright of their respective authors and publishers. These notes are for personal learning and non-commercial use only. If there is any infringement, please contact me for immediate removal.

第五章建模环境

DRL应用的基础是将问题形式化为MDP [29, 126]。由于问题的多样性，网络安全领域通常缺乏标准化的DRL环境，因此每个任务都需要定制化的MDP形式化方案。我们识别出环境建模中的三个陷阱（在图1中以绿色标注），这些陷阱对安全应用构成了特殊风险。首先，不完整的MDP规范（第5.1节）会妨碍可复现性，并掩盖基于DRL方法中的潜在缺陷。其次，当底层安全任务被错误地建模为MDP时，就会出现建模正确性（第5.2节）问题。第三，安全问题在实践中往往缺乏完整的系统信息；若对此处理不当，则会导致部分可观测性（第5.3节）问题。

5.1 MDP规范

MDP定义了数值优化目标（即奖励函数）以及智能体从交互中学习的环境结构（即状态-动作-转移动态）[126]。这类似于监督学习中的损失函数和输入输出对的数据分布。因此，一个明确无歧义的MDP定义对于评估任何实现方案的适用性以及关于智能体性能的主张都至关重要 [22]。然而，我们发现网络安全文献中的MDP规范往往缺乏完整定义。MDP描述中常见的模糊之处包括：仅有高层概述，以及存在多种解释空间的缺失转移动态。

MDP规范陷阱 MDP定义不明确，导致一个或多个组成部分（状态空间、动作空间、奖励函数和转移动态）不清晰。 M-MS

M-MS的流行程度 在审查的66篇论文中，我们观察到4篇论文（6.1%）存在完全未规范的MDP定义，35篇论文（53.0%）存在部分未规范的定义，其余27篇论文（40.9%）具有完整的定义。在完全和部分缺失的情况中，规范不足的组成部分分布如下：状态空间最为频繁（22篇论文，33.3%），其次是转移动态（18篇论文，27.3%）、动作空间（14篇论文，21.2%）和奖励函数（10篇论文，15.2%）。如此高的流行程度表明DRL4SEC文献中存在严重的文档记录问题，反映了将复杂安全场景转化为完整规范环境的固有难度 [15, 38]。

M-MS的安全影响 模糊定义在实际部署中可能引发三方面风险。首先，它会掩盖问题形式化中的其他陷阱，例如未能处理部分可观测性的状态空间，会让攻击在造成危害的同时无法被检测到（参见第5.3节）。其次，它阻碍了可复现性，因为重建尝试可能产生不同的MDP。举例而言，"检测到攻击给予奖励、误报给予惩罚"这一描述，由于相对奖励量级的差异，可能产生截然不同的行为 [14]。最后，评估所提方案的实际可行性变得更加困难。缺乏实现细节（例如规范不足的状态）会阻碍对MDP中潜在攻击向量的保证与审计，从而掩盖防御者所面对的攻击面。

M-MS的建议 完整的MDP规范要求对以下内容进行明确无歧义的定义：（1）状态空间，包括可用信息、维度以及各状态值的语义含义；（2）动作空间，明确所有可用动作及其与安全任务的关联；（3）转移函数，描述动作如何影响状态变化，包括随机性和终止条件；（4）奖励函数，提供完整的形式化表达，并说明各组成部分对总体目标贡献的依据。至关重要的是，所有假设、近似或简化都必须明确讨论。当正文篇幅限制了完整规范的呈现时，应在附录或补充材料中加以提供。清晰的MDP定义结合公开可用的代码，能够使后续工作避免歧义，提高可复现性，并在现有方法的基础上加以拓展。

5.2 建模正确性

网络安全应用通常缺乏现成的环境，需要定制化的MDP建模，这可能导致问题形式化中出现微妙但根本性的错误。因此，看似正确的MDP可能违反马尔可夫假设，或无法完整刻画真实的网络安全任务。马尔可夫性质（MDP中假定成立）要求未来状态和奖励仅依赖于当前状态和动作 [126]。然而，该假设在两种情况下会被打破：当环境依赖于完整历史时，或当状态转移与当前状态和动作无关时。即便马尔可夫性质得到满足，M-MC仍可能通过状态、动作或奖励的建模与底层安全任务之间的不对齐而表现出来。这种不对齐难以察觉，因为策略可能通过获得高奖励而表现良好。例如，一个由于奖励不对齐而锁定所有账户的网络防御策略，会导致策略毫无实际价值。

建模正确性陷阱 所建模的环境违反了马尔可夫假设，或未能正确刻画安全问题背后的实际MDP。 M-MC

M-MC的流行程度 在审查的66篇论文中，我们观察到17篇论文（25.8%）存在错误的MDP建模，6篇论文（9.1%）存在轻微建模错误，其余43篇论文（65.2%）具有有效的建模。部分和完全存在问题的共占34.9%，主要源于状态表示和转移方面的问题。尽管对MDP框架的普遍理解较为到位，但未得到处理的马尔可夫性质违反仍存在于三分之一的审查论文中。这可归因于标准化环境的缺失，以及某些任务本身并不适合被形式化为MDP。

M-MC的安全影响 当马尔可夫性质被违反或任务被错误规范时，智能体可能学习到不相关决策之间的虚假相关性。这可能导致策略利用人为构造的序列模式，而非真实的安全关系。例如，将分类任务形式化为序列决策会在相互独立的样本之间引入不存在的时序依赖关系 [88]。同样，违反马尔可夫性质会导致有偏且不稳定的学习，使智能体利用形式化中的人工产物，而非问题中的真实结构。另外，不对齐的奖励会激励智能体通过破坏安全目标的行为来最大化回报，即奖励黑客行为 [63, 121]。这些建模错误共同产生了脆弱的策略——在受控实验中表现有效，但在部署时会以不可预测的方式失败。基于不反映真实世界场景的MDP所学习到的策略，会导致系统不仅效果更差，而且可能更加脆弱。

M-MC的建议 将安全任务建模为MDP必须同时考虑形式化的理论有效性和实践有效性。首先，状态转移必须反映真实的序列结构（下一状态是当前状态和动作的结果），而非人为地将独立决策串联起来。例如，检测任务中的独立样本应寻求替代方法，如深度上下文赌博机 [149, 152]，以避免状态间的虚假相关性 [88]。其次，MDP各组成部分的定义应确保：奖励提供学习信号以激励解决安全任务，而非玩弄奖励函数；动作影响后续状态以实现合理的策略学习；状态包含环境的所有可用信息而不混淆细节。如果实践中无法获得完整的状态信息，则应将问题形式化为POMDP（详见第5.3节），并施加适当的约束，而非强行采用可能存在不对齐的MDP表示。

5.3 部分可观测性

安全问题往往天然缺乏完整信息，例如防御智能体无法预知攻击者可能采用的全部攻击手段。此类问题被描述为部分可观测的。在POMDP中，智能体仅对"隐藏"状态拥有部分知识 [60]。当POMDP未对完整系统动态进行建模时，若将其作为完全可观测问题处理，会导致次优行为以及所学策略中的系统性盲点 [120]。因此，当环境是部分可观测的，其影响必须得到明确分析和适当缓解。

部分可观测性陷阱 环境本质上是部分可观测的（即POMDP），但未采取缓解措施而被当作完全可观测环境处理。 M-PO

M-PO的流行程度 在审查的66篇论文中，我们识别出20篇论文（30.3%）存在明显的部分可观测性问题，另有20篇论文（30.3%）存在程度较轻的问题。在这40篇论文中，8篇论文（12.1%）明确承认了部分可观测性的存在及其潜在问题，但未采取缓解措施。其余未受影响的26篇论文（39.4%）要么未考虑部分可观测任务，要么在建模中直接加以处理。该陷阱的高流行程度表明，部分可观测性是DRL应用于网络安全时的一个普遍挑战。尽管有一定数量的论文承认了该问题，但这与网络安全任务中部分可观测性的高发程度并不匹配。此外，这也凸显了将更广泛的DRL社区的解决方案迁移至网络安全场景的必要性。

M-PO的安全影响 未得到缓解的部分可观测性往往在训练后才表现为漏洞。考虑一个在不完整信息下训练的智能体，若部分可观测性未得到缓解，该智能体可能无法推断出有效执行任务所需的环境隐藏动态。因此，由于系统某些部分的不可观测性，智能体可能形成"盲点"。这类策略在仿真中可能是最优的，但在现实世界中，它们仅有一个有限的"钥匙孔"视角，使其容易受到恶意行为者的攻击。

M-PO的建议 部分可观测性可能是安全任务的固有属性，这类任务往往具有不完整、延迟或被刻意隐藏的信息。因此，在建模中处理部分可观测性对于在不确定性下做出鲁棒决策至关重要。在此类情况下，应将其明确形式化为POMDP。智能体可以利用（部分）信息推断出底层隐藏状态。通常，这可以通过以下方式实现：将近期观测编码进状态表示，例如Atari游戏中使用的帧堆叠方法 [95]；或采用循环策略（如LSTM或Transformer）[60, 92] 来维持内部记忆。其他方法则致力于对未观测信息进行建模，使用隐马尔可夫模型 [143] 或基于模型的方法 [71] 等技术来缓解M-PO的影响。

5.4 建模陷阱案例研究

我们使用Link XSS载荷生成环境 [79] 来展示建模决策如何影响性能。尽管原始环境包含有效的马尔可夫转移，但其设计引入了不必要的部分可观测性，并与实际安全任务存在不对齐。这源于状态空间中的重叠特征——多个XSS载荷可能被映射到相同的DRL状态。例如，单个特征被用于表示多种HTML标签（如img、video、audio或svg标签）。通过重新形式化MDP，可以纠正这种无意中引入的陷阱。因此，我们考虑该任务的两种MDP形式化方案：（1）原始方案，即 [79] 中发布的合并状态版本；（2）独立状态方案，将混淆的载荷特征展开为独立值，使状态维度从47增加12.8%至53。表1展示了这两种MDP在20次运行中的性能表现。

建模正确性与部分可观测性 为每种可能的载荷引入独立状态，使MDP与底层安全任务对齐，从而避免了M-MC陷阱。因此，智能体可以通过选择动作并观察其对当前载荷的独特影响来构造正确的载荷。这同时消除了环境中不必要的部分可观测性M-PO。这一效果在表1中得到了具体体现：独立状态方案相比原始方案将漏洞发现率提高了10.1%，并将性能下界提升了17.3%。因此，通过对状态空间进行小幅调整以消除M-MC和M-PO陷阱，我们可以观察到显著的性能提升。

MDP规范 尽管原始定义较为清晰，但表1中MDP形式化方案之间的性能差异表明，当各组成部分定义不明确时，MDP规范会对最终性能产生严重影响。

第六章训练智能体

与监督学习不同——在数据充足的情况下，训练通常会收敛——DRL训练本质上更具变异性，且对众多因素高度敏感，包括：超参数选择、随机初始化、奖励稀疏性，以及探索的随机性 [3, 62, 103]。我们识别出训练阶段的三个陷阱，这些陷阱可能损害基于DRL的安全系统的可信度。首先，当复现和验证所必需的关键实现细节被省略时，便会出现超参数报告（第6.1节）问题。其次，当未在多次训练运行中进行方差分析（第6.2节）时，所提方法的可靠性能便值得质疑。第三，当由于过早终止训练而未能实现策略收敛（第6.3节）时，往往会导致部署时系统行为不一致且不可预测。

6.1 超参数报告

DRL智能体的超参数与架构选择，由于DRL对这些设计选择的高度敏感性，可能对智能体训练和最终性能产生显著影响 [39, 103]。我们发现，DRL4SEC研究频繁未能报告DRL超参数，包括：智能体架构、随机种子、折扣因子，以及特定DRL算法的设置（例如PPO的截断系数 [116]）。这些信息对于实现可复现性以及在所提方法之间进行公平比较至关重要。

超参数报告陷阱 控制训练过程和智能体架构的超参数未被报告。 T-HR

T-HR的流行程度 在所审查的66篇论文中，我们观察到21篇论文（31.8%）完全未提供超参数，24篇论文（36.4%）仅部分报告了超参数，其余21篇论文（31.8%）完整报告了超参数。超参数缺失率如此之高，考虑到其对DRL的重要性，是十分显著的。这一遗漏从根本上损害了可复现性，并阻碍了DRL4SEC应用的进步。

T-HR的安全影响 由于设计选择的细微变化可能对智能体行为产生不成比例的影响，超参数的不充分说明使得结果难以验证 [22, 103]。超参数的透明度不仅是科学严谨性的问题，更是建立可靠、鲁棒的DRL网络安全应用（使其能够有效执行任务）的先决条件。

T-HR的建议 完整的超参数报告是网络安全领域可复现、可信研究的必要条件，因为DRL算法对超参数选择高度敏感 [3, 62]。论文至少应报告：（1）算法特定超参数，例如学习率、折扣因子γ、批量大小、经验回放缓冲区大小，以及探索参数（如ε）；（2）神经网络架构细节，例如层类型、维度、激活函数、归一化技术；（3）优化设置，例如优化器类型、学习率、梯度截断系数；（4）训练过程，例如总时间步数、更新频率、用于并行训练的环境数量。当正文篇幅有限时，应在附录或补充材料中加以说明。

6.2 方差分析

训练中的方差是DRL的内在属性，可能源于多种因素，包括：随机环境、探索噪声和概率转移 [103]。因此，仅训练单一策略存在将随机性或潜在的异常运行过度解读为代表性性能的风险，因为该策略并不能代表整体性能。训练多个策略则允许使用统计指标来评估方法的性能和方差。

方差分析陷阱 DRL训练的内在方差未通过对多个策略进行明确的性能分析来加以研究。 T-VA

T-VA的流行程度 在所审查的66篇论文中，我们观察到38篇论文（57.6%）未讨论多次训练"运行"或方差分析，6篇论文（9.1%）对方差有部分考量，其余22篇论文（33.3%）进行了多次运行并包含方差分析。事实上，三分之二的研究（44篇论文，66.7%）对方差的考量不充分。这种分析的缺失，通过报告可能并不代表典型性能、而只是训练中有利随机性（例如种子值）所带来结果的做法，掩盖了真正的方法论进步 [103]。

T-VA的安全影响 有利的初始条件，或"初学者运气"，使得单次运行可能高估或低估超出多次运行实际均值的感知性能。这在安全场景中尤为危险，因为一致可靠的性能至关重要。仅凭单次不佳的运行就否定一个平均表现良好的方法，可能导致错误地放弃一个有价值的安全解决方案。反之，那些平均表现承诺过高却无法兑现的智能体，则会使最终用户面临不必要的风险。

T-VA的建议 由于单个训练好的智能体不足以代表该智能体的性能 [4]，训练和评估多个训练好的策略并报告统计方差至关重要。然而，用于评估的策略运行次数N并无统一标准。尽管有观点认为N≥20是合理的均值 [5, 30]，复杂环境可能需要N≥50才能获得鲁棒的95%置信区间 [4]，而DRL论文中通常报告N≤5 [26, 33, 102, 116]。因此，我们建议至少N≥5，并鼓励更多次运行（N≥20或N≥50）以获得更强的统计结论 [103]。为更好地表示智能体行为的方差，还必须报告统计指标 [4, 23, 103]，例如：95%置信区间、四分位距（IQR），以及风险敏感度量（如条件风险价值CVaR）。方差应在训练回合内和回合间进行报告，测试期间最终策略的方差尤应报告 [23]。在网络安全领域，可靠性直接影响安全态势。透明的方差报告使从业者能够进行知情的风险评估，避免依赖那些无法反映部署实际性能的、可能具有误导性的结果。

6.3 策略收敛

DRL训练的目标应当是得到一个已收敛到稳定策略的方案，即便该策略是次优的。确定收敛是DRL中一个困难且尚未解决的问题 [26, 102, 116]。然而，在DRL4SEC文献中，训练长度作为研究收敛性的关键方面，要么频繁未被报告，要么缺乏合理依据。若不展示训练过程中的奖励或性能指标，便无从判断策略是否已收敛，或训练是否被过早终止。

策略收敛陷阱 在训练终止之前，策略的收敛性未得到证明。 T-PC

T-PC的流行程度 在所审查的66篇论文中，我们观察到28篇论文（42.4%）未证明收敛性，19篇论文（28.8%）部分证明或讨论了收敛性，其余19篇论文（28.8%）证明了收敛性。尽管许多论文讨论了所使用训练长度的依据或提及了收敛性，但明确的证明往往付之阙如。收敛性报告中的这一缺口表明，尽管对收敛性需求的认识可能已较为普遍，但对策略收敛性和稳定性的具体证明却常常被低估。以这种方式，所学习行为的可靠性便难以确定。

T-PC的安全影响 若不证明收敛性，便难以确认智能体是否已学习到真正鲁棒的策略，或过早终止是否在某些场景的决策中留下了漏洞 [141]。未收敛的策略带来更高的风险，因为其行为不可预测，而这在罕见的边缘情况下可能被进一步放大 [125]。在此类场景中，即便是原本最优的智能体也可能表现失常，从而在部署时造成明显的漏洞 [53, 125]。

T-PC的建议 策略的收敛性应在学习过程中持续评估，以揭示训练动态，例如不稳定性或最终收敛前的暂时性性能平台期。我们建议包含展示回合奖励或任务特定指标的图表，作为训练终止前稳定性的明确证据 [85, 103]。为确保收敛的一致性，应纳入训练方差的度量，如第6.2节所讨论的那样。这一方法有助于评估代表真正收敛行为的策略，而非仅仅是可能在部署时不可预测地失效的不完整学习快照。

6.4 训练陷阱的案例研究

为评估策略训练阶段陷阱的影响，我们使用第4节介绍的MiniCAGE [40] 环境。具体而言，我们评估T-HR的四种超参数设置，并分别针对T-VA和T-PC研究方差与收敛性。

超参数的影响 图2展示了一组默认超参数设置与三种修改版本的性能："默认超参数"（红色）代表Stable Baselines3³中PPO的默认超参数；"替代学习率"（蓝色）修改了学习率；"替代折扣因子"（紫色）修改了未来奖励的折扣因子；"替代截断"（绿色）修改了PPO的损失截断。我们考察2.5百万步时的最终性能，可以看到仅改变单一超参数便会导致性能出现显著差异，这凸显了超参数透明度对确保可复现性的必要性。

分析方差 对于图2中的每次评估，我们同时绘制了二十个智能体的均值性能及95%置信区间（CI）的上下界。我们可以看到不进行方差分析的潜在影响。具体而言，在500k步时，"替代学习率"（蓝色）的CI上界表现似乎是第二好的智能体。然而，从方差中我们可以看出，处于该CI上界的智能体并不能代表（更低的）均值性能。通过对多次运行进行评估并报告95% CI，我们可以获得对实际性能更为准确的判断。

证明策略收敛 图2还绘制了训练过程中的策略性能（回合奖励）。"默认超参数"（红色）和"替代截断"（绿色）设置在2.0至2.5百万步处展现出相对收敛，可观察到性能曲线趋于平稳且方差较小。相比之下，"替代学习率"（蓝色）和"替代折扣因子"（紫色）在2.5百万步时性能仍在提升，且方差较高。将此类图表与方差分析相结合，可以有效证明收敛性并为所选训练长度提供依据。

³https://github.com/DLR-RM/stable-baselines3

第七章评估智能体

与传统机器学习相比，DRL的评估面临独特的挑战。我们识别出智能体评估阶段的三个陷阱，这些陷阱可能损害网络安全领域基于DRL方法的可信度。首先，当DRL的使用缺乏相对于更简单领域特定方法的充分论证时，便会出现应用动机（第7.1节）问题。其次，当性能提升源于基本智能体能力而非所学策略本身时，便会产生增益归因（第7.2节）问题。第三，当训练和评估在过度简化的设置中进行、未能捕捉现实世界的复杂性时，环境复杂度（第7.3节）便会产生误导性结果。

7.1 应用动机

论证所应用方法的合理性并与已有基准进行比较，是标准的科学实践。因此，DRL的应用必须在实证层面（通过实验比较）和理论层面（通过论证基于DRL方法的价值）均优于现有方法。然而，当通过DRL范式重新建模时，与现有方法进行直接且公平的比较有时并不可行。例如，Goel等人 [54] 将动态活动目录防御设计为一个攻防双方的双人博弈，而非静态检测，从而使得与现有方法的比较并不合理。因此，在此类情况下，从理论上论证DRL相对于现有建模方式的必要性至关重要（例如见第7.4节）。

应用动机陷阱 DRL相对于传统方法的应用未经实证或理论层面的论证。 E-AM

E-AM的流行程度 在所审查的66篇论文中，我们发现8篇论文（12.1%）既未提供实证动机也未提供理论动机；21篇论文（31.8%）仅提供了其中一种形式的动机；其余37篇论文（56.1%）在两种形式上均有论证。部分论证的多数情况（17篇论文，25.8%）源于仅具有理论动机。缺乏适当基准的原因，可能在于将重新建模的任务与先前工作对齐存在困难，或研究重心从探究具体改进转向了DRL应用的新颖性本身。

E-AM的安全影响 与其他学习范式相比，DRL在安全领域的应用相对尚未充分探索。除本文所探讨的其他陷阱外，用DRL替代经过深入研究的方法还存在引入新型攻击面的风险 [53, 119, 125]。因此，基于DRL方法的收益应当超越为复现DRL环境序列化特性而进行的领域内工程设计。

E-AM的建议 尽管DRL能够执行各种复杂任务，但与其他机器学习范式一样，它并不适用于所有任务。因此，将DRL应用于新任务应当在理论上得到论证，并在可能的情况下通过实证加以支撑。当存在可供比较的基准时，应利用它们来展示DRL的优势，同时说明应用DRL的初始动机。当不存在基准时，动机必须证明将任务重新建模为DRL任务的必要性。

7.2 增益归因

如第5.1节所讨论，将安全任务建模为MDP是应用DRL的基础。然而，构建一个可运行的环境需要在状态表示之外做出额外的设计选择，尤其是动作如何被转化为网络安全任务中的具体效果 [103]。这些人工产物可能引入性能增益，从而高估所学智能体的实际贡献。

增益归因陷阱 性能提升源于MDP设计中所提供的额外信息或能力，而非所学策略本身。 E-GA

E-GA的流行程度 在所审查的66篇论文中，我们发现15篇论文（22.7%）未能清晰证明智能体相对于基准环境性能的改进；18篇论文（27.3%）对性能增益来源进行了部分评估；其余33篇论文（50.0%）充分展示了所学策略的贡献。值得注意的是，完全存在该陷阱的15篇论文中有6篇明确承认了这一问题，但并未尝试剥离改进来源。

E-GA的安全影响 不具代表性的增益会对所提DRL方法产生虚假的信心。即便某方法优于现有技术，改进也可能主要归因于基准环境能力而非所学策略，从而削弱关于DRL必要性和收益的结论 [62]。此类智能体可能给人以鲁棒性的错觉，因为其所学策略并非有效性的主要来源，这使其更易受到对手的攻击 [53, 141]。因此，此类改进反映的是更强的基准设计而非有效学习，并且在赋予相同能力的情况下，其他智能体也可以复现这些结果。

E-GA的建议 所学策略的价值可以通过两类消融实验从环境人工产物中剥离出来。首先，在随机动作采样下评估性能，可以将策略学习的贡献孤立出来，并在环境中建立基准性能 [103]。因此，仅由状态-动作工程带来的改进应与训练后的策略性能分开报告。其次，不同方法（包括DRL和其他范式）之间的比较应在等价的信息和能力条件下进行（例如相同的状态-动作空间）。这样可以将MDP工程所引入的改进孤立出来，例如状态中扩展的信息以及动作中增强的能力。

7.3 环境复杂度

环境为DRL智能体提供了交互接口，将智能体的动作转化为具体的安全结果，并提供有意义的反馈，例如变异载荷并观察其效果 [7, 49, 79, 91]。在实践中，实现真实世界环境往往复杂且高度多变。同一安全问题可以通过多种方式加以应对 [10, 15, 31, 40, 127]，并使用环境抽象、仿真或简化 [42, 76, 127, 137]。许多网络安全环境与现实世界的对应关系并不充分，因此智能体性能与基本安全任务的相关性十分有限 [38, 97]。

环境复杂度陷阱 训练和评估在人为设计或过度简化的环境中进行。 E-EC

E-EC的流行程度 在所审查的66篇论文中，我们发现12篇论文（18.2%）在过度简化或人为设计的环境中评估其方法；15篇论文（22.7%）为提升环境的真实性做出了一定努力；其余39篇论文（59.1%）在足够真实的环境中进行了评估。存在该陷阱的40.7%的论文表明，实现真实世界环境的挑战不容忽视。

E-EC的安全影响 在过度简化的环境中训练的智能体可能学习到有效策略，但这些策略可能无法迁移到真实环境，或无法在其中学习 [63, 121]。事实上，从仿真到真实环境的迁移（通常称为"仿真到真实的差距" [101]）可能导致灾难性的失败。一个具体的例子是奖励黑客——智能体学会利用环境建模中的缺陷来最大化奖励，从而导致看似最优却毫无真实安全价值的策略 [100, 121]。这些缺陷在安全场景中尤为危险，失败的代价极高：组织可能基于实验室中的良好结果部署系统，却发现这些系统在现实世界中表现不佳或存在漏洞 [151]。

E-EC的建议 由于仿真到真实差距带来的可迁移性问题，在可行的最真实环境中训练和评估DRL是最佳实践。将DRL应用于安全问题应遵循该特定安全领域的评估最佳实践。例如，在使用真实世界数据或系统的安全领域中（如网络安全测试通常使用真实应用程序），DRL不应排除此类评估。然而，在某些领域，使用真实世界数据或系统具有挑战性或不可行。在此类情况下，应使用基准来证明影响。例如，ACD研究依赖于少数基准仿真器 [1, 2, 9, 57, 58, 127]，而模糊测试研究则推荐使用包含已知漏洞的基准 [74, 113]。

7.4 评估陷阱的案例研究

本节我们考察在评估智能体中识别出的三个陷阱：首先，AutoRobust环境中的增益归因；其次，对抗性恶意软件生成中DRL应用的理论动机；第三，SQL注入SQIRL环境中的环境复杂度比较。

识别增益来源 为评估E-GA陷阱的影响，AutoRobust环境中的目标（参照原始工作 [131] 建模）是剥离方法中不同要素的贡献；结果呈现于图3。首先，我们训练并评估具有完整访问恶意软件检测模型内部状态的策略，称为MDP。其次，我们考虑不具备内部状态访问权限的策略，称为POMDP，以评估在更受限且更真实的威胁模型下的学习性能。最后，我们评估随机采样动作的随机策略（如第7.2节所建议），以孤立动作空间本身的内在效能。图3中的结果有两个关键结论。首先，完全可观测性并不能保证更好的性能，因为即便拥有完全可观测的信息，智能体也可能难以学习该任务。其次，尽管经过训练的策略（MDP与POMDP）有潜力达到更好的性能，但随机基准已经相当强劲。这证明了E-GA的重要性，因为动作空间本身便贡献了整体性能的很大一部分。

论证应用的必要性 作为理论动机的一个示例，在对抗性恶意软件生成领域，DRL相比现有基于梯度的攻击具有几项关键优势。基于AI系统日益增长的复杂性，使得基于梯度的方法难以为继。具体而言，基于梯度的方法假设输入大小固定，将探索限制在攻击者实际可以进行的极小变换子集之内 [153]。类似地，在恶意软件领域，对特征表示进行基于梯度的扰动，并没有一种一致可靠的方法能够将其映射回问题空间中的有效变更，即实际程序。相比之下，DRL可以直接作用于恶意软件样本，绕过了特征空间到问题空间的映射需求。此外，给定一个具有明确定义动作集的攻击者，DRL在收敛时还能额外提供关于漏洞/鲁棒性水平的概率保证 [131]。

改变环境复杂度 为展示E-EC的效果，我们使用来自SQIRL [7] 的相同SMB基准。利用SMB，我们训练两个策略：一个在默认SMB上训练，包含混合的已过滤和未过滤漏洞集；另一个使用相同漏洞但不含过滤（未过滤）进行训练。随后，我们在SMB测试集的已过滤和未过滤漏洞上评估两个训练好的策略；表2展示了20次运行中95% CI的漏洞发现百分比。我们观察到，混合智能体和未过滤智能体均能够在简化的未过滤设置中发现漏洞。然而，当将评估集切换为更具挑战性的已过滤漏洞时，混合智能体发现的漏洞数量下降了47.4%，未过滤智能体进一步下降了11.3%。这表明，在简化环境中评估可能导致性能虚高，从而产生无法转化为实际能力的良好结果。

第八章部署智能体

避免建模、训练和评估阶段的陷阱，并不能保证智能体在真实世界系统的复杂性和不确定性中可靠运行。部署引入了额外的挑战，考验着基于DRL方法的实际可行性、鲁棒性和适应性。我们识别出智能体部署阶段的两个陷阱，这些陷阱会阻碍现实世界中的性能表现。首先，当智能体设计或环境假设在实践中无法得到满足时，便会出现底层假设（第8.1节）问题。其次，当安全环境的演化特性未被充分捕捉时，便会产生非平稳性（第8.2节）问题。

8.1 底层假设

使用DRL对安全任务进行建模和实现，可能引入违反实际部署约束的不现实假设。尽管与建模正确性类似，但遭受D-UA影响的环境在理论上可能是有效的，在实践中却是无效的。例如，在ACD中假设对网络状态的完美了解、对黑盒攻击设置无限制的查询预算、不现实的攻击能力 [107]，或在评估中持续获取奖励所需的真实标签。虽然这些违规行为使问题在研究中变得易于处理，但它们可能使所提方法在现实的安全部署中变得不可行、不实用或无法使用。

底层假设陷阱 环境或智能体训练要求在真实世界应用中无法得到满足。 D-UA

D-UA的流行程度 在所审查的66篇论文中，我们发现10篇论文（15.2%）包含会阻碍现实世界部署的不现实假设（例如在抽象图结构上进行网络防御）；9篇论文（13.6%）存在轻微或部分不现实的假设（例如在实时部署中需要高质量的实时标记数据）；其余47篇论文（71.2%）在现实的部署假设下运行。在存在该陷阱的19篇论文中，6篇论文（9.1%）承认了其假设的不现实性，并意识到实际部署面临的挑战。我们观察到，在将安全问题转化为DRL时，关于信息获取和能力的假设通常会被放宽。重要的是，若约束放宽不可避免，应提供清晰的讨论，以理解所引入的局限性和权衡。

D-UA的安全影响 底层假设可能对基于DRL方法的能力产生过度自信，而这在部署过程中可能并不直接显现 [97]。此类系统可能由于研究与实际部署之间的脱节，而表现无效、性能不足，甚至遭到利用 [53, 100]。此外，在涉及特权数据访问或严格查询预算等硬性约束的情况下，整个方法可能被完全判定为无效。

D-UA的建议 为确保实际相关性和透明度，我们建议将评估设计为尽可能贴近真实世界问题。然而，训练有效的DRL智能体通常需要数百万个时间步和数据点 [17, 142]。在某些情况下，样本高效或离线方法可以最小化所需数据点的数量。同样，其他情况可能需要关于智能体知识、能力和操作条件的合理假设，包括智能体可用的信息和资源。应通过约束观测/动作空间以及强制执行关于查询预算和计算的实际限制，来使用现实的部署设置。在此类假设不可避免的情况下，消融实验应展示在受约束和噪声条件下的性能与鲁棒性。结果的鲁棒性和普遍性可以通过对抗性压力测试来进一步加强，以模拟操作不确定性和攻击者的适应性 [131]。最后，每项研究都应包含对部署要求的简要总结，例如所需权限和训练预算。

8.2 非平稳性

DRL假设环境动态在时间上是静态的，违反这一假设可能导致智能体在部署中性能不佳和泛化能力不足。不幸的是，许多安全任务本质上是非平稳的 [72, 105]，包括：不断演化的防御者 [27, 89, 90, 110]、自适应的对手 [47, 133]、变化的网络拓扑、更新的软件系统，以及不断演变的攻击方法。因此，在训练过程中将这些非平稳因素融入环境动态至关重要。

非平稳性陷阱 环境未能有效缓解底层网络安全任务固有的非平稳性。 D-NS

D-NS的流行程度 在所审查的66篇论文中，我们发现23篇论文（34.9%）未能缓解其网络安全任务固有的非平稳性；13篇论文（19.7%）对任务中存在的部分非平稳性有所考量；其余30篇论文（45.5%）未涉及非平稳性，或已对其选定任务的非平稳方面进行了充分处理。在所审查论文中，最常见的未处理非平稳性是环境中其他参与者的行为，例如ACD中假设固定的攻击者。不考虑许多网络安全任务中持续存在的变化，会削弱对智能体长期性能的潜力与评估。

D-NS的安全影响 在实践中，对手、网络条件和软件系统持续演化；然而，在平稳假设下训练的智能体是在固定动态和可预测行为上学习的。此类智能体对变化脆弱，在动态环境中容易被利用——它们可能因采用过时的策略而失效，或被对抗性战术所操控。除对抗性演化之外，更广泛的概念漂移（例如防火墙或软件更新）也会随时间推移降低性能，导致悄无声息的失效，从而损害长期性能。关键在于，系统在静态评估下可能表现有效，给人以鲁棒性的错觉，但一旦部署在瞬息万变的网络安全运营环境中，便可能表现不可靠。

D-NS的建议 网络安全任务本质上是动态的，因此DRL智能体必须在训练过程中明确接触此类变异性。环境应当以适应性和变化为设计理念；例如，可以通过时序偏移、随机化参数、演化的网络拓扑以及自适应对手来引入非平稳性。此外，课程学习、领域随机化和基于种群的训练等技术，可以帮助智能体对渐进变化或不断强化的条件进行泛化和适应。此外，在适当情况下应使用对抗性训练，让攻防双方迭代地演化（交替或同步更新攻击者和防御者策略）。让智能体对抗自适应的对手进行训练，模拟攻防双方的军备竞赛，使智能体能够学习自适应策略 [133]。随后，可以通过针对未见策略的迁移测试来衡量脆弱性和长期弹性。在环境中有意嵌入非平稳性，意味着DRL智能体能够理解不断演化的安全态势。

8.3 部署陷阱的案例研究

我们使用MiniCAGE [40]（在第4节和第6.4节中已介绍）评估部署DRL智能体时的陷阱影响。首先，我们通过修改测试期间攻防双方之间假定的固定动作顺序来考察底层假设，原始建模中为蓝方先行、红方后行（B→R）。其次，我们通过在训练和测试之间改变固定的攻击者策略来研究非平稳性。

底层假设的崩溃 表3的第一部分展示了当红蓝智能体的动作顺序在训练和测试中发生变化时，DRL防御者的平均奖励（例如，R→B表示红方先行后蓝方，Mixed表示随机轮次顺序）。正如预期，在相同训练顺序下进行测试时，智能体表现相近（B→R为-17.2，R→B为-15.8）。当假定的顺序发生变化时，性能出现退化：R→B智能体的退化较小（-21.0），而B→R智能体的退化则十分显著（-72.7）。这些结果凸显了细微的设计选择如何在所依赖的假设在实践中不成立时导致性能退化。

改变攻击者策略 表3展示了防御智能体在不同攻击者策略下的平均奖励：B-Line和Meander（见第4节），红蓝动作顺序保持为B→R不变。我们观察到，当任何平稳蓝方智能体面对未见过或混合的攻击者策略时，性能均出现退化。通过在训练期间纳入非平稳攻击者策略，可以缓解这一退化——混合蓝方智能体在混合评估和交叉评估中均优于平稳防御者。这些结果表明，当训练未考虑非平稳性时，策略对变化条件可能是脆弱的。