基于标记数据学习降低误报率的算法优化

2020/09/29 02:14

基于标记数据学习降低误报率的算法优化

无论是基于规则匹配的策略，还是基于复杂的安全分析模型，安全设备产生的告警都存在大量误报，这是一个相当普遍的问题。其中一个重要的原因是每个客户的应用场景和数据都多多少少有不同的差异，基于固定判断规则对有统计涨落的数据进行僵化的判断，很容易出现误判。

在没有持续人工干预和手动优化的情况下，策略和模型的误报率不会随着数据的积累而有所改进。也就是说安全分析人员通过对告警打标签的方式，可以将专业经验传授给智能算法，自动得反馈到策略和模型当中，使之对安全事件做出更精准的判断。本文介绍利用专家经验持续优化机器学习的方法，对告警数据进行二次分析和学习，从而显著地降低安全威胁告警的误报率。

为了降低误报率，当前大体上有两种技术途径：

根据不同客户的各种特定情况修正策略和模型，提高策略或者模型的适应能力;

定期(如每月一次)对告警进入二次人工分析，根据分析结果来调整策略和模型的参数配置。

这两种方法对降低误报率都有一定的作用。但是第一种没有自适应能力，是否有效果要看实际情况。第二种效果会好一些，但是非常耗时耗力，而且由于是人工现场干预和调整策略和模型，出错的概率也非常高。

MIT的研究人员[1] 介绍了一种将安全分析人员标记后的告警日志作为训练数据集，令机器学习算法学习专家经验，使分析算法持续得到优化，实现自动识别误报告警，降低误报率的方法(以下简称“标签传递经验方法”)。这种把安全分析人员的专业智能转化成算法分析能力的过程，会让分析算法随着数据的积累而更加精确。继而逐渐摆脱人工干预，提高运维效率。如下图所示：

下面我们通过基于“频繁访问安全威胁告警”模拟的场景数据来介绍一下实现机制。

什么是频繁访问模型?逻辑比较简单：一段时间内(比如1分钟)，一个攻击者对系统的访问次数显著高于普通访问者的次数。此告警规则可以用简单的基于阈值，或者是利用统计分布的离异概率。基于此，我们先模拟一些已经被安全分析人员打过标签的告警数据。根据实际应用经验，我们尽量模拟非常接近实际场景的数据。如下图：

关于模拟数据的介绍：

总共模拟了20天的告警数据，从2017-01-01到2017-01-20。前10天的数据用来训练模型，后10天的数据用来衡量模型的表现;

每个告警带有是否误报的标签。红色代表误报，蓝色代表准确告警。

关于模拟数据的假设：

误报聚集在某个时间段，模拟数据假设的范围是18:00-19:00。在安全运维实践中，的确存在某个特定的时间段，由于业务逻辑或者系统原因导致误报增多的现象。所以上述假设是合理的，告警时间可以作为有效的特征值。但并不是所有的误报都聚集在这个时间段，同时并不是这个时间段的所有告警都是误报;

误报大多来自于一批不同的IP。所以访问来源IP也是有用的特征值;

任何数据都不是完美的，所以在模拟数据中加入了~9%的噪音。也就是说再完美的智能模型，误报率也不会低于9%。

这些假设在实际的应用场景中也是相对合理的。如果误报是完全随机产生的，那么再智能的模型也不能够捕捉到误报的提出信号。所以这些合理的假设帮助我们模拟真实的数据，并且验证我们的机器学习模型。

简要模拟数据的代码实现：

下图显示利用PCA降维分析的可视化结果，可以看到明显的分类情况：