数据科学应用于安全领域

例如，在当前恶意软件检测的场景中，无论是恶意软件的制作规模还是攻击者在修改恶意软件特征方面的成本，都使得基于特征的恶意软件检测方法已经过时了。

相反，反病毒公司现在正在训练神经网络或其他类型的机器学习算法，使用庞大的恶意软件数据集来让这些模型和算法学习它们的特征，这样就可以在不必天天更新模型算法的情况下实现新型恶意软件变种的检测。通过结合基于特征检测和机器学习检测两方面的技术方法，就可以同时覆盖已知和未知恶意软件的检测范围。

未来你可以看到越来越多的安全运营中心(SOC)采用数据挖掘和人工智能技术。这确实是剖析海量系统事件数据集来识别实际攻击的唯一方法。

什么是数据科学？

数据科学是一个不断增长的算法工具集合，它可以让我们通过使用统计学、数学和巧妙的统计数据可视化技术来理解和预测数据。虽然有更具体的定义，但一般来说，数据科学有三个组成部分: 机器学习、数据挖掘和数据可视化。

在网络安全的场景下，

机器学习算法通过学习训练数据来检测新的安全威胁。这些方法已经被证明可以检测出那些能被基于特征的传统检测技术检测出的恶意软件。

数据挖掘算法通过搜索安全数据来找出一些有趣的模式(例如，有威胁的攻击者之间的关系)，这些模式可能有助于我们辨别针对自身组织的攻击活动。

最后，数据可视化技术将枯燥无味的表格数据转换成图像的形式，帮助人们轻松发现有趣和可疑的趋势。

为什么数据科学对安全性至关重要？

安全总是与数据有关

当我们试图检测网络威胁时，我们就是在对文件、日志、网络数据包和其他结构形式的数据进行分析。传统的网络安全专家不会针对这些数据源，使用数据科学技术来进行检测。相反，他们使用文件哈希值、自定义的检测规则(如特征)和自定义的启发式方法。尽管这些技术有其优点，但是针对每一种类型的攻击，都需要人为参与的技术，这就需要太多的人为工作来跟上不断变化的网络威胁形势。近年来，数据科学技术在提升我们检测网络威胁的能力方面变得至关重要。

网络安全事件指数增长

以地下黑产中的恶意软件增长情况为例。2008年，在安全社区中所知道的恶意可执行软件大约有100万种。2012年，这个数字达到了1亿。2018年，安全社区已知的恶意可执行软件数量已经超过7亿( https://www.av-test.org/en/statistics/malware/), 而且这个数字可能还会继续增长。

由于恶意软件的数量庞大，基于特征的手动检测技术已不再是能检测出所有网络攻击的合理方法。由于数据科学技术使得检测网络攻击的大部分工作自动化，并大大减少了检测这些攻击所需使用的内存，因此随着网络威胁的增长，它们在保护网络和用户方面有着巨大的潜力。

数据科学是这十年趋势

数据科学是这十年的趋势，而且可能未来十年仍然如此。