概述
Botconf 是一个致力于了解恶意软件生态系统和僵尸网络的会议。 它是由一群朋友于 2012 年构思出来的,他们认为有必要召开一次会议,从各个角度关注这个主题,包括恶意软件本身、它背后的人,以及防范它的方法。 Botconf 背后的团队由女性和男性组成,他们的日常生活致力于保护他们的组织、了解网络威胁和培训他人 1。
该会议通常会聚集来自世界各地的 400 名来自不同背景的人,包括执法部门、学术界、CSIRT、威胁分析团队、防病毒开发人员等。 他们都有一个共同的目标,那就是打击恶意软件。 会议的第一天专门用于小型研讨会,主要会议将在接下来的三天内举行。 有很多机会交流思想和知识,享受美食 。
数据挖掘基本概念
在关联规则挖掘中,Support、Confidence和Lift是三个重要的概念,它们分别用来衡量规则的有效性和关联性。
- Support(支持度):表示项集(itemset)在总事务中出现的频率。例如,如果我们有100个事务,其中有15个事务包含了我们关注的项集A,那么项集A的支持度就是15%。
- Confidence(置信度):表示在包含项集A的事务中,也包含项集B的概率。例如,如果我们有15个包含项集A的事务,其中有10个事务也包含了项集B,那么“项集A导致项集B”的置信度就是66.67%。
- Lift(提升度):用于衡量项集A的出现对项集B的出现的影响。Lift值等于1表示A和B没有关联;大于1表示A和B有正相关性;小于1表示A和B有负相关性。
这三个指标之间的关系是:
- Support是关联规则的基础,它告诉我们规则涉及的项集在数据中的普遍程度。但是,支持度不能告诉我们规则的方向,也就是说,它不能告诉我们项集A的出现是否会导致项集B的出现。
- Confidence在支持度的基础上加入了规则的方向,它告诉我们在项集A出现的情况下,项集B出现的概率是多少。但是,置信度有一个问题,就是它可能会被项集B的普遍性所影响。例如,如果项集B在大多数事务中都出现,那么即使A和B之间没有关联,”项集A导致项集B”的置信度也可能会很高。
- Lift就是为了解决这个问题而引入的。提升度考虑了项集B的普遍性,它告诉我们在考虑了项集B的普遍性之后,项集A的出现对项集B的出现的影响是增加还是减少。因此,提升度可以被看作是对置信度的一种校正。
“Lift”是关联规则挖掘中的一个重要概念,用于衡量两个事件(或物品)之间的关联性。在关联规则中,我们通常说“如果发生了事件A,那么也会发生事件B”,并用Lift值来衡量这种关联性的强度。
Lift值的计算公式是:Lift(A→B) = P(A∩B) / (P(A) * P(B)),其中P(A)和P(B)是事件A和事件B的概率,P(A∩B)是事件A和事件B同时发生的概率。
[
这个公式的由来可以从条件概率和独立性的角度来理解:
- 条件概率:在统计学中,条件概率是一种衡量在给定某个事件发生的情况下,另一个事件发生的概率。例如,P(B|A)表示在事件A发生的情况下,事件B发生的概率。根据条件概率的定义,我们有P(A∩B) = P(A) * P(B|A),即事件A和事件B同时发生的概率等于事件A发生的概率乘以在事件A发生的情况下,事件B发生的概率。
- 独立性:在统计学中,如果两个事件A和B是独立的,那么事件A的发生不会影响事件B的发生,反之亦然。对于独立的事件A和B,我们有P(B|A) = P(B),即在事件A发生的情况下,事件B发生的概率等于事件B本身发生的概率。
结合以上两点,如果事件A和事件B是独立的,那么我们有P(A∩B) = P(A) * P(B)。这就是Lift值为1时的情况,表示事件A和事件B是独立的,没有关联性。
然而,在实际情况中,事件A和事件B可能并不是独立的,它们之间可能存在某种关联性。这时,我们可以通过比较P(A∩B)和P(A) * P(B)的大小来判断这种关联性的强度。如果P(A∩B) > P(A) * P(B),那么Lift值大于1,表示事件A和事件B有正相关性;如果P(A∩B) < P(A) * P(B),那么Lift值小于1,表示事件A和事件B有负相关性。
因此,Lift值的计算公式:Lift(A→B) = P(A∩B) / (P(A) * P(B)),就是用来衡量事件A和事件B的关联性的。
]
Lift值的解读:
- Lift值等于1,表示事件A和事件B是独立的,没有关联性。
- Lift值大于1,表示事件A和事件B有正相关性,即事件A的发生会增加事件B发生的概率。
- Lift值小于1,表示事件A和事件B有负相关性,即事件A的发生会降低事件B发生的概率。
BotConf 2023
https://www.botconf.eu/past-editions/botconf-2023/
利用网络操作约束原则、自然语言理解和关联规则进行网络威胁分析
从HTML文章中提取内容
索引文章URL – 收集文章原始HTML – 解析文本信息 – 数据库 – 解析文本信息 – 收集原始HTML – 索引文章URL
串行过程允许适应每个源的数据结构,并在可预测的位置搜索特定元素。这是受到将NLP应用于医学研究文献的成功故事的启发。
数据分析
“恶意软件”和“威胁行动者”有几个名称。我们需要一个键来聚合他们在别名和文章中的引用。我们还需要处理与日常语言或彼此之间的冲突。
MITRE ATT&CK (v6.3)技术的描述和过程不足以匹配或训练模型。我们用同义词扩充数据。
使用引用的数据,我们将它们与文本数据库进行匹配。与机器学习相比,这种方法减少了错误的数量,增强了可解释性、可重复性和便于诊断。结果存储在EntityDB中。
结果是一个稀疏数组,其中每个条目都是一个事务。我们可以将其原样用于图形分析,也可以将其转换为密集数组用于统计方法。
举例
在你下次去杂货店的时候,留意你的购买习惯。观察那些时刻,你拿起某样东西并说:“哎呀,我也需要这个,这个会和那个完美搭配。”这句话强调了在购物时的冲动购买和搭配选择。