• 我们在哪一颗星上见过 ,以至如此相互思念 ;我们在哪一颗星上相互思念过,以至如此相互深爱
  • 我们在哪一颗星上分别 ,以至如此相互辉映 ;我们在哪一颗星上入睡 ,以至如此唤醒黎明
  • 认识世界 克服困难 洞悉所有 贴近生活 寻找珍爱 感受彼此

BotConf2023会议-威胁情报挖掘

网络安全文献 云涯 2周前 (05-25) 28次浏览

概述

Botconf 是一个致力于了解恶意软件生态系统和僵尸网络的会议。 它是由一群朋友于 2012 年构思出来的,他们认为有必要召开一次会议,从各个角度关注这个主题,包括恶意软件本身、它背后的人,以及防范它的方法。 Botconf 背后的团队由女性和男性组成,他们的日常生活致力于保护他们的组织、了解网络威胁和培训他人 1。

该会议通常会聚集来自世界各地的 400 名来自不同背景的人,包括执法部门、学术界、CSIRT、威胁分析团队、防病毒开发人员等。 他们都有一个共同的目标,那就是打击恶意软件。 会议的第一天专门用于小型研讨会,主要会议将在接下来的三天内举行。 有很多机会交流思想和知识,享受美食 。

数据挖掘基本概念

在关联规则挖掘中,Support、Confidence和Lift是三个重要的概念,它们分别用来衡量规则的有效性和关联性。

  1. Support(支持度):表示项集(itemset)在总事务中出现的频率。例如,如果我们有100个事务,其中有15个事务包含了我们关注的项集A,那么项集A的支持度就是15%。
  2. Confidence(置信度):表示在包含项集A的事务中,也包含项集B的概率。例如,如果我们有15个包含项集A的事务,其中有10个事务也包含了项集B,那么“项集A导致项集B”的置信度就是66.67%。
  3. Lift(提升度):用于衡量项集A的出现对项集B的出现的影响。Lift值等于1表示A和B没有关联;大于1表示A和B有正相关性;小于1表示A和B有负相关性。

这三个指标之间的关系是:

  • Support是关联规则的基础,它告诉我们规则涉及的项集在数据中的普遍程度。但是,支持度不能告诉我们规则的方向,也就是说,它不能告诉我们项集A的出现是否会导致项集B的出现。
  • Confidence在支持度的基础上加入了规则的方向,它告诉我们在项集A出现的情况下,项集B出现的概率是多少。但是,置信度有一个问题,就是它可能会被项集B的普遍性所影响。例如,如果项集B在大多数事务中都出现,那么即使A和B之间没有关联,”项集A导致项集B”的置信度也可能会很高。
  • Lift就是为了解决这个问题而引入的。提升度考虑了项集B的普遍性,它告诉我们在考虑了项集B的普遍性之后,项集A的出现对项集B的出现的影响是增加还是减少。因此,提升度可以被看作是对置信度的一种校正。

“Lift”是关联规则挖掘中的一个重要概念,用于衡量两个事件(或物品)之间的关联性。在关联规则中,我们通常说“如果发生了事件A,那么也会发生事件B”,并用Lift值来衡量这种关联性的强度。

Lift值的计算公式是:Lift(A→B) = P(A∩B) / (P(A) * P(B)),其中P(A)和P(B)是事件A和事件B的概率,P(A∩B)是事件A和事件B同时发生的概率。

[

这个公式的由来可以从条件概率和独立性的角度来理解:

  1. 条件概率:在统计学中,条件概率是一种衡量在给定某个事件发生的情况下,另一个事件发生的概率。例如,P(B|A)表示在事件A发生的情况下,事件B发生的概率。根据条件概率的定义,我们有P(A∩B) = P(A) * P(B|A),即事件A和事件B同时发生的概率等于事件A发生的概率乘以在事件A发生的情况下,事件B发生的概率。
  2. 独立性:在统计学中,如果两个事件A和B是独立的,那么事件A的发生不会影响事件B的发生,反之亦然。对于独立的事件A和B,我们有P(B|A) = P(B),即在事件A发生的情况下,事件B发生的概率等于事件B本身发生的概率。

结合以上两点,如果事件A和事件B是独立的,那么我们有P(A∩B) = P(A) * P(B)。这就是Lift值为1时的情况,表示事件A和事件B是独立的,没有关联性。

然而,在实际情况中,事件A和事件B可能并不是独立的,它们之间可能存在某种关联性。这时,我们可以通过比较P(A∩B)和P(A) * P(B)的大小来判断这种关联性的强度。如果P(A∩B) > P(A) * P(B),那么Lift值大于1,表示事件A和事件B有正相关性;如果P(A∩B) < P(A) * P(B),那么Lift值小于1,表示事件A和事件B有负相关性。

因此,Lift值的计算公式:Lift(A→B) = P(A∩B) / (P(A) * P(B)),就是用来衡量事件A和事件B的关联性的。

]

Lift值的解读:

  • Lift值等于1,表示事件A和事件B是独立的,没有关联性。
  • Lift值大于1,表示事件A和事件B有正相关性,即事件A的发生会增加事件B发生的概率。
  • Lift值小于1,表示事件A和事件B有负相关性,即事件A的发生会降低事件B发生的概率。

BotConf 2023

https://www.botconf.eu/past-editions/botconf-2023/

利用网络操作约束原则、自然语言理解和关联规则进行网络威胁分析

从HTML文章中提取内容

索引文章URL – 收集文章原始HTML – 解析文本信息 – 数据库 – 解析文本信息 – 收集原始HTML – 索引文章URL

串行过程允许适应每个源的数据结构,并在可预测的位置搜索特定元素。这是受到将NLP应用于医学研究文献的成功故事的启发。

数据分析

“恶意软件”和“威胁行动者”有几个名称。我们需要一个键来聚合他们在别名和文章中的引用。我们还需要处理与日常语言或彼此之间的冲突。

MITRE ATT&CK (v6.3)技术的描述和过程不足以匹配或训练模型。我们用同义词扩充数据。

使用引用的数据,我们将它们与文本数据库进行匹配。与机器学习相比,这种方法减少了错误的数量,增强了可解释性、可重复性和便于诊断。结果存储在EntityDB中。

结果是一个稀疏数组,其中每个条目都是一个事务。我们可以将其原样用于图形分析,也可以将其转换为密集数组用于统计方法。

举例

在你下次去杂货店的时候,留意你的购买习惯。观察那些时刻,你拿起某样东西并说:“哎呀,我也需要这个,这个会和那个完美搭配。”这句话强调了在购物时的冲动购买和搭配选择。