什么是关联数据分析 这篇文章告诉你——九数云

标签: 关联数据分析 | 发布时间: 2022-12-07 16:02:53

关联数据分析,就是从大规模数据中,发现对象之间隐含关系与规律的过程,也称为关联规则学习。

关联数据分析,就是从大规模数据中,发现对象之间隐含关系与规律的过程,也称为关联规则学习。例如:购物篮分析,最早是为了发现超市销售数据库中不同的商品之间的关联关系。用于寻找数据集中各项之间的关联关系。根据所挖掘的关联关系,可以从一个属性的信息来推断另一个属性的信息。当置信度达到某一阈值时,可以认为规则成立。

01)常用的关联数据分析算法

什么是关联数据分析 这篇文章告诉你——九数云插图

02)关联规则概念

1.项与项集

项,指我们分析数据中的一个对象;项集,就是若干项的项构成的集合,如集合{牛奶、麦片、糖}是一个3项集

2.支持度

某项集在数据集中出现的概率。即项集在记录中出现的次数,除以数据集中所有记录的数量。

支持度体现的是某项集的频繁程度,只有某项集的支持度达到一定程度,我们才有研究该项集的必要。

support(A)=count(A)/count(dataset)=P(A)

3.置信度

项集A发生,则项集B发生的概率。关联规则{A->B}中,A与B同时出现的次数,除以A出现的次数。

什么是关联数据分析 这篇文章告诉你——九数云插图1

置信度体现的是关联规则的可靠程度,如果关联规则{A->B}的置信度较高,则说明当A发生时,B有很大概率也会发生,这样就可能会带来研究价值。

4.提升度

关联规则{A->B}中,提升度是指{A->B}的置信度,除以B的支持度

什么是关联数据分析 这篇文章告诉你——九数云插图2

提升度体现的是组合(应用关联规则)相对不组合(不应用关联规则)的比值,如果提升度大于1,则说明应用该关联规则是有价值的。如果提升度小于1,说明应用该关联规则起到了负面影响。因此,我们应该尽可能让关联规则的提升度大于1,提升度越大,则应用关联规则的效果越好。(注:如果两个事件相互独立,P(AB)=p(A)*P(B),提升度为1).关联数据分析。

5.频繁项集

如果项集I的支持度满足预定义的最小支持度阈值,则I是频繁项集。

通常情况下,我们只会对频繁出现的项集进行研究。如果一个频繁项集含有K个元素,我们称之为频繁K项集。

6.最小支持度

用户或专家定义的衡量支持度的一个阈值,表示项集在统计意义上的最低重要性。

7.最小置信度

用户或专家定义的衡量置信度的一个阈值,表示关联规则的最低可靠性。同时满足最小支持度阈值和最小置信度阈值的规则成为强规则。

目前,设置最小支持度和最小置信度,大部分根据业务经验设置初始值,然后经过多次调整,获取与业务相符的关联规则结果。

关联数据分析算法在在线数据分析平台中也有很好的运用,感兴趣的同学可以前往九数云官网中的帮助文档,跟着帮助文档一步步进行关联数据分析,一定会受益匪浅。

九数云传送门:九数云-在线数据分析工具_在线报表工具_分析有趣,决策有据 (jiushuyun.com)

什么是关联数据分析 这篇文章告诉你——九数云插图3什么是关联数据分析 这篇文章告诉你——九数云插图4



上一篇:
下一篇:
相关内容