关联规则

编辑
文档创建者:doreen0813 (83193 )     浏览次数:392次     编辑次数:5次     最近更新:doreen0813 于 2018-09-20     

目录:

1、描述编辑

关联规则是数据挖掘中的常用算法,该算法用于发现数据之间的内部规则,最出名的例子为啤酒与尿布事件,即通过分析用户的交易数据,发现跟尿布一起购买最多的商品竟是啤酒。关联规则是通过不断迭代数据,计算不同项集的支持度和置信度,最终得出满足要求的数据关系,通过调整支持度和置信度的大小,来控制数据之间关系的紧密程度。很多企业通过关联规则来实现精准营销、商品推荐等需求。

关联规则不需要训练,以所有带分析数据为输入,不断迭代计算寻找内部数据之间的关系,用户输入支持度、置信度、等关键参数,最终得出用户想要的数据关系表。其结果完全是一张新表,用于表达输入数据之间的关系。

下面我们介绍一下在FineBI中如何根据客户购买的商品数据来挖掘顾客购买商品之间的关联规则,比如挖掘出顾客在购买哪些商品之后可能购买哪些产品,以此做好购物导航等工作。

2、关联规则示例编辑

1、在数据准备下选择数据挖掘业务包下的超市销售关联表后,点击创建自助数据集并选择位置和名称,如下图,该超市销售关联表包含了客户同时购买的商品,ID标识了购买行为,购买了商品标识为非空,未购买标识为空。

222

2、进入自助数据集配置界面,默认选择添加了该超市销售关联表的所有字段,在表处理操作流程处选择快速挖掘,如下图所示:

222

3、进入快速挖掘配置界面,选择关联规则功能。该关联规则需要填入的基本配置项如下图所示,包括项目列、分组列、最小支持度、最小置信度、最大项集数、规则数。

222

项目列关联规则计算的依据列,例如计算商品关联规则的商品列,可多选,为必选项;

分组列用于分组,可以通过该列将关联规则分成多组进行计算。例如客户需要计算不同门店或不容月份的商品关联关系,可选择门店或月份为分组列字段。可多选,为选填项,需要选入字符类型;

注:项目列和分组列不可选择相同字段。

最小支持度0到1之间的小数,默认0.5,不可为空;关联规则挖掘第一阶段是从所有原始数据集合中,找出所有高频项目组,高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。一项目组出现的频率称为支持度(Support);

最小置信度0到1之间的小数,默认0.5,不可为空;关联规则挖掘第二阶段是要产生关联规则,利用前一步骤的高频项目组来产生规则,在最小置信度(Minimum Confidence)的条件门槛下,若一规则所求得的置信度满足最小置信度,称此规则为关联规则;

是否定义最大项集数:可勾选定义,默认不勾选;项集数指的是被关联一组商品的个数,比如商品a可以关联商品b,也可以关联商品{b、c},也可以关联商品{b、c、d},则对应的项集数分别为1、2、3;

是否定义规则数:可勾选是否定义,默认不勾选;勾选后需要填入规则数值;规则数指的就是数据最后生成的行数,每一行为一条规则;

规则数“是否定义规则数”项勾选时,可输入此选项,大于0的正整数,默认为10。如果在勾选了定义规则数的情况下,该项不能为空。

因为我们需要根据客户购买商品的先后顺序来挖掘顾客购买商品之间的关联规则,选择项目列为商品列:牛奶、黄油、芝士、鸡蛋、面包、水果,设置最小支持度与最小置信度分别为20%、30%,如下图:

222

4、点击确定保存该关联规则配置,则页面上方显示刚刚设置的关联规则基本配置项,数据预览处出现客户购买商品关联规则的结果,如下图:

222

生成数据的结果详细说明请参考第三章节。

5、若要对之前配置的关联规则进行修改,可单击配置区域重新修改。

222

重新修改后同样点击确定会重新生成对应配置的关联规则数据。

点击右上角保存可直接保存该关联规则数据,或者单击左侧的操作栏进入下一节点调用该关联规则数据。

3、生成数据说明编辑

通过关联规则生成的数据结果是基于输入数据生成的一张新表,包含选择项集、频繁项集、支持度、置信度,如下图:

222

选择项集:为满足最小支持度的项目列,在上例中表示满足大于20%概率会购买的商品;

频繁项集:与对应“选择项集”所关联的项集,在上例中表示满足大于30%概率会关联购买的商品;

支持度:支持度表示客户会选择该“选择项集”的预测概率;

置信度:置信度表示客户在选择了该“选择项集”后,会同时选择“频繁项集”的预测概率;

附件列表


主题: 数据加工
标签: 暂无标签 编辑/添加标签
如果您认为本文档还有待完善,请编辑

文档内容仅供参考,如果你需要获取更多帮助,付费/准付费客户请咨询帆软技术支持
关于技术问题,您还可以前往帆软社区,点击顶部搜索框旁边的提问按钮
若您还有其他非技术类问题,可以联系帆软传说哥(qq:1745114201

本文档是否有用? [ 去社区提问 ]