分类

编辑
文档创建者:doreen0813 (83193 )     浏览次数:222次     编辑次数:13次     最近更新:珠珠 于 2018-10-08     

目录:

1、描述编辑

分类在线视频学习请查看【分类】

分类功能是预测数据并预判数据的分类。分类不同于聚类,分类是一种有监督算法,需要在给定已知分类属性下,对数据进行分类。同时,分类算法在使用上基本用于预测,该算法可以分成两步来看,第一步是分类,以历史数据(含有分类结果)为基础进行训练;第二步是预测,根据训练的所得到的函数,对不含有分类结果的数据进行预测,预测这些数据属于哪些分类。同样,分类预测不同于预测,它的预测更多的是判断属性,判断某一数据属于哪一个分类,其预测值是离散的。而我们前面的时序预测主要是时间序列和回归,其预测是连续的,可以预测未来的数据。

分类在挖掘领域中非常常用,但是在BI领域中却不常用,在商业领域中,分类可用于判断垃圾邮件、判断用户是否会流失、判断新品是否会畅销。例如我们存在会员数据,有部分消费者有消费但是未注册会员,为了根据消费者的消费水平为他们精准的推荐会员等级,下面我们详细介绍如何根据消费水平来分类预测会员等级。

2、分类示例编辑

创建自助数据集并选择会员数据字段后,在表处理操作流程处选择快速挖掘,如下图所示:

222

进入快速挖掘配置界面,选择分类功能。分类需要填入的基本配置项如下图所示,包括:预测列名、预测列、参数列、算法、筛选器和算法对应的配置项。

222

预测列名:新生成的预测列的列名,可自定义命名为:预测价值属性、预测风险属性、预测是否畅销等等;默认为预测列;

预测列:针对该列进行分组,预测的列也是该列中已有的类目,可以选择任意列(不支持时间类型),且只能选择1列;

参数列:影响分组结果的列,可以选择多列(不能选择分组列中选中的列),不支持时间类型;

筛选数据:满足某一条件的数据才进行分类预测操作;

算法:决策树神经网络

222

决策树:

纯度计算:Gini/entropy;

最大深度:默认为自动,应填入不小于1的正整型;

叶节点最小样本数量:默认值为3,应填入不小于1的正整型;

神经网络:

优化算法:SGD /Momentum动量,默认SGD;

隐藏层层数:可选1、2、3,最多选择三层;

第1层单元格个数:选择几个隐藏层,就要选择几次,如果多个隐藏层,后面就有第二层、第三层,最小为2,正整型;

学习率:默认值为0.2,0到1之间的任意数值;

最大迭代次数:不小于1的正整型,默认为500;

动量(优化算法选择/Momentum动量时出现,否则没有):默认值为0.3,0到1之间任意数值;

根据自身分类预测需求按照上述介绍填入对应信息。例如我们这边存在的会员数据,有部分消费者有消费但是未注册会员,为了根据消费者的消费水平精准为他们推荐会员等级,我们需要分类预测出这部分非会员消费者的等级,原始会员数据如下,非会员的会员等级字段为空。

222

我们根据年消费金额、年消费次数、平均消费间隔天数对之前的非会员预测会员等级,在分类预测中配置如下:

222

点击确定,则在自助数据集编辑界面可以看到生成的数据预览,生成的预测列中成功预测了之前非会员的人员可推荐的会员等级。

222

如果计算失败,则会提示相应的报错。数据生成后可进行后续的表处理操作流程,并点击保存。若想修改分类/预测配置,可点击编辑配置重新计算

222

3、生成数据说明编辑

数据结果为在原有数据基础上,新增一列预测列,无论是训练数据或是预测数据,该列均为通过算法计算得出的预测结果,结果为分组列中的数据项。如我们上面生成的预测会员等级数据。

222

分组预测算法常常与其他操作共同使用,常用的有新增公式列和聚类。例如通过新增公式列判断商品的是否属于畅销,先对商品进行离散化处理,并生成新的一列。再通过分组预测算法,对新品进行分组预测;通过聚类对老会员进行风险等级聚类,再通过分组预测对新会员进行判断该会员属于哪一风险等级。

分组预测不同于常规报表,其应用不多见于监督类报表,而是以程序型或分析项目性出现。


分类在线视频学习请查看【分类】



附件列表


主题: 数据加工
标签: 暂无标签 编辑/添加标签
如果您认为本文档还有待完善,请编辑

文档内容仅供参考,如果你需要获取更多帮助,付费/准付费客户请咨询帆软技术支持
关于技术问题,您还可以前往帆软社区,点击顶部搜索框旁边的提问按钮
若您还有其他非技术类问题,可以联系帆软传说哥(qq:1745114201

本文档是否有用? [ 去社区提问 ]