聚类

编辑
文档创建者:doreen0813 (83193 )     浏览次数:483次     编辑次数:16次     最近更新:doreen0813 于 2018-10-22     

目录:

1、描述编辑

聚类在线视频学习请查看【聚类】

聚类是将小组分为若干个小组,让同组的数据尽量相似,让不同组的数据尽量不同。聚类分析是在没有给定划分类别的情况下,根据数据相似度,进行样本分组的一种方法,聚类建立在无类标记的数据上,是一种非监督的学习算法。常用算法有k-meansk-medoidsclarans等,其中以k-means最为常用,其算法原理简单且便于处理大量数据,FineBI提供的聚类功能中使用的就是k-means算法。

聚类常用于解决大量数据的归类,例如根据会员的几个行为属性划分会员等级、根据商品的几个数据划分商品类别等。此外聚类也常作为其他算法的基础,例如决策树神经网络等分类算法需要离散化数据,而聚类则常作为离散化工具使用。下面我们以花萼长度、花萼宽度、花瓣长度、花瓣宽度来进行鸢尾花卉种类分类来详细介绍如何进行聚类操作。

2、聚类示例编辑

创建自助数据集并选择IRIS表字段后,在表处理操作流程处选择快速挖掘,如下图所示:

222

进入快速挖掘配置界面,选择聚类功能。聚类需要填入的基本配置项如下图所示,包括:聚类列名、聚类指标、聚类数、最大迭代次数、距离函数和是否替换缺失值。

222

聚类列名:可以定义放置聚类名那一列的列名,如:会员质量、风险等级等;如果不填则默认为聚类;

聚类指标:变量输入列,参与聚类的指标变量,可以选择多个数值型字段进入该列,聚类算法根据选择的列进行聚类计算;

聚类数:也就是聚类结果的簇数量,可输入正整型变量,默认为空,必填项;

最大迭代次数:算法的计算次数,可输入正整形值,默认自动设置;

距离函数:单选欧式距离/曼哈顿距离,默认为欧式距离;

替换缺失值:是否勾选,默认不勾选;

根据自身聚类需求按照上述介绍填入对应信息。例如,我们根据花萼长度、花萼宽度、花瓣长度、花瓣宽度来进行鸢尾花卉种类分析,配置如下,聚类列名命名为“鸢尾花卉种类”,聚类指标选择花萼长度、花萼宽度、花瓣长度、花瓣宽度四个字段,聚类数输入3,也就是花卉种类分为3类。

222

点击确定,则在自助数据集编辑界面可以看到生成的数据预览,新增“鸢尾花卉种类”列和各聚类指标的中心点数据列,“鸢尾花卉种类”列分为三类,序号为0、1、2,详细的生成数据说明可查看第三章节。

222

如果计算失败,则会提示相应的报错。数据生成后可进行后续的表处理操作流程,并点击保存。若想修改聚类配置,可点击编辑配置重新计算

222

3、生成数据说明编辑

生成的数据:

1、直接在原表基础上,增加以下几列:聚类序号,聚类(列名为基础设置中设置的分类列名)、中心坐标点(根据聚类维度数来决定);

2、数据结果聚类数为基本配置中的聚类数,聚类序号默认为0、1、2、3、4;聚类名默认为聚类1、聚类2、聚类3;

3、中心点坐标的维度分别为变量输入列中的各个列;

例如上述根据花萼长度、花萼宽度、花瓣长度、花瓣宽度来进行鸢尾花卉种类分析生成的数据,如下图所示,包括聚类名、聚类中心坐标等。

222

生成数据示例:

例如原始数据为姓名、最近消费金额、消费频率、最大消费金额4列数据,那么经过聚类处理后,将生成以下几列数据:

姓名、最近消费金额、消费频率、最大消费金额、聚类序号、聚类名、最近消费金额聚类中心坐标、消费频率聚类中心坐标、最大消费金额聚类中心坐标

4、二次聚类编辑

用户可能需要多次聚类来实现对数据完整的评估,如评估用户的高低价值、评估用户的多个敏感属性等,因此流程上,聚类同其他自助数据集流程一样,可以被多次调用。在进行二次聚类调用时,聚类的算法调用、配置等与上述没有区别;生成的数据以上一步数据为基础数据,在此基础上新生成以下几列:聚类序号2、聚类名2(如果基础配置中有设置聚类名,则显示设置的聚类名)、聚类中心坐标点(所有维度名后面添加2)。


聚类在线视频学习请查看【聚类】



附件列表


主题: 数据加工
标签: 暂无标签 编辑/添加标签
如果您认为本文档还有待完善,请编辑

文档内容仅供参考,如果你需要获取更多帮助,付费/准付费客户请咨询帆软技术支持
关于技术问题,您还可以前往帆软社区,点击顶部搜索框旁边的提问按钮
若您还有其他非技术类问题,可以联系帆软传说哥(qq:1745114201

本文档是否有用? [ 去社区提问 ]