回归

编辑
文档创建者:doreen0813 (83193 )     浏览次数:611次     编辑次数:8次     最近更新:doreen0813 于 2018-11-22     

目录:

1、描述编辑

当需要预测某个商品多少天卖完,即根据商品价格、天气温度、星期几、周边工资收入、竞争对手数等等来推测商品要卖多少天时,可以使用数据挖掘的回归预测功能,用于根据其他因素影响的预测。

回归是一种用于数值预测的技术,不同于“分类”算法用于预测,回归是一种统计学方法,一般用于预测连续型数据(逻辑回归除外)。回归重点考虑其他一个或多个变量与目标变量之间的关系,例如大学生毕业年限和平均工资之间的关系,常见的可视化回归方程如:

222

回归方程通过对观察数据进行计算,找出变量之间的关系,从而拟合出最小误差的回归方程,近一步根据回归方程以及自变量来实施对目标变量的预测。因此用户可以通过回归算法,输入自变量、目标变量,选择回归方式,从而拟合出回归方程并得到预测数据。下面我们来介绍一下在FineBI中实际使用回归预测,根据体重、年龄、血压收缩压拟合出多元线性方程,从而预测出指定体重年龄所对应的血压收缩压值。

2、回归预测示例编辑

1、创建自助数据集并选择血压收缩压数据后,在表处理操作流程处选择快速挖掘,如下图所示:

222

2、进入快速挖掘配置界面,选择回归功能。回归预测需要填入的配置项如下图所示,包括预测列名、预测列、参数列、预测维度、是否消除共线性、岭参数、筛选数据。

222

预测列名:新增的预测列的名称,为必填项;

预测列:因变量列,数值类型变量,单选,为必填项;

参数列:自变量输入列,回归方程中的自变量,参与拟合回归方程的变量。数值类型变量,可多选。为必填项;

预测维度:可以同时对多个分组的数据做回归分析,例如多个产品多个门店,因此在多个分组数据做回归分析时需选择分组列,该分组列可以多选(但要求为字符类型)。若选择分组列,则数据按照分组列进行汇总后再做回归计算,为选填项;

是否消除共线性:勾选/取消勾选,默认不勾选;共线性的详细说明请参考多重共线性

岭参数选择是否消除共线性之后可以填写该参数,用于岭回归,填入大于0的数值型,默认值:1.0E-8;

筛选器:满足某一条件的数据才进行回归训练(与分类算法中的筛选器一致)。

因为我们要根据体重、年龄、血压收缩压拟合出多元线性方程,从而预测出指定体重年龄所对应的血压收缩压,因此我们为该回归预测添加配置项如下,预测列名设置为“血压收缩压预测”,预测列为“血压收缩压”,参数列为“体重”、“年龄”,如下图:

222

4、点击确定保存该回归配置,则数据预览处出现该血压收缩压的预测值,如下图,页面上方显示刚刚设置的回归预测基本配置项。

222

生成数据的结果详细说明请参考第三章节。

5、若要对之前配置的回归预测项进行修改,可单击配置区域重新修改。

222

重新修改后同样点击确定会重新生成对应配置的预测列。

点击右上角保存可直接保存该回归预测数据,或者单击左侧的操作栏进入下一节点调用该回归预测数据。

3、生成数据说明编辑

新增列:新增一列根据原数据拟合生成的预测列,当影响因素列数据为空时,该预测列数据为空,目标列不影响预测列是否为空。

对应上例中生成的为血压收缩压预测值,为根据已有数据拟合成的多元线性方程预测出的,包含部分缺失原血压收缩压数据,根据体重与年龄预测出的血压收缩压值,如下图:

222

附件列表


主题: 数据加工
标签: 暂无标签 编辑/添加标签
如果您认为本文档还有待完善,请编辑

文档内容仅供参考,如果你需要获取更多帮助,付费/准付费客户请咨询帆软技术支持
关于技术问题,您还可以前往帆软社区,点击顶部搜索框旁边的提问按钮
若您还有其他非技术类问题,可以联系帆软传说哥(qq:1745114201

本文档是否有用? [ 去社区提问 ]