【待发布】回归(机器学习)

编辑
  • 文档创建者:doreen0813
  • 浏览次数:133次
  • 编辑次数:8次
  • 最近更新:doreen0813 于 2019-07-12
  • 1、描述

    视频学习:回归(机器学习)在线视频学习请查看【回归】;

    功能介绍:

    • 回归分析是一种常见的统计方法,有预测、控制、数据结构揭示三个作用。回归分析有线性回归和非线性回归,此处功能为多元线性回归分析。通过其他解释变量来建立和被解释变量之间的函数关系,而通过建立起的函数关系实现对被解释变量的控制或者预测;

    应用场景:

    • 企业建立房产价格和距离地铁位置、面积、楼层、绿化占比等之间的关系模型;

    • 企业建立销售额和单价、广告投入金额等变量之间的模型;

    • 建立农产品价格和产品产量、相关产品产量、国际价格水平等变量之间的模型;

    2、回归

    2.1 数据说明

    下面我们以波士顿房价与房屋周围的详细信息,例如犯罪率、面积、离中心区域距离等之间的关系,来演示如何进行回归预测;

    使用数据可在此处下载:波士顿房价数据集

    对应字段分别为:

    CRIM:城镇人均犯罪率;ZN:住宅用地超过 25000 sq.ft. 的比例;INDUS:城镇非零售商用土地的比例;CHAS:查理斯河空变量(如果边界是河流,则为1;否则为0);NOX:一氧化氮浓度;RM:住宅平均房间数;AGE:1940年之前建成的自用房屋比例;DIS:到波士顿五个中心区域的加权距离;RAD:辐射性公路的接近指数;TAX:每 10000 美元的全值财产税率;PTRATIO:城镇师生比例;B:1000(Bk-0.63)^ 2,其中 Bk 指代城镇中黑人的比例;LSTAT:人口中地位低下者的比例;MEDV:自住房的平均房价,以千美元计;

    2.2 回归使用

    1. 创建并进入DM数据集编辑界面,在选择字段并经过数据准备>统计分析>特征构建后的工程中,将左侧的操作选项中的回归节点拖拽到流程中,如下图:

      1.png

    2. 可以看到回归下面的操作栏包含配置、训练数据筛选和计算结果。

      配置:

               标签:回归模型中的被解释变量(因变量)。数值类型变量,单选,不能为空;

               特征:回归模型中的解释变量(自变量)。参与拟合回归方程的变量,数值类型变量,可多选,不能为空;

               分组:可以对多个平行区域建立不同的回归模型。可以选择数据中的维度列,文本类型字段,选择后回归分析在此维度内分组计算,例如分析房价和楼层、市中心距离的关系,可以以城市进行分组;

               消除共线性:回归的解释变量之间可能会存在共线性关系,因为变量之间不相互独立,单个解释变量的变化不止影响被解释变量,其他解释变量同样受到影响,因此回归模型会不稳定。当解释变量之间存在这种共线性关系时,可以选择此选项来消除共线性;

               岭参数:采用岭回归的方式来消除共线性,岭回归通过有偏估计得到更好的模型,此处填入适合的岭参数;选择消除共线性之后可以填写该参数,输入大于0的数值,默认值:1.0E-8;

      训练数据筛选:

               可以对输入数据进行筛选,满足指定条件的数据为训练数据,其他数据为测试数据。当选择好预测列之后,筛选器中设置默认条件“预测列  !=  null”,更改预测列,该配置随之更改。支持添加条件和公式,此处条件和公式的使用方法与数据准备下的过滤一致;

    3. 此处我们的被解释变量为房价,解释变量为房屋周围的详细信息,因此在标签栏选择MEDV(自住房的平均房价)字段,特征栏选择构建的特征字段,分组栏为空,勾选消除共线性,岭参数为默认值,如下图:

      1.png

    4. 在训练数据筛选中选择筛选前404条数据作为训练样本(此处我们在之前的新增列中已为数据加上编号,因此直接通过编号来筛选前404条数据),如下图:

      1.png

    5. 配置完成后点击执行按钮,执行完成后,在计算结果栏包含明细数据和可视化视图,其中明细数据中会增加经过回归计算的预测标签列,将鼠标悬浮在字段名处可进行重命名,如下图:

      1.png

      在明细数据中还可以选择使用部分字段进入后续的分析节点,勾选按钮在字段前方选择即可。

    6. 明细数据栏还可查看数据属性,如下图,对应属性包含字段类型、字段名、平均数、中位数、最大值、最小值、标准差、变异系数、偏度、峰度和缺失数,字段名处可对字段重命名。

      1.png


      基础属性:平均数、中位数、最大值、最小值;

      离散程度:

                     标准差:体现数据相较平均值分散程度的一个指标,其值为方差的算术平方根。

                     变异系数:又称为离散系数,是概率分布离散程度的归一化度量,相比于标准差不需要参考平均值,方便对比几组不同量纲的数据。但当平均值接近0的时候,微小的扰动也会对变异系数产生较大影响,从而造成精确度不足。

      分布形态:

                     偏度:衡量数据分布的不对称性,偏度为负意味着左侧的尾部比右侧的长,绝大多数的值位于平均值的右侧。偏度为正意味着右侧的尾部比左侧的长,绝大多数的值位于平均值的左侧。偏度为零就表示数值相对均匀地分布在平均值的两侧。

                     峰度:体现数据分布在平均值处峰值高低的特征函数,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量,如果峰度大于三,峰的形状比较尖,比正态分布峰要陡峭,反之亦然。

    7. 可视化视图中用表格展示了模型公式:f(x) = a0+a1x1+a2x2+...anxn,其中a0对应表格中的截距,x1、x2...、xn对应用数据的列名,a1、a2...an对应表格中的各列值。如下图:

      1.png

    8. 此外,表格还包含了回归决定系数R方,R方为回归平方和/总离差平方和,真实值越接近1,拟合效果越好。

      1.png

    9. 回归完成后,就可以根据需求拖拽其他功能节点至流程中进行后续处理;



    附件列表


    主题: 专题总结
    标签: 暂无标签 编辑/添加标签
    如果您认为本文档还有待完善,请编辑

    文档内容仅供参考,如果你需要获取更多帮助,付费/准付费客户请咨询帆软技术支持
    关于技术问题,您还可以前往帆软社区,点击顶部搜索框旁边的提问按钮
    若您还有其他非技术类问题,可以联系帆软传说哥(qq:1745114201

    此页面有帮助吗?只是浏览 [ 去社区提问 ]