时序预测

编辑
文档创建者:doreen0813 (83193 )     浏览次数:1290次     编辑次数:29次     最近更新:doreen0813 于 2018-11-19     


目录:

1、描述编辑

时序预测在线视频学习请查看【时序预测】

时序预测主要是指在时间维度上的预测,基于历史数据来预测未来一定时间内的数据,例如根据过去两个月的销售额来预测未来一周的销售额;根据过去一年的发电量来预测未来一个月的发电需求。预测主要算法为时间序列,使用算法为指数平滑模型。指数平滑的形式可以分为一次指数平滑法、二次指数平滑法、三次指数平滑法,其中一次指数平滑法针对没有趋势和季节性的序列,二次指数平滑法针对有趋势但是没有季节特性的时间序列,三次指数平滑法则可以预测具有趋势和季节性的时间序列,Holt-Winters模型指的是三次指数平滑法。Holt-Winters模型是应用最为广泛的时序预测模型之一,适用于各种领域,实现较高准确度的预测。下面我们以预测未来一个月的发电量来详细介绍如何进行时序预测操作。

关于时间序列算法详细介绍可参考怎样理解时间序列一怎样理解时间序列二

2、时序预测示例编辑

创建自助数据集并选择添加火电数据字段后,在表处理操作流程处选择快速挖掘,如下图所示:

注:若要使用数据挖掘的时序预测功能,在选择字段时必须选择包含时间字段,因为预测是时间维度上的预测。

222

进入快速挖掘配置界面,可以看到有预测、聚类与分类/预测的选项,默认选择时序预测功能。时序预测需要填入的基本配置选项如下图所示,包括:日期列、预测指标、预测维度、预测长度、周期数、季节、水平、置信区间、缺失值填充。

222

日期列:所选数据表字段中日期类型的字段,以该列为日期维度列向后进行预测,单选;

预测指标:需要预测的指标列,多选下拉框选择,只能是数值类型字段,如销售额、发电量等;

预测维度:可以同时预测多个分组的值,例如预测多个产品多个门店时需选择分组列,可多选;

预测长度:默认数值为10,可手动修改;单位默认为时间列中,该时间字段的时间分组的单位,可修改为选项天/周/月/季/年;

周期数:默认为自动,根据单位不同为7天、1周、12月、4季、1年,可手动填写修改,单位为预测长度中选择的单位;

季节:是否考虑季节因素;包括无、累加、累乘选项,默认为无,单选;

水平:是否考虑水平因素;包括无、有选项,默认为无,单选;

置信区间:设置预测的区间范围,选择95%则代表未来的值95%的可能性在这个区间内。默认不勾选,在勾选后有三个下拉选项80%、90%、95%可选择,同时也可手动输入1-100的数值;

缺失值填充:默认不勾选为空,在勾选后可自定义填充数值;

根据自身预测需求按照上述介绍填入对应信息。例如,我们根据之前的发电量来预测未来一个月的发电需求,配置如下,时间列自动获取了日期字段“年月日TBRQ”,预测指标选择要预测的发电量字段“FDL_DR”,预测长度选择30天。

222

点击确定,则在自助数据集编辑界面可以看到原始数据与预测的数据预览,新增一列预测数据“FDL_DR_forecast”。

222

如果计算失败,则会提示相应的报错,如日期不能小于两个单位、数据带有缺失值、时间列存在缺失值等。

数据生成后可进行后续的表处理操作流程,并点击右上角保存。若想修改预测配置,如下图,单击该配置框即可重新修改。

222

3、生成数据说明编辑

新增列:

新增目标列数量*3列数据,目标列数量*1列预测列,目标列数量*2列置信区间列,例如80%上限列和80%下限列;在历史数据行这几列数据为空,从预测时间开始展示预测数据以及置信区间数据;

新增行:

新增n行数据,n取决于参数配置中的预测长度;

数据结果:

如果预测长度单位选择周、或者月等大粒度单位,则数据结果自动依照按照所选择单位进行分组汇总,包括历史数据和预测数据。此外不对数据进行其他分组汇总操作,例如,历史数据为30天10个商品3个门店的销售额,预测后的数据为30天历史数据+未来5天3个门店10个商品的预测销售额。也就是数据粒度依然为日期-门店-商品。若客户想实现总销售额的预测,则需要先在自助数据集中执行分组汇总操作,再进行预测操作;

预测数据小数点位数和被预测指标值小数点位数相同(其中指标值的小数点位数为指标值的小数点位数和填充值的小数点位数中的最多位数)。

4、注意事项编辑

4.1 缺失值

在进行挖掘预测的时候,预测指标有缺失值时需要勾选缺失值填充,否则无法预测出数据。且若缺失的数据大于5%时,尽管勾选缺失值填充,仍有可能预测不出,缺失数据不能过多。

4.2 时间列

时间列有NA值,比如某行记录时间列是空但是有对应的指标值,这种情况无法预测。

时间列不连续,比如2011-01-01,2011-01-03都有记录,但是没有2011-01-02这行的记录,这种情况下如果确实的不是太多,勾选缺失值填充后还是能预测的;但如果确实的太多,则可能预测不出。

4.3 置信区间

若不计算置信区间,数据个数需大于等于填入的周期数*2+1个数据。即数据个数 >= 周期数*2+1;比如周期数为12月,则需要有大于等于25个月的数据个数。

若计算置信区间,数据个数需大于等于填入周期数*2+1+预测长度,即数据个数 >=(周期数*2+1+预测长度);比如周期数为7天,预测长度为7天,则需要有大于等于22天的数据个数。



时序预测在线视频学习请查看【时序预测】

附件列表


主题: 数据加工
标签: 暂无标签 编辑/添加标签
如果您认为本文档还有待完善,请编辑

文档内容仅供参考,如果你需要获取更多帮助,付费/准付费客户请咨询帆软技术支持
关于技术问题,您还可以前往帆软社区,点击顶部搜索框旁边的提问按钮
若您还有其他非技术类问题,可以联系帆软传说哥(qq:1745114201

本文档是否有用? [ 去社区提问 ]