时间预测是一个很有趣的问题。通常历史总是重复或者相关的,通过时间序列的预测,我们可以做很多事情。例如:蚂蚁金服的商家客流预测、机场的人员流动预测。通过这些预测,商家可以做好应对措施,机场也可以调配资源,达到更好的服务水准,大幅提高资源的利用率。
这次,我将以AnalyticsVidhya上的比赛为例,梳理我们在时间序列预测中的常用手法以及注意事项。
-
一般认为,时间序列的由三部分构成。趋势、周期性以及噪音。
-
时间在因果关系中扮演着至关重要的角色。
-
相对时间会抹掉数据中的趋势和季节特征。
-
时间序列在通常情况下不具备正太分布特性,因而在使用默认正太分布的模型时需注意提前转换。
- 标准化。减去均值除以标准差。
- 使用局部均值而不是全局均值。时间序列顺时间变化巨大,单一全局均值无法体现序列的变动情况。
- 对数变换。取每个数据的对数。
- 多用于金融市场。对数具有对称性,log(0.5)与log(2)严格对称;可加性好。
- 分箱处理。在数量上均分。
- 标准化。减去均值除以标准差。