问题简要描述:
My Solution for task1 本质上是一个时间序列预测问题。预测在未来的一段时间,通过高速公路多条路径的平均时间(20min的时间窗) 给出了历史5个月的历史记录
数据预处理: 0. 数据聚合操作 ? 对数变换
- 缺失值处理 - 邻近插值 2. 异常值处理 - 箱线图
特征工程: 用滑动窗口的方法产生训练集 提取的特征主要有:
1.前两小时的平均时间 2.前两小时的车流量 3.节假日(one-hot representation) 4.上周8点到10点的特征
模型选择: 1.线性回归 ? 分为数回归 quantile regression 2.LSTM 3. randomforest
模型融合: stacking
最终成绩 182/3582 top 5%