先看题目吧,看经验帖子,看数据,模型不急。
数据挖据四步走了。
- EDA(Exploratory Data Analysis)
- 特征工程
- 模型构建
- 集成
- 读取nc格式文件方法
- 转换成
pandas
或numpy
,处理与分析容易 - 填充值需要注意
无填充值。
- 数据集透视完毕,包括数据维度、填充值分析与数据分布
- 标签集透视完毕,包括填充值分析、去除重叠数据后的可视化
有填充值,t300
缺失3055032条,ua
缺失13921123条,ua
和va
的缺失数据分布相同。
- 数据集透视完毕,包括数据维度、填充值分析与数据分布。
t300
缺失的数据年份为[1812, 1962],即第13个模式缺失;ua, va
缺失的数据年份为[755, 1962],第6到第13个模式消失。共755条。 - 标签集透视完毕,包括填充值分析、去除重叠数据后的可视化。
- Conv2dLSTM 神经单元实现与适配到多层网络,训练读入的是单个元素,输入输出维度一致
- Conv3dLSTM 神经单元实现与适配到多层网络,训练读入一个序列的元素,输入输出维度一致
- 借鉴
VGG16
构建特征提取器,降低height
和width
的维度,提升channels
的维度 - Dilated Casual CNN 网络实现,拿到特征提取器提取特征的嵌入表示
- ForecastNet 多步时序预测网络实现,用于滑窗预测与拼接
- Decoder 网络部分实现,用于重构数据,提升表示的精度
- 加权移动平均平滑数据或使用高斯损失函数,只预测趋势
- 保存模型部分实现
- 整体模型完成