天津市津南区坚持以绿色经济驱动传统经济向数字化经济转型以实现津南高质量发展,正依托物联网、云计算、三网融合等新一代信息技术,加快全区智能工业全面发展,推动产业转型升级,培育新兴产业,实现“津南制造”向“津南智造”转变。天津津南希望广泛吸纳英才,助力天津当地企业数字化转型实践,提升当地企业在智能制造领域影响力。
2019津南数字制造算法挑战赛,聚焦智能制造,赛场一以原料企业工艺优化为课题,要求选手以异烟酸生产过程中的各参数,设计精确智能的优秀算法,提升异烟酸的收率,助力企业实现转型升级,提升行业竞争力。大赛数据提供方天津汉德威药业有限公司,为大赛提供真实生产数据,提供工艺专家的专业指导,从软硬件环境诸多方面提供大赛支撑。
异烟酸用作医药中间体,主要用于制抗结核病药物异烟肼,也用于合成酰胺、酰肼、酯类等衍生物。烟酰胺生产过程包含水解脱色、结晶甩滤等过程。每个步骤会受到温度、时间、压强等各方面因素的影响,造成异烟酸收率的不稳定。为保证产品质量和提高生产效率,需要调整和优化生产过程中的参数。然而,根据传统经验的人工调整工艺参数费时费力。近年来,人工智能在工艺参数优化以及视频检测等领域取得了突飞猛进的成果。AI技术的发展有望助力原料药制造企业实现工艺生产革新,规范生产操作过程,从而达到提高产品的收率的目标。
本次大赛要求选手以异烟酸生产过程中的各参数,包括各主要步骤的时间、温度、压强等参数为基础,设计精确智能的优秀算法,提升异烟酸的收率。阿里云将为参赛选手提供机器资源,复赛团队可申请使用。
大赛包含有2000批次来自实际异烟酸生产中的各参数的监测指标和最终收率的数据。监测指标由两大工序数十个步骤构成。总生产步骤达30余项。我们将工序和步骤分别用字母和数字代号表示,比如A2,B5分别表示A工序第二步骤和B工序第五步骤。样例数据参考训练数据。
存放于DataSet文件夹内。
每批次异烟酸预测收率,选手提交csv格式。该文件由两列组成,第一列为异烟酸批次id,由赛题方提供;第二列为预测的异烟酸预测收率,以小数形式表示,建议保留小数点后三位。
选手提交结果与实际检测到的收率结果进行对比,以均方误差为评价指标,结果越小越好,均方误差计算公式如下:
其中m为总批次数,y'(i)为选手预测的第i批次的收率值,y(i)为第i批次的实际收率值。
-
Version1:
特征工程:‘时间-时间’特征转化为时间段,单独时间列丢弃
算法:分别采用岭回归,带Bagging的岭回归,带AdaBoost的岭回归及XGBoost
-
Version2:
特征工程:‘时间-时间’特征转化为时间段,单独时间分成24个整点用one-hot编码
算法:分别采用岭回归,带Bagging的岭回归,带AdaBoost的岭回归及XGBoost
-
Version3:
特征工程:‘时间-时间’特征转化为时间段,单独时间直接用数值
算法:分别采用岭回归,带Bagging的岭回归,带AdaBoost的岭回归及XGBoost
-
Version4:
特征工程:‘时间-时间’特征转化为时间段,单独时间直接用数值,去除所有样本都过度相似的特征,去除异常值特征
算法:‘收率’分箱,用Lightgbm和XGBoost进行stacking融合
-
Version5:
特征工程:‘时间-时间’特征转化为时间段,单独时间直接用数值,去除所有样本都过度相似的特征,去除异常值特征
算法:用GridSearch调参,用Lightgbm,gbdt和XGBoost进行stacking融合
-
Version6:
特征工程:‘时间-时间’特征转化为时间段,单独时间直接用数值,去除所有样本都过度相似的特征,去除异常值特征,进行归一化处理
算法:采用全连接神经网络做回归