Mnist-on-dsp-chip

run CNN on C6416

train

i. loss曲线

根据上述训练过程，结合tensorflow2内置的Earlystop方法，确定最佳迭代步数为238个epochs，训练过程中loss函数曲线及accuracy曲线如下：

图12. 238个epochs下的loss函数曲线图13. 238个epochs下的mAP函数曲线最终达到测试集上mAP为0.9575

图14. 模型在训练集和测试集上的表现

ii. 混淆矩阵

混淆矩阵反应了多分类模型对各个类别的特征学习情况，从中可以查看各种条件概率，从左上到右下的对角线上的概率为各个类别的召回率。从各个条件概率中，可以全面、直观的反应模型的优缺点，能够给研究人员提供明确的改进方向。

图15. 训练238epochs的混淆矩阵从混淆矩阵可以看出，模型对各个类别的学习情况都很优秀，没有明显的缺点。对错误分类的深入分析在下一节中详细展开说明。

难例分析

将错误案例全部导出后，经过分析，发现导致模型预测错误的原因主要是由于输入图片可能存在三个方面的问题：字迹不清晰，存在多余的笔划，书写歪斜不正：

图16. 部分难例展示

字迹不清

有些输入图片中笔划不清，断断续续，这是由于数据集本身的问题，或者是对原始图片进行二值化处理时阈值选择不合理导致的。模型会被不连续的笔划干扰，说明模型输出层单元的感受野不足，不能有效整合全局信息。

图17. 典型字迹不清的难例这个问题浅层的模型很难解决，需要加深网络层数增大输出层参数的感受野；或者在模型头部使用传统的全连接输出层取代平均值池化+1*1卷积的卷积输出层，牺牲模型精简程度也能有效改善感受野不足的问题。

多余比划

有些输入图片中数字的写法很特殊，模型对有个人书写特色的数字体的识别正确率明显低于规范书写体，其中比较典型的几个问题有： 0不闭合 0写成扁平状 1的书写模仿打印体 2的左下不是折线而是重叠的弧线 7在中间多加一条短划线

图18. 书写习惯差异导致的难例除了书写习惯的差异外，部分输入还存在错误的多余笔划，而模型在尝试识别数字4和5时对错误的多余笔划尤其敏感，这与数字4和5的形状特征导致的。

图19. 存在错误多余笔划的难例要解决这个问题需要增强模型的泛化能力。可以在训练过程中进行数据增强，通过难例挖掘来加强对模型上述两个问题的适应性。但数据增强的效果是有限的，这受制于模型的参数规模，目前采用的模型参数规模太小，在不增大规模的情况下，很难大幅增强泛化能力，并且模型会存在无法收敛的风险。

歪曲不正

输入的数据中还有一部分，存在角度偏移的问题，特定的数字对角度偏移尤其敏感

图20. 由于角度偏移导致的难例要解决这个问题可以从两个方面入手：其一是增强模型的泛化能力，但是这需要付出比较大的代价（训练步长与参数规模）；其二是在模型的颈部增加一个角度归一化模块，例如通过旋转将二值化判定为1的最高点和最低点在纵轴上对齐，裁去出框部分，空白部分补0。

其他

图21. 其他的一些难例其他的难例主要出现在68、179这两组中，初步分析可能是由于卷积核太大了，细节提取有些粗糙。将55的单层卷积核改为33的双层卷积核，也许可以改善这一问题。这样做也能减少参数数量，但是会增加运算量。

droneboost / mnist-on-dsp-chip Goto Github PK

mnist-on-dsp-chip's Introduction

Mnist-on-dsp-chip

相关研究

i. Baseline Liner Classifier

ii. One-Hidden-Layer Fully Connected Multilayer NN

iii. Two-Hidden-Layer Fully Connected Multilayer NN

iv. LeNet-1

v. LeNet-4

vi. LeNet-5

train

i. loss曲线

ii. 混淆矩阵

难例分析

字迹不清

多余比划

歪曲不正

其他

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent