Code Monkey home page Code Monkey logo

Comments (9)

bubbliiiing avatar bubbliiiing commented on September 24, 2024

你可以用test测试一下看看

from yolov4-pytorch.

zcdliuwei avatar zcdliuwei commented on September 24, 2024

我想想大佬请教一个问题,我有一个场景,是识别垃圾桶里面的瓶子,真实图像大约是这种:
20200611112928_B_Q

20200611112934_B_Q

20200611113139_B_Q

这个场景最复杂的地方就在于瓶子之间密集遮挡与堆叠,我们的目的是告诉扔瓶子的客户,他扔进去的是哪一类瓶子,最好还能返回该瓶子在垃圾桶底部的位置信息,目前我使用yolo系列进行检测,效果总是差强人意,想请教一下大佬,有什么建议,可以提高这种场景下的检测、分类能力吗 ?

from yolov4-pytorch.

bubbliiiing avatar bubbliiiing commented on September 24, 2024

非常难,因为特征很少而且,瓶子是透明的,我也没有好的建议

from yolov4-pytorch.

zcdliuwei avatar zcdliuwei commented on September 24, 2024

非常难,因为特征很少而且,瓶子是透明的,我也没有好的建议

瓶子一共有23类,就是百岁山、农夫山泉、可乐等几类瓶身比较透明,还有不少不透明的,比如脉动、激活等。这个场景我觉得最大的问题是密集遮挡与环境扰动,当有人扔了瓶子,摄像头被触发,拍了一帧图像,我们需要告诉客户他扔进去的是哪一个瓶子,目前我们想根据前后两帧的图像识别结果相减,来确定后面进去的是哪一个瓶子,但是后面进去的瓶子对垃圾桶环境进行了扰动,比如它丢进去之后,把其他已经存在的瓶子位置打乱,那么这个时候可能后一帧识别到的瓶子数,还没有上一帧多,前一帧没有识别到的,可能在后一帧识别到了,后一帧那个新进去的瓶子,也可能识别不到,这个场景本身就是比较复杂,这一点不知道怎么弄,很麻烦

from yolov4-pytorch.

cmdbug avatar cmdbug commented on September 24, 2024

非常难,因为特征很少而且,瓶子是透明的,我也没有好的建议

瓶子一共有23类,就是百岁山、农夫山泉、可乐等几类瓶身比较透明,还有不少不透明的,比如脉动、激活等。这个场景我觉得最大的问题是密集遮挡与环境扰动,当有人扔了瓶子,摄像头被触发,拍了一帧图像,我们需要告诉客户他扔进去的是哪一个瓶子,目前我们想根据前后两帧的图像识别结果相减,来确定后面进去的是哪一个瓶子,但是后面进去的瓶子对垃圾桶环境进行了扰动,比如它丢进去之后,把其他已经存在的瓶子位置打乱,那么这个时候可能后一帧识别到的瓶子数,还没有上一帧多,前一帧没有识别到的,可能在后一帧识别到了,后一帧那个新进去的瓶子,也可能识别不到,这个场景本身就是比较复杂,这一点不知道怎么弄,很麻烦

垃圾桶还有摄像头?有这条件直接改造下垃圾桶不是更好,让垃圾桶入口只能一个个或排整齐后再统一放进去不行??

from yolov4-pytorch.

zcdliuwei avatar zcdliuwei commented on September 24, 2024

非常难,因为特征很少而且,瓶子是透明的,我也没有好的建议

瓶子一共有23类,就是百岁山、农夫山泉、可乐等几类瓶身比较透明,还有不少不透明的,比如脉动、激活等。这个场景我觉得最大的问题是密集遮挡与环境扰动,当有人扔了瓶子,摄像头被触发,拍了一帧图像,我们需要告诉客户他扔进去的是哪一个瓶子,目前我们想根据前后两帧的图像识别结果相减,来确定后面进去的是哪一个瓶子,但是后面进去的瓶子对垃圾桶环境进行了扰动,比如它丢进去之后,把其他已经存在的瓶子位置打乱,那么这个时候可能后一帧识别到的瓶子数,还没有上一帧多,前一帧没有识别到的,可能在后一帧识别到了,后一帧那个新进去的瓶子,也可能识别不到,这个场景本身就是比较复杂,这一点不知道怎么弄,很麻烦

垃圾桶还有摄像头?有这条件直接改造下垃圾桶不是更好,让垃圾桶入口只能一个个或排整齐后再统一放进去不行??

我们是在垃圾桶顶部安装了一个摄像头还有传感器,当有人扔瓶子时,传感器被触发,摄像头于是拍图像并上传。我们也跟老板提过类似的意见,比如在垃圾桶加一个挡板,这样进去的瓶子,在挡板上展示,跟已经存在的底部一堆瓶子分隔开,这样检测难度大大减小,但是老板不知道为什么,对神经网络有一种蜜汁自信,认为加挡板这种方法没技术含量,让使用神经网络进行完全的预测

from yolov4-pytorch.

cmdbug avatar cmdbug commented on September 24, 2024

非常难,因为特征很少而且,瓶子是透明的,我也没有好的建议

瓶子一共有23类,就是百岁山、农夫山泉、可乐等几类瓶身比较透明,还有不少不透明的,比如脉动、激活等。这个场景我觉得最大的问题是密集遮挡与环境扰动,当有人扔了瓶子,摄像头被触发,拍了一帧图像,我们需要告诉客户他扔进去的是哪一个瓶子,目前我们想根据前后两帧的图像识别结果相减,来确定后面进去的是哪一个瓶子,但是后面进去的瓶子对垃圾桶环境进行了扰动,比如它丢进去之后,把其他已经存在的瓶子位置打乱,那么这个时候可能后一帧识别到的瓶子数,还没有上一帧多,前一帧没有识别到的,可能在后一帧识别到了,后一帧那个新进去的瓶子,也可能识别不到,这个场景本身就是比较复杂,这一点不知道怎么弄,很麻烦

垃圾桶还有摄像头?有这条件直接改造下垃圾桶不是更好,让垃圾桶入口只能一个个或排整齐后再统一放进去不行??

我们是在垃圾桶顶部安装了一个摄像头还有传感器,当有人扔瓶子时,传感器被触发,摄像头于是拍图像并上传。我们也跟老板提过类似的意见,比如在垃圾桶加一个挡板,这样进去的瓶子,在挡板上展示,跟已经存在的底部一堆瓶子分隔开,这样检测难度大大减小,但是老板不知道为什么,对神经网络有一种蜜汁自信,认为加挡板这种方法没技术含量,让使用神经网络进行完全的预测

image
efficient系列应该会好点。就是速度会慢点。这是D4的效果。

from yolov4-pytorch.

zcdliuwei avatar zcdliuwei commented on September 24, 2024

非常难,因为特征很少而且,瓶子是透明的,我也没有好的建议

瓶子一共有23类,就是百岁山、农夫山泉、可乐等几类瓶身比较透明,还有不少不透明的,比如脉动、激活等。这个场景我觉得最大的问题是密集遮挡与环境扰动,当有人扔了瓶子,摄像头被触发,拍了一帧图像,我们需要告诉客户他扔进去的是哪一个瓶子,目前我们想根据前后两帧的图像识别结果相减,来确定后面进去的是哪一个瓶子,但是后面进去的瓶子对垃圾桶环境进行了扰动,比如它丢进去之后,把其他已经存在的瓶子位置打乱,那么这个时候可能后一帧识别到的瓶子数,还没有上一帧多,前一帧没有识别到的,可能在后一帧识别到了,后一帧那个新进去的瓶子,也可能识别不到,这个场景本身就是比较复杂,这一点不知道怎么弄,很麻烦

垃圾桶还有摄像头?有这条件直接改造下垃圾桶不是更好,让垃圾桶入口只能一个个或排整齐后再统一放进去不行??

我们是在垃圾桶顶部安装了一个摄像头还有传感器,当有人扔瓶子时,传感器被触发,摄像头于是拍图像并上传。我们也跟老板提过类似的意见,比如在垃圾桶加一个挡板,这样进去的瓶子,在挡板上展示,跟已经存在的底部一堆瓶子分隔开,这样检测难度大大减小,但是老板不知道为什么,对神经网络有一种蜜汁自信,认为加挡板这种方法没技术含量,让使用神经网络进行完全的预测

image
efficient系列应该会好点。就是速度会慢点。这是D4的效果。

有些瓶子透明,再加上垃圾桶底部瓶子密密麻麻堆积,比如下面这张图,再加上垃圾桶壁反光等等,感觉这个场景还是很棘手的,谢谢你的回复,我试试efficientdet系列
49

from yolov4-pytorch.

wh0x avatar wh0x commented on September 24, 2024

您好,使用您的代码,全部默认的参数配置,在VOC2007数据集上,训练到40+轮后,训练集的损失从20-30降至3附近,但是验证集的损失几乎没有变化,一直在8、9、10左右震荡,这似乎是过拟合的迹象,不知道大佬怎么看 ?
另外,您下图的仓库,到底实现的yolov4还是v3 ?
image

和你差不多的情况,也是自己的数据,请问您最后解决了吗?

from yolov4-pytorch.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.