YOLOX 输入改成矩形
YOLOX缩放倍数
在docs/manipulate_training_image_size.md 中有提到
the actual multiscale range is [640 - 5*32, 640 + 5\*32], i.e., [480, 800].
[self.random_size[0]\*32, self.random_size[1]\*32], i.e., [320, 640]
而在代码中我们发现yolox计算图片尺寸的时候还会乘图片比例 * (h/w)
所以我们修改了
self.input_size = (160, 640)
后需要修改self.random_size 或者 self.multiscale_range 使得缩放后的尺寸在一个合适的范围
self.random_size = (4, 7) # 4*32*1 7*32*(640/160)----(128,896)
mosaic
该操作是将4张图片进行拼接成一张大图;拼接方式是

所以设置为了矩形640*640;而且去除mosaic操作那么生成的图片就是

可想而知训练效果会更差。
故而我这边提出一种猜想,如果w是h的4倍,那么我们将图片进行纵向拼接

本文探讨了YOLOX模型在训练过程中的输入尺寸调整,包括如何从原始的正方形输入改为矩形输入,以及由此带来的影响。作者指出,实际缩放范围在480到800像素之间,并且考虑到图片比例,提出了新的随机尺寸设置。同时,针对mosaic操作的取消,作者提出了纵向拼接的设想,以保持训练效果。内容涵盖了模型优化、图像处理和目标检测领域的实践策略。

1846

被折叠的 条评论
为什么被折叠?



