基于YOLOv8的交通摄像头下车辆检测算法(三):Wasserstein Distance Loss-灵析社区

神机妙算

🚀🚀🚀本文改进: 新的注意力机制——多尺度空洞注意力(MSDA)。MSDA 能够模拟小范围内的局部和稀疏的图像块交互;

如何在YOLOv8下使用:1)作为注意力机制放在各个网络位置;2)与C2f结合替代原始的C2f

🚀🚀🚀MSCA多尺度特性在交通摄像头下车辆检测项目中, mAP50从原始的0.745提升至0.756

🚀🚀🚀YOLOv8改进专栏:http://t.csdnimg.cn/hGhVK

学姐带你学习YOLOv8,从入门到创新,轻轻松松搞定科研;

1.交通摄像头车辆检测数据集介绍

数据集来源:极市开发者平台-计算机视觉算法开发落地平台-极市科技

数据集类别“car",训练集验证集测试集分别5248,582,291张

下图可以看出都是车辆数据集具有不同尺寸的目标物体,既有大目标又有小目标

1.1 小目标检测难点

本文所指的小目标是指COCO中定义的像素面积小于32*32 pixels的物体。小目标检测的核心难点有三个:

由本身定义导致的rgb信息过少,因而包含的判别性特征特征过少。

数据集方面的不平衡。这主要针对COCO而言,COCO中只有51.82%的图片包含小物体,存在严重的图像级不平衡。具体的统计结果见下图。

2.Wasserstein Distance Loss介绍

论文名称:《A Normalized Gaussian Wasserstein Distance for Tiny Object Detection》

作者:Jinwang Wang、Chang Xu、Chang Xu、Lei Yu

论文地址:https://arxiv.org/abs/2110.13389

小目标检测是一个非常具有挑战性的问题,因为小目标只包含几个像素大小。作者证明,由于缺乏外观信息,最先进的检测器也不能在小目标上得到令人满意的结果。作者的主要观察结果是,基于IoU (Intersection over Union, IoU)的指标,如IoU本身及其扩展,对小目标的位置偏差非常敏感,在基于Anchor的检测器中使用时,严重降低了检测性能。

为了解决这一问题,本文提出了一种新的基于Wasserstein距离的小目标检测评估方法。具体来说,首先将BBox建模为二维高斯分布,然后提出一种新的度量标准,称为Normalized Wasserstein Distance(NWD),通过它们对应的高斯分布计算它们之间的相似性。提出的NWD度量可以很容易地嵌入到任何基于Anchor的检测器的Assignment、非最大抑制和损失函数中,以取代常用的IoU度量。

1)分析了 IoU 对微小物体位置偏差的敏感性,并提出 NWD 作为衡量两个边界框之间相似性的更好指标;

2)通过将NWD 应用于基于锚的检测器中的标签分配、NMS 和损失函数来设计强大的微小物体检测器;

3)提出的 NWD 可以显着提高流行的基于锚的检测器的 TOD 性能,它在 AI-TOD 数据集上的 Faster R-CNN 上实现了从 11.1% 到 17.6% 的性能提升;

具体来说,对于6×6像素的小目标,轻微的位置偏差会导致明显的IoU下降(从0.53下降到0.06),导致标签分配不准确。然而,对于36×36像素的正常目标,IoU略有变化(从0.90到0.65),位置偏差相同。此外,图2给出了4条不同目标尺度的IoU-Deviation曲线,随着目标尺度的减小,曲线下降速度更快。值得注意的是,IoU的敏感性来自于BBox位置只能离散变化的特殊性。

Wasserstein distance的主要优点是:

无论小目标之间有没有重叠都可以度量分布相似性;

NWD对不同尺度的目标不敏感,更适合测量小目标之间的相似性。

NWD可应用于One-Stage和Multi-Stage Anchor-Based检测器。此外,NWD不仅可以替代标签分配中的IoU,还可以替代非最大抑制中的IoU(NMS)和回归损失函数。在一个新的TOD数据集AI-TOD上的大量实验表明,本文提出的NWD可以持续地提高所有检测器的检测性能。

3.训练可视化分析

mAP50从原始的0.745提升至0.759

YOLOv8n_nwdloss summary (fused): 168 layers, 3005843 parameters, 0 gradients, 8.1 GFLOPs
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 19/19 [00:15<00:00,  1.25it/s]
                   all        582       6970      0.814      0.686      0.759      0.392

训练结果如下:

PR_curve.png

PR曲线中的P代表的是precision(精准率),R代表的是recall(召回率),其代表的是精准率与召回率的关

阅读量:1352

点赞量:0

收藏量:0