基于YOLOv8的交通摄像头下车辆检测算法（二）：多尺度空洞注意力（MSDA）

🚀🚀🚀本文改进：新的注意力机制——多尺度空洞注意力（MSDA）。MSDA 能够模拟小范围内的局部和稀疏的图像块交互；

如何在YOLOv8下使用：1）作为注意力机制放在各个网络位置；2）与C2f结合替代原始的C2f

🚀🚀🚀MSCA多尺度特性在交通摄像头下车辆检测项目中， mAP50从原始的0.745提升至0.756

🚀🚀🚀YOLOv8改进专栏：http://t.csdnimg.cn/hGhVK

学姐带你学习YOLOv8，从入门到创新，轻轻松松搞定科研；

1.交通摄像头车辆检测数据集介绍

数据集来源：极市开发者平台-计算机视觉算法开发落地平台-极市科技

数据集类别“car"，训练集验证集测试集分别5248，582，291张

下图可以看出都是车辆数据集具有不同尺寸的目标物体，既有大目标又有小目标

1.1 小目标检测难点

本文所指的小目标是指COCO中定义的像素面积小于32*32 pixels的物体。小目标检测的核心难点有三个：

由本身定义导致的rgb信息过少，因而包含的判别性特征特征过少。

数据集方面的不平衡。这主要针对COCO而言，COCO中只有51.82%的图片包含小物体，存在严重的图像级不平衡。具体的统计结果见下图。

2.DilateFormer介绍

论文： 2302.01791.pdf (arxiv.org)

本文提出了一种新颖的多尺度空洞 Transformer，简称DilateFormer，以用于视觉识别任务。原有的 ViT 模型在计算复杂性和感受野大小之间的权衡上存在矛盾。众所周知，ViT 模型使用全局注意力机制，能够在任意图像块之间建立长远距离上下文依赖关系，但是全局感受野带来的是平方级别的计算代价。同时，有些研究表明，在浅层特征上，直接进行全局依赖性建模可能存在冗余，因此是没必要的。

为了克服这些问题，作者提出了一种新的注意力机制——多尺度空洞注意力（MSDA）。MSDA 能够模拟小范围内的局部和稀疏的图像块交互，这些发现源自于对 ViTs 在浅层次上全局注意力中图像块交互的分析。作者发现在浅层次上，注意力矩阵具有局部性和稀疏性两个关键属性，这表明在浅层次的语义建模中，远离查询块的块大部分无关，因此全局注意力模块中存在大量的冗余。

如下图所示，MSDA 模块同样采用多头的设计，将特征图的通道分为 n 个不同的头部，并在不同的头部使用不同的空洞率执行滑动窗口膨胀注意力（SWDA）。这样可以在被关注的感受野内的各个尺度上聚合语义信息，并有效地减少自注意力机制的冗余，无需复杂的操作和额外的计算成本。

总体来说，DilateFormer 通过这种混合使用多尺度空洞注意力和多头自注意力的方式，成功地处理了长距离依赖问题，同时保持了计算效率，并能够适应不同尺度和分辨率的输入。

3.训练可视化分析

mAP50从原始的0.745提升至0.756

YOLOv8_DilateBlock summary (fused): 182 layers, 3268755 parameters, 0 gradients, 8.3 GFLOPs
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 10/10 [00:19<00:00,  1.97s/it]
                   all        582       6970      0.814      0.688      0.756      0.395

训练结果如下：

PR_curve.png

PR曲线中的P代表的是precision（精准率），R代表的是recall（召回率），其代表的是精准率与召回率的关系。

基于YOLOv8的交通摄像头下车辆检测算法（二）：多尺度空洞注意力（MSDA） | 中科院一区顶刊-灵析社区

1.交通摄像头车辆检测数据集介绍

1.1 小目标检测难点

3.训练可视化分析