当前位置:舍宁秘书网 > 专题范文 > 公文范文 > 多层级特征融合的无人机航拍图像目标检测

多层级特征融合的无人机航拍图像目标检测

时间:2023-12-17 15:30:02 来源:网友投稿

徐光达,毛国君,2+

1.福建工程学院 计算机科学与数学学院,福州350118

2.福建工程学院 福建省大数据挖掘与应用重点实验室,福州350118

近年来无人机技术发展迅速,无人机航拍图像目标检测被应用在多个领域,如城市交通[1]、精确农业[2]、环境勘测[3]等诸多实际场景。由于航拍图像的目标检测应用丰富,研究者们围绕其展开了大量工作。此前工作集中在滑动窗口搜索[4]和手动特征提取[5]上,这通常需要大量的先验知识和公式推导。随着计算机视觉技术的快速发展,基于深度学习算法的目标检测表现出更优异的性能,成为了主流技术被广泛使用。

基于深度学习方法的目标检测算法主要可分为两类:(1)以R-CNN(region-based convolutional neural networks)[6]、Faster R-CNN(faster region-based convolutional neural networks)[7]等算法为代表的二阶段目标检测算法,此类算法在生成候选框的基础上再回归出目标区域,具有较高的检测精度。(2)以YOLO(you only look once)[8]、SSD(single shot multibox detector)[9]等为代表的一阶段目标检测算法,它们直接对目标的位置和类别进行预测,具有更快的检测速度。基于深度学习的目标检测方法广泛应用于各种实际场景[10-12],但是无人机通常被部署在大型场景中,这意味着在一幅图像中有很多小而分布密集的物体,同时复杂多样的背景信息也容易对待检目标产生混淆,通用的目标检测算法很难取得理想检测效果。

无人机航拍图像中的小目标只占据图像的一小部分,直接从细粒度局部区域获得的信息非常有限。利用图像中的上下文信息可以建立小目标与其他目标或者背景的联系,帮助网络检测推断。文献[13]提出了一个上下文感知模块,该模块将原始的特征分别接一个1×1 卷积的支路和3×3 卷积的支路从而为特征图带来不同的感受野,达到丰富语义信息的目的,在小尺寸人脸检测上表现优异。徐坚等人[14]将可变形卷积嵌入骨干网络,在不同感受野下提取多尺度特征信息,利用网络的上下文信息提高无人机航拍小目标检测的精度。

多尺度特征是一种提高小目标检测率的有效方法。Faster R-CNN 和YOLO 等方法仅采用了单一尺度的特征图,限制了特征信息的表达。为了加强网络多尺度信息的表达,结合不同层级特征图之间的特点,Lin 等人[15]提出了经典的特征金字塔(feature pyramid network,FPN),采用自上而下的体系结构和横向连接,交互不同层级的特征信息。进一步的,路径聚合网络(path aggregation network,PAN)[16]在FPN的基础上添加了额外的自下而上的连接以更高效地传递浅层信息到高层,从而减少信息流通时的消耗。

虽然上述结构能够提升网络多尺度表达的能力,但是在融合不同层级特征图时直接通过元素加法进行操作,忽略了不同层级特征图对小目标的贡献。对于小物体而言,更需要浅层特征中的细粒度特征信息来辨别,平等融合深层特征可能会削弱浅层特征对小目标的学习能力。并且不同特征图之间的细腻度不同,直接采用相加或通道维度拼接的方式进行融合,容易产生冗余信息和噪声信息,影响上下文信息的获取,干扰物体之间的关系表达。

为了获得更充分的特征图表示,利用不同层级特征图聚合上下文信息,更好地检测无人机航拍小目标样本。本文提出了一种多层级特征融合的无人机航拍图像检测方法(small target-you only look once version 5,ST-YOLOv5)。本文的主要工作包括以下三点:(1)增加高分辨率的特征图与原先的三个尺度特征图一同在颈部网络进行特征融合,并且额外增加了对应高分辨率特征图的检测头用以对航拍图像小尺度目标进行检测。(2)结合无人机航拍图像的特点,设计多层级特征融合层。通过对四个层级的特征图进行融合,丰富特征图的上下文信息,并自适应地学习生成每个层级的权重比例,根据检测样本的尺度合理分配不同层级特征图贡献,聚合有利于小目标样本的特征信息。(3)在预测网络中,用解耦检测头替换YOLOv5 的耦合检测头,一定程度上减缓了目标检测定位任务和分类任务的冲突,加强对目标的定位能力。

YOLO 系列算法兼并检测精度和检测速度,是最为流行的目标检测算法之一,目前已经推出至YOLOv5。YOLOv5 规模由小至大分为S、M、L、X 四种规格,其网络结构都是一致的,不同的是其网络宽度与网络深度。对于无人机航拍图像目标检测任务,由于背景复杂、小目标样本居多,需要一定深度的网络提取特征信息。综合检测速度与精度的需求,本文选择了规格为L 的YOLOv5 算法作为基线方法。

如图1 所示,YOLOv5 算法由三部分构成,分别是主干网络(Backbone)、颈部网络(Neck)、头部网络(Head)。Backbone 即在不同图像细粒度上聚合并形成图像特征的卷积神经网络。在YOLOv5 中,Backbone 对输入图像进行特征提取,并通过下采样操作生成5 个不同层级的特征图{C1,C2,C3,C4,C5}。为了预测不同尺度的目标,选择{C3,C4,C5} 3 个尺度的特征图作为颈部网络的输入。

图1 YOLOv5 结构图Fig.1 YOLOv5 structure

颈部网络则是对来自主干网络的3 个尺度的特征信息进行卷积、池化等操作,从而获得更鲁棒的特征表示。颈部网络中采用了FPN 和PAN 结合的方式进行特征融合,即通过自上向下和自下而上两条路径融合深层与浅层特征图,将浅层网络的细节信息和深层网络的语义信息有效结合,加强网络对目标的多尺度预测能力。

头部网络由3 个检测头组成,负责对特征图上的特征点进行判断,判断特征点是否有物体与其对应。{P3,P4,P5}三层特征图输入检测头后,通过1×1卷积调整通道维数为Na×(4+1+Nc),实现目标的定位与分类。其中,Na是预定义的锚框(anchor)的数量,Nc表示类别数量,4 表示对每个锚框需要预测的四维坐标信息(x,y,w,h),1 表示类别的置信度。

ST-YOLOv5 算法的框架结构如图2 所示,输入图像经过4 倍下采样后得到特征图C2。为了提取更充足的特征信息,将C2特征图与{C3,C4,C5}一并进行特征融合,由于高分辨率的特征图C2保留了更多关于小目标的细节信息,更有利于图像中小目标的检测。颈部网络的多层级特征融合层旨在对{P2,P3,P4,P5}4 个层级的特征图进行融合,丰富上下文信息,使用可学习的权重系数自适应加权融合不同层级的特征图,根据检测任务的需求分配不同层级特征图的比例,更好地识别无人机航拍图像目标。最终,多层特征融合生成4 个尺度的新特征图{L2,L3,L4,L5}输入解耦检测头预测目标。采用上述改进措施后,有益于深入挖掘无人机图像目标检测的关键特征信息,可提升YOLOv5 在无人机航拍图像目标检测效果。

图2 ST-YOLOv5 算法框架结构图Fig.2 Architecture of ST-YOLOv5 algorithm

2.1 小目标检测层

YOLOv5 算法采取8 倍、16 倍、32 倍下采样的特征图分别预测小、中、大三种尺度的目标样本。而航拍图像中目标尺度更小,存在许多微小目标,在经过多次下采样后,目标的特征信息过于稀少,原本3 个尺度的特征图难以检测此类极小目标。为了提高小目标的特征信息提取量,将特征图C2输入颈部网络与其余3 个尺度特征图进行特征融合。

如图2 所示,{C1,C2,C3,C4,C5}是5 个尺度大小的特征图,分别对应着{2,4,8,16,32}倍的下采样倍数。特征图C2与C3、C4、C5通过特征金字塔进行特征融合,C2的分辨率更高,保留更多关于小目标的特征信息,在特征信息传递的融合过程中提供更充足的目标信息,从而加强了网络的学习能力。COCO(common objects in context)[17]把图像中小于32×32 个像素点的物体定义为小目标物体,若输入图像大小为640×640 像素,{C1,C2,C3,C4,C5} 的大小分别对应为{320×320,160×160,80×80,40×40,20×20}像素,那么小目标在深层的特征图中可能只保留有1 到2 个像素。因此,本文额外添加了一个适配于C2尺度大小的检测头,它在4 倍下采样的特征图上进行目标预测,能够实现对极小尺度目标的检测,从而提高对小目标的检测能力。

考虑小目标检测层的添加会带来额外的计算开销,本文对其进行了消融实验。在增加C2参与特征融合后,由于只是添加该特征层并没有额外增加过多的卷积层,网络只增加了极少的参数量。而额外的检测头由于需要在4 倍下采样的特征图上进行目标预测,这为算法带来一些额外的计算量。综合来看,小目标检测层能够在只消耗少许的计算开销的情况下,提升算法对小目标检测的精确率。

2.2 多层级特征融合层

特征提取网络中,浅层网络生成的浅层特征图具有更多的目标纹理特征,因此含有丰富的细节信息;
而深层网络生成的深层特征图则通过更大的感受野,提取更丰富的语义信息。FPN 和PAN 结构的目的是为了传递不同层级的特征图的特征信息,融合多尺度特征,提高对不同尺寸目标的感知能力从而提升目标检测的精度。然而FPN 和PANet 将不同层级特征信息以平等关系跨层融合,忽略了不同特征层之间的关系。深层网络特征含有的丰富语义信息适合检测大目标,浅层网络特征含有的丰富细节信息则更适合检测小目标,因此不同层级特征图对任务目标的贡献是不同的。在无人机航拍图像目标检测任务中,小目标样本所占的比重更大,简单地融合深层特征图信息会削弱浅层特征图对小目标位置信息的感知。

针对以上问题,本节设计了多层级特征融合层(multi-level feature fusion layer,MFFL),为各尺度特征层赋予不同比例权重,自适应地调节浅层特征和深层特征的贡献度,强化不同尺寸目标检测时所需要的特征信息,有效利用了4 个不同尺度特征层的浅层和深层特征,进而丰富特征信息以指导无人机航拍图像目标检测工作。

如图3 所示,MFFL 对4 个层级的特征图进行融合重新生成新的特征图,这里以P3经过多层级特征融合生成新特征图L3的过程(L2、L4、L5的生成过程与L3相同)进行详细说明。为了加权融合4 个层级的特征图,需要将它们都统一成相同大小和相同通道数。将P4和P5进行上采样调整分辨率,利用3×3 的卷积层调整通道数;
对P2则进行下采样,通过1×1 的卷积层调整通道数。将调整后的特征图R1、R2、R3、R4进行通道维度上的整合,得到融合的特征图R:

图3 多层级特征融合层结构Fig.3 Architecture of multi-level feature fusion layer

由于不同特征图之间的细粒度不同,融合后的特征图可能会引入冲突信息和冗余信息,降低特征图的表达能力。为了过滤噪声信息,通过压缩与激励(squeeze and excitation)模块计算特征图R的通道注意力,强调相关信息的表达,减弱不相关信息的干扰。首先对输入R∈RH×W×C进行全局平均池化得到每个通道的全局特征:

其中,Fsq(·)表示压缩映射,ZC表示为特征图R的第C个通道的全局特征空间。

随后通过两个全连接层W1和W2学习各个通道间的非线性关系,并使用Sigmoid 激活函数生成各个通道的权重s:

其中,Fex(·)表示激励映射;
σ(·)表示Sigmoid 函数;
δ(·)表示ReLU 函数。将权重s与特征图R进行相乘得到特征图U,放大重要信息的响应,抑制无关信息的响应。激励与压缩模块通过捕获通道之间的相关性,挖掘输入与输出特征通道之间的远距离依赖关系,减少冗余信息和冲突信息的干扰。

为了进一步捕捉特征图的空间特征,通过1×1 的卷积压缩通道维数提取空间位置信息,然后利用Softmax 函数将特征图在空间上的权重归一化,得到权重矩阵W∈R4×H×W:

最后沿着通道维度把权重矩阵分割为α、β、γ、λ∈R1×H×W,得到各个层级特征图的重要性权重参数,各个层级特征图与权重参数相乘得到融合后的新特征图L3:

权重参数的产生来自不同层级特征的输入,在模型训练的过程中,通过网络的梯度反向传播不断学习,自适应地调整以适应当前的任务。权重参数由特征学习的更新过程不断优化,当输入数据信息包含小目标实例居多时,权重参数就会为浅层特征图赋予更高的权值,而深层特征图则根据检测任务的需要赋予较低的权重以指导特征学习,经过浅层特征和深层特征的合理分配实现无人机航拍图像目标更精确的识别。MFFL 对输入的特征图{P2,P3,P4,P5}进行融合,从不同感受野的特征层中聚合了更多的上下文信息,并自适应加权融合各层级特征图得到{L2,L3,L4,L5},充分挖掘了不同深度特征层的多维特征,可以更好地监督网络的特征融合过程,使融合后的特征兼顾强大的语义信息和丰富的纹理细节信息。

图4 展示了不同层注意力热力图对比分析,直观展示如何融合多层特征以适应不同尺度的目标。如图4 所示,对于小目标样本,浅层特征P2、P3聚焦于目标的细节纹理,而深层特征P4、P5则更笼统地关注目标与周围背景的抽象信息,显然浅层特征能更好帮助定位小目标,因此L3以P2、P3的特征信息为主导精确定位目标,保留少量P4、P5的特征帮助减少冗余信息。总的来说,不同尺寸的目标会改变MFFL 对各级特征的分配,使得其向有利于当前训练样本的方向倾斜。并且MFFL 在融合各级特征的过程中,获得了在不同感受野上得到的多尺度信息,能够更优地挖掘目标像素与周围像素之间的联系,这种物体与物体之间的关系即上下文信息有利于小目标的检测。

图4 不同层注意力热力图Fig.4 Heatmap of attention on different layers

无人机航拍图像中,小目标检测任务占据了主要地位。为了更直观地说明MFFL 的作用,图5 可视化了检测小目标时C3、P3、L3特征图的注意力热力图。其中C3表示只经过主干网络提取的特征,P3表示C3经过特征金字塔FPN 和PAN 融合后的特征,L3表示P3经过多层级特征融合层的特征输出。由图5可知,C3特征可大致定位目标位置,但是对目标的响应较弱。P3相比C3,对目标的学习更加充分,使得其对物体的关注程度得到提升,但是由于特征金字塔融合的深层语义信息,也使得P3增添了目标周围信息的干扰。而L3则在强化目标特征的同时,一定程度上抑制了其他特征的干扰。由可视化分析可知,多层级特征融合层通过多级特征联合加强小目标的细节信息,减少干扰信息,提高判别性,以此提高小目标的检测率。

图5 注意力图可视化Fig.5 Visualization of attention map

2.3 解耦检测头

YOLO 检测头通过卷积改变输入特征图的通道维数,使其包含边框坐标、边框置信度和对象类别数信息,完成对目标的定位和分类的回归。由于分类与定位任务共享一个特征图,边界框回归和对象检测任务耦合的检测头可以称作耦合检测头(coupled head)。

然而在目标检测的定位和分类任务中,两个任务所聚焦的地方不同:分类更加关注所提取的特征与已有类别哪一类最为相近,而定位更加关注与真实框的位置坐标从而进行边界框参数修正。因此如果采取用同一个特征图进行分类和定位,效果会不好,即所谓的失调的问题[18]。例如,特征图上的一些突出区域具有丰富的分类信息,而其边界周围的信息则对边界框的回归更具优势。也就是说,如果一个检测器试图从一个相同的空间点判断分类分数和回归结果,那么它往往对两个任务的适配程度不能达到最佳。文献[19]对全连通头(fully connected head)和卷积头(convolution-head)分别输出特征图,发现全连通头比卷积头具有更高的空间敏感性,全连通头具有更多的能力来区分一个完整的对象和一个对象的一部分,但不能稳健地回归整个对象。因此全连通头更适合于分类任务,而卷积头更适合定位任务。这些研究说明分类和定位所关注的内容并不一致。

无人机航拍图像中大面积的复杂背景和多种类别目标的干扰,使得小目标的识别任务更具有挑战性。互相遮挡的目标需要精确的定位信息来确定各自的位置。为了提高航拍图像小目标对定位和分类的敏感性,提高定位和分类的精确度,本文用解耦检测头(decoupled head)对目标进行预测,为定位与分类任务解耦出单独的特征通道,用于边界框坐标回归和对象分类。

如图6 所示,解耦检测头先对输入特征图使用1×1 卷积降低通道维数,以减少参数量的产生。然后特征图输出分为两条支路:一条支路负责分类任务,通过两个3×3 的卷积提取特征信息后,再使用1×1 的卷积将特征图的通道维数调整至预测目标的类别数量,在该特征图上完成分类任务;
另一条支路负责定位任务,依旧先使用3×3 卷积层提取特征,不同的是,提取特征后将特征图分为两个,一个预测边界框的中心坐标以及框的高度和宽度{x,y,w,h},另一个则获取目标的置信度分数判断该点真实目标框与预测框的交并比。相比耦合检测头直接将多种信息集成在一个特征图,解耦检测头能够有效避免不同任务需求不同特征信息的冲突,加强定位和分类的能力。

图6 耦合检测头与解耦检测头的比较Fig.6 Comparison of coupled head and decoupled head

3.1 数据集与实验设置

为了验证算法的有效性,本文在公开数据集VisDrone[20]上进行实验。VisDrone 数据集是由天津大学机器学习与数据挖掘实验室的AISKYEYE 团队收集的无人机航拍图像数据集。图片由装载相机的无人机捕获,收集有不同场景、天气、光照条件等多种情况下的航拍图像,范围覆盖广泛。数据集标注了行人、人、汽车、面包车、公共汽车、卡车、货车、自行车、遮阳三轮车和三轮车10 类样本,其中包括6 471 幅训练集图像、548 幅验证集图像以及3 190 幅测试集图像,共计260 万个目标实例样本。

实验的训练在显存为80 GB 的TeslaA100 服务器上进行,测试在配置为AMD Ryzen 5 5600X CPU、GeForce GTX3060Ti GPU 的计算机上进行。实验软件环境采用Windows10 操作系统,Pytorch 深度学习框架,python 3.8、torch 1.7.1、tqdm 4.63.0 等相关工具包。训练参数设置:训练轮次设置为100,批处理尺寸大小设置为16,初始学习率为0.001,采用Adam 优化器。

3.2 评价指标

为了更准确地评估算法的性能,选取平均精度(average precision,AP)和均值平均精度(mean average precision,mAP)作为评价指标。AP 能够反映单个目标类别的检测性能,mAP 能够反映所有类别的综合检测性能。AP 由精确率(Precision)和召回率(Recall)计算得到,精确率和召回率由式(6)和式(7)计算得到:

其中,TP表示被预测为正例的正样本,FP表示被预测为正例的负样本,FN表示被预测为负例的正样本。

选定一个交并比(intersection over union,IOU)阈值,以该IOU 阈值下的Recall 为横轴,Precision 为纵轴绘制PR 曲线,对PR 曲线上的精度求均值可得到该类别AP:

对所有类别的AP 求均值即可计算mAP 值:

3.3 实验结果

为了验证ST-YOLOv5 算法的性能,本文选取了多种先进的无人机航拍图像目标检测算法进行对比分析。表1 给出了各个算法在IOU 阈值为0.50 和0.50:0.95 时的mAP。

表1 不同算法在VisDrone数据集上的mAP 对比Table 1 mAP comparison of different algorithms on VisDrone dataset 单位:%

(1)当IOU 阈值为0.50 时,ST-YOLOv5 的mAP相比DMNet、YOLOv3、Cascade R-CNN分别高出9.00个百分点、20.35个百分点、6.67个百分点。与CLSAN、QueryDet、ClusDet等算法相比取得了相近的检测精度。

(2)当IOU 阈值为0.50:0.95 时,ST-YOLOv5 的mAP 达到35.50%,在对比的算法中取得了最佳,相比CLSAN、QueryDet、ClusDet 分别高出4.80 个百分点、1.59 个百分点、3.10 个百分点。

从实验结果来看,ST-YOLOv5 在两个IOU 下的mAP 都高于对比算法,并且在IOU=0.50:0.95 时,较其他算法提升较为明显,证明本文方法具有更强的定位能力。综合来看,ST-YOLOv5 与其他的先进算法相比展现出一定的优势,较通用的目标检测算法YOLOv3 和Cascade R-CNN 有明显的提升,适用于无人机航拍图像目标检测任务。

3.4 消融实验

为探究添加小目标检测层对YOLOv5 算法检测能力(mAP)产生的影响,以及小目标检测层所带来的额外计算开销,本文分别设置两组模型对照,一组为YOLOv5,二组为添加了小目标检测层P2的YOLOv5,其余设置均与YOLOv5 模型相同。

实验结果如表2 所示,YOLOv5+P2的对照组相比一组mAP 提升了1.60 个百分点,算法的参数量和浮点运算次数分别增加了0.9 MB 和20.8 GFLOPs。实验证明,小目标检测层的添加有效地增强了模型的小目标特征提取能力,在不过多增加额外参数量和计算量的情况下,一定程度上提升了网络对航拍目标检测的平均精度均值。

表2 添加小目标检测层的消融实验结果Table 2 Ablation experiment results of adding small target detection layer

多层级特征融合层将不同特征层进行自适应融合,使其有利于识别小目标物体的检测。为探究不同融合系数对检测性能(mAP)的影响,本文设置了多组模型对照。其中,α=β=γ=λ=0 表示基线方法,即不采用多层级特征融合层。α=β=γ=λ=0.25、α=β=γ=λ=0.50,α=β=γ=λ=0.75,α=β=γ=λ=1.00 表示各级特征以不同的固定系数进行相加融合。Aaptiveα,β,γ,λ表示自适应的各级特征融合系数。实验结果如表3 所示。

表3 不同融合系数的实验结果Table 3 Experiment results of different fusion coefficients

α=β=γ=λ=0 时表示采用YOLOv5 原本的结构,各级特征不参与融合。而设定固定参数为0.25、0.50、0.75 和1.00 时,从表3 可知4 组固定参数都取得了低于基线方法的精度,这意味着不同特征没有考虑训练样本的尺度大小,平等融合多层特征反而对已获得的特征信息造成了冲突,减弱了对小目标样本的学习能力。当采用自适应的α、β、γ、λ时,融合参数由训练样本中所需要的层级特征进行合理分配,从大量的多尺度信息中提取有利于当前任务的特征信息,从而提高了检测精度。

最后,为验证小目标检测层、多层级特征融合层以及解耦检测头的有效性,本文设置了多组消融实验进行探究。表4 给出各组实验10 类目标的AP 值与mAP 值(IOU=0.50:0.95)。其中+P2表示在基线方法上添加小目标检测层,+MFFL 表示添加多层级特征融合层,+DH 表示添加解耦检测头。

从表4 中的实验结果可以看出,将小目标检测层加入特征融合和预测后,各个类别的精度都有一定提升,这是因为小目标检测层的高分辨率保留了更多的特征信息,一定程度上提升算法对每一类的检测精度。MFFL 通过训练的过程不断优化各层级特征的融合权重,同时其获取的多尺度特征信息也帮助定位和分类小目标,mAP 提高了1.6 个百分点。解耦检测头在一定程度上缓解了定位任务和分类任务的冲突,在有无添加小目标检测层的情况下都提升了mAP。最后,集成三方面改进的ST-YOLOv5 方法较基线方法YOLOv5 的mAP 提升4.4 个百分点,达到最优的检测精度。

表4 消融实验结果Table 4 Ablation experiment results 单位:%

3.5 检测效果分析

为了验证ST-YOLOv5 算法在实际场景中的检测效果,选取VisDrone 测试集中多个复杂场景下的无人机航拍图像进行测试。检测结果如图7 所示,在白天与黑夜场景中,对于分布密集的小目标,例如汽车、行人等目标样本,可以精确回归每个目标的确切位置;
在背景复杂的情况下,该方法能够排除例如树木、建筑等干扰物体的影响,正确地分类和定位目标。总的来说,本文方法在不同光照条件、背景、分布状况的实际场景中均展现出较好的检测效果,可以满足无人机航拍图像目标检测任务的需求。

图7 不同场景检测效果Fig.7 Detection effects in different scenarios

为了进一步评估本文方法的性能,研究其特殊场景下的检测能力,选取了分布密集、复杂背景、极小目标和黑暗背景情况下的无人机航拍图像对YOLOv5 和本文方法进行测试,图8 给出对比结果。

对比图8(a),在分布密集的情况下,YOLOv5 错将摩托车识别为自行车,且存在大量目标漏检的情况,而ST-YOLOv5 则能精确地进行识别。对比图8(b),在复杂背景下,ST-YOLOv5 依旧识别出边缘的行人,而YOLOv5 则因为复杂的背景信息干扰了对目标的正确检测。对比图8(c),对于极小目标,STYOLOv5 特征学习更为充分,相比YOLOv5 没有产生漏检的情况。对比图8(d),夜间低照度影响了YOLOv5 对检测目标的判断,误将两辆摩托车识别为汽车。

图8 检测效果对比Fig.8 Comparison of detection effects

从对比情况来看,ST-YOLOv5 通过多层级特征的融合获取更充分的小目标特征信息,并从大量的多尺度信息中提取有利于目标定位分类的信息,相比YOLOv5 减少了漏检、误报的情况,对处于复杂背景的无人机图像小目标具备更强的辨识能力。

本文提出一种多层级特征融合的无人机航拍图像目标检测算法ST-YOLOv5,旨在充分利用不同层级特征的多尺度信息,使其适用于航拍图像中小目标的检测。改进的算法使用更高分辨率的特征图参与特征融合,提取更充足的特征信息。针对无人机航拍图像小目标实例多的特点,提出了多层级特征融合层MFFL,融合不同特征层级聚合上下文信息,并且通过自适应学习动态调节各输入特征层的权重,合理分配检测任务所需求的特征信息比例,有效改善对小目标的细节感知能力。为了在无人机图像复杂背景中精准定位目标,使用解耦检测头代替耦合检测头缓和分类任务和定位任务的冲突。从实验结果来看,ST-YOLOv5 对不同航拍场景下的不同类别目标均有较好的检测效果,改进后的算法与多种先进算法相比取得了最优的检测精度,显著提升了基线方法YOLOv5对无人机航拍小目标的检测能力。

猜你喜欢航拍层级尺度军工企业不同层级知识管理研究实践航天工业管理(2020年9期)2020-12-28财产的五大尺度和五重应对内蒙古民族大学学报(社会科学版)(2020年2期)2020-11-06航拍巴彦呼硕时代邮刊·下半月(2020年9期)2020-09-23基于军事力量层级划分的军力对比评估军事运筹与系统工程(2020年1期)2020-09-11职务职级并行后,科员可以努力到哪个层级廉政瞭望(2019年5期)2019-06-10航拍,苍穹下的醉美视角金桥(2018年6期)2018-09-22难忘的航拍小学生优秀作文(低年级)(2018年6期)2018-05-19《航拍中国》美得让人想哭作文通讯·高中版(2017年6期)2017-07-10宇宙的尺度太空探索(2016年5期)2016-07-12任务期内多层级不完全修复件的可用度评估系统工程与电子技术(2016年2期)2016-04-16

推荐访问:无人机 多层 融合

猜你喜欢