人民网
人民网>>传媒>>人民网奖学金>>哈尔滨工业大学>>哈工大2019

基于Mask RCNN算法的遥感图像舰船目标旋转检测

赵朋飞
2020年01月16日16:55 | 来源:人民网研究院
小字号

摘要: 近年来,随着遥感图像分辨率的提高,遥感目标检测(例如飞机、船舶、油桶等检测)已成为研究热点。遥感目标检测具有广泛的应用,如军事调查、灾难救援和城市交通管理。针对舰船目标检测问题,本文创新性的利用旋转框标注的遥感数据集DOTA对Mask RCNN算法进行训练。在对后续的性能分析中,陆续引入群组归一化、权重标准化和可变卷积以提升对旋转框的检测效率。

关键词: Mask RCNN;目标检测;实例分割;旋转框检测

1 项目背景

随着遥感技术的快速发展,遥感图像的空间分辨率、光谱分辨率和辐射分辨率越来越高,这其中包含着丰富的信息。各种不同成像方式、不同空间分辨率的遥感平台得以涌现,产生了大量的遥感图像。遥感在军事和民用领域都有着重要的应用。对于民用领域,遥感图像可用于气象预报、土地规划、环境检测等方面,为国民经济的发展做出了重要的贡献。在军事方面,可以使用遥感图像战略侦察、军事测绘、海洋检测等,可以在不受国界和地域限制的情况下获取各种军事目标情报信息。

目前对于遥感图像中舰船目标的识别占据着重要的地位,由于国家海洋权益越来越受到重视,如何从海量的遥感数据中快速、准确识别舰船成为一个迫切的应用需求。所以本文采用深度学习的方法对遥感图像舰船目标识别,一方面可以替代人们从事重复繁琐的工作,使人们从繁重的遥感图像解译工作中解脱出来;另一方面建立一种端到端的模型结构,不仅可以提高遥感数据的处理速率,而且达到较高的识别准确率。

2 项目具体方案

2.1 数据集的预处理与转换

本次实验选用的是DOTA[7]数据集,该数据集共有2806张图片,来自不同的传感器和平台,每一张尺度约为(800~4000),目标涵盖了各种各样的规模,位置,形状。这些图像被遥感领域的专家注释并被分为15个目标类别,包括飞机、船只、储蓄罐、棒球内场、网球场、篮球场、田径场、海港、桥、大型车辆、小型车辆、直升飞机、英式足球场、环形路线、游泳池,注释后的完整数据集包括188282个实例,每一个被一个任意的四边形标记。

由于DOTA数据集的尺寸非常大,这样的图片输入网络进行训练时,计算资源将不能承载,所以就需要对DOTA数据集进行裁剪。裁剪方式主要分为两个步骤,第一,使用1024×1024窗口在宽幅图片上滑动进行裁剪,窗口每次的步进幅度1000,但是这种裁剪方式可能会导致物体正处于切割处,所以做出如下定义,物体剩余的面积大于或等于原始面积0.7时保留该物体的标注信息,否则对其丢弃处理;第二,对宽幅图像进行放缩,缩放比例分别为0.5,1,2。

Mask RCNN训练时需要三种标注信息,类别(category),包围框(bounding box),掩模(segmentation),其中包围框为非旋转框。DOTA数据集只存在类别与旋转框,标注形式为(x_1,y_1,x_2,y_2,x_3,y_3,x_4,y_4)。DOTA数据集中目标的尺寸范围比较大,舰船面积小至100,大至1000000。切分后的图像尺寸仍然较大,图像中经常性的存在密集排列的物体,所以基于DOTA数据集的识别非常具有挑战性。对舰船目标而言,轮廓信息与旋转框相差无几,所以可以近似将其旋转框等价于掩模标注信息,所以本文Mask RCNN的主要研究对象为舰船目标。对于非旋转框,我们通过旋转框的转换,可以得到非旋转的信息,转换方式如下:

(1)对所有x,y坐标求取

(2)将两两组合,构成四对坐标;

(3)所求的四对坐标即为非旋转信息。

图1为DOTA数据集对舰船目标旋转框的标注,以及通过上述的方式得到非旋转框的标注。

2.2 Mask RCNN算法

Mask RCNN[1]基于Faster RCNN网络架构做出了改进,添加了用于实例分割的分支,该分支与已有的包围框回归分支、分类分支平行。实例分割分支将一个小型的FCN网络应用于所有RoI,预测像素级的分割掩模。Mask RCNN网络相对于Faster RCNN网络主要做出了两处改变,第一,使用RoI Align代替RoI Pooling,使得特征图与原始图片的对齐一致性增强,改善分割的精度;第二,损失函数加入实例分割损失。网络的主要框架图2所示。

图2中网络的整体框架包含一个FPN[2](Feature Pyramid Networks)架构。在FPN之前,大多数的目标检测算法只在特征提取网络的顶层进行检测。虽然卷积神经网络的深层特征有利于分类识别,但不利于目标的定位。为此,一个具有侧向连接的自顶向下的架构被用于构建不同尺度的语义信息。主干网络通过它的正向传播,自然形成一个特征金字塔,FPN在检测各种尺度的目标方面显示出了巨大的进步。FPN已经成为许多目标检测算法的基本组成。

2.3 Mask RCNN算法改进

2.3.1 群组归一化

BN(Batch Normalization)是深度学习发展过程中的一个里程碑的技术,它使得各种网络较为容易的训练。然后在批次维度的归一化会带来一个问题,当批次大小下降时,BN的误差将会增加。通常在目标检测与实例分割中,批次大小一般是1或2,这样就限制了BN在这些任务中的应用。2018年6月,Facebook研究院的Yuxin Wu等提出了群组归一化[3](Group Normalization)(以下简称GN),GN的计算不依赖于批次的大小,在大范围批次变动下,其精度是稳定的。

在深度学习兴起之前,提取的特征通常是SIFT、HOG、GIST特征,这些特征有一个共性,都是按群组(group)表示的特性,每一个群组由相同种类直方图构建而成。这些特征通常是每个直方图或每个方向图进行组归一化而得到的。导致分组的因素很多,比如频率、形状、亮度或者纹理等,HOG特征根据旋转梯度分组,而对神经网络而言,其提取特征的机制更复杂,也更难以描述。另外在神经科学领域,一种被广泛接受的计算模型是对细胞的响应做归一化,此现象存在于浅层和整个视觉系统。特征归一化的表征形式如公式1所示:

2.3.2 权重标准化

权重标准化[4](Weight Standardization)(以下简称WS)也是为了解决BN对于Batch size的限制要求,基本思想和BN一致的,就是尽量保持映射的平滑性。不过BN是通过反馈信号来间接调整权重,WS是直接调整权重。

设一个卷积网络,其偏置为0,则前向传播过程可以表示为:

在WS中f(x)和x分别表示为损失和权重,所以公式(13)中,由于减去两个正数所以L约束常数将会变小,在小的batchsize下能够像BN在大的batchsize下一样使得损失函数变得很平滑,同时消除了卷积核在偏置和尺度上的自由度,使得训练收敛的更好。

2.3.3 可变卷积

 CNN中池化层和STN[5](Spatial Transformer Networks)都是为了增加空间不变性,但是二者增加空间不变性的出发点不同,CNN是尽力让网络适应物体的形变,而STN是直接通过ST将形变的物体变回正常的姿态。CNN固定的卷积核,固定的池化核,固定的RoI,导致高层神经元的感受野是固定的,没有办法有效的编码语义或者位置信息。因此在STN的基础上,针对分类和检测提出了可变卷积[6](Deformable Convolution)(以下简称DC)模块,来动态调节感受野的作用。

由于采样点可能是小数,这就需要双线性插值操作。为了学习到采样偏移,DC采用图6的结构,其中下路是标准的3×3卷积,上路也是一个3×3卷积,步长一样,输出偏移场与输入特征图的大小一致,通道数是输出特征图通道的2倍。随后裁剪出卷积核相对的那一块区域,得到偏移量。与下一路的标准卷积进行相加,然后线性插值,确定采样点坐标,最后进行卷积操作即可。

3 实验结果

为了避免其它因素对实验结果的影响,网络均不采用ImageNet的预训练模型。为了快速的迭代以及后续计算的限制,主干网络的模型改为ResNet50。本次实验采用SGD优化器,训练的软件平台为Pytorch,硬件平台为Tesla K40c由于现存的限制,训练的图片经过尺度缩放为(800,800)训练,以0.5的概率随机翻转图像。

具体的实验配置如表1所示:

当使用各种模块对Mask RCNN算法进行改进之后,bbox AP和segm AP指标在训练过程中的变换情况,如图7所示:

对训练过程中最优的模型在验证集上的各项AP指标的统计如表2所示:

需要指出的是,一般WS和GN是联合使用。从训练过程中AP的变化曲线可以看出,GN处理后的网络,AP大体上始终高于BN处理后的网络。这正是因为当图片批次较小时,BN估计的均值与方差不准确,使得网络的每个子网络输入的数据存在较大的差异,训练的效率较低,且验证集上的AP较低。由于分割任务较难,导致segm AP上的性能提升相对于bbox AP性能的提升较低。GN处理后的网络在两个指标上依然抖动剧烈,这从侧面验证了,WS的确可以平滑损失空间。由于损失空间的平滑,这使得网络收敛效果更好,在较短时间内可以找到局部最优点,网络训练效率提升。在训练初期可变卷积和正常卷积的性能相当,这是因为偏移量此时并没有学习好。但是随着偏移网络的逐渐学习,后期可变卷积的性能已大幅超越正常卷积。

从最优的模型各个检测指标可以看出,可变卷积大幅提高了网络的性能,在AP75指标上,可变卷积更是大幅度的提高了2.7个点。同时在segm AP指标上的性能提升,依然可观,提升了2.5个点。平均指标的收益大部分来源于这两个指标的贡献。实验结果表明,针对遥感图像中的不同的大小、姿态、视角变化甚至非刚体形变的问题,可变卷积可以有效的改善这些问题。

最终的网络,本文采用主干网络ResNeXt-101_32x8d,然后引入上述的三个模块对Mask RCNN网络进行改进,最终的Mask RCNN算法的性能表现如表3所示。

本文中的Mask RCNN算法并不能称之为严格的舰船目标实例分割,因为数据集的限制,并没有充分的精准的舰船目标轮廓标注数据,只能将舰船目标的选装框标注近似看作是掩模标注信息。这对于较小的舰船是适用的,因为旋转框与掩模标注相差不大,但是对于航母、护卫舰这种级别的舰船,轮廓标注的信息就有所缺失,这就导致训练的Mask RCNN模型有所偏差。

从检测结果可以看出Mask RCNN对于舰船轮廓的边缘缺失做到了有效的提取,实现了实例分割,但是小目标存在较大的漏警率,大目标和中等目标检测效果良好。

4 结论

在不增加网络深度和网络复杂度的条件下,使用了几种算法对Mask RCNN算法的性能进行提升。Mask RCNN算法由于模型较大,计算机的显存的限制,batch size一般为1,BN的使用将会带来较大的误差。为此引入GN对此问题进行改善,改善后的Mask RCNN算法性能有大幅度的提升,同时为了减小Lipschitz约束条件的常数,引用WS算法平滑损失函数空间。针对遥感目标不同的大小、姿态、视角变化,利用可变卷积对舰船目标特征偏移性采样。基于GN、WS、DC的对比实验,均显示了三种算法的优越性。最后采用复杂的主干网络联合这三种优化方法,实验结果显示Mask RCNN算法对大、中、小目标均达到较高的检测性能。

参考文献

[1] He K, Gkioxari G, Dollár P, et al. Mask r-cnn[C]. Proceedings of the IEEE international conference on computer vision. 2017: 2961-2969.

[2] Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 2117-2125.

[3] Wu Y, He K. Group normalization[C]. Proceedings of the European Conference on Computer Vision (ECCV). 2018: 3-19.

[4] Siyuan Qiao, Huiyu Wang, Chenxi Liu, Wei Shen, Alan Loddon Yuille. Weight Standardization. arXiv:1903.10520

[5] Jaderberg M, Simonyan K, Zisserman A. Spatial transformer networks[C]. Advances in neural information processing systems. 2015: 2017-2025.

[6] Dai J, Qi H, Xiong Y, et al. Deformable convolutional networks[C]. Proceedings of the IEEE international conference on computer vision. 2017: 764-773.

[7] Xia G S, Bai X, Ding J, et al. DOTA: A large-scale dataset for object detection in aerial images[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 3974-3983.

(责编:刘扬、赵光霞)

分享让更多人看到

传媒推荐
  • @媒体人,新闻报道别任性
  • 网站运营者 这些"红线"不能踩!
  • 一图纵览中国网络视听行业
返回顶部