人民網
人民網>>傳媒>>人民網獎學金>>哈爾濱工業大學>>哈工大2019

基於Mask RCNN算法的遙感圖像艦船目標旋轉檢測

趙朋飛
2020年01月16日16:55 | 來源:人民網研究院
小字號

摘要: 近年來,隨著遙感圖像分辨率的提高,遙感目標檢測(例如飛機、船舶、油桶等檢測)已成為研究熱點。遙感目標檢測具有廣泛的應用,如軍事調查、災難救援和城市交通管理。針對艦船目標檢測問題,本文創新性的利用旋轉框標注的遙感數據集DOTA對Mask RCNN算法進行訓練。在對后續的性能分析中,陸續引入群組歸一化、權重標准化和可變卷積以提升對旋轉框的檢測效率。

關鍵詞: Mask RCNN﹔目標檢測﹔實例分割﹔旋轉框檢測

1 項目背景

隨著遙感技術的快速發展,遙感圖像的空間分辨率、光譜分辨率和輻射分辨率越來越高,這其中包含著豐富的信息。各種不同成像方式、不同空間分辨率的遙感平台得以涌現,產生了大量的遙感圖像。遙感在軍事和民用領域都有著重要的應用。對於民用領域,遙感圖像可用於氣象預報、土地規劃、環境檢測等方面,為國民經濟的發展做出了重要的貢獻。在軍事方面,可以使用遙感圖像戰略偵察、軍事測繪、海洋檢測等,可以在不受國界和地域限制的情況下獲取各種軍事目標情報信息。

目前對於遙感圖像中艦船目標的識別佔據著重要的地位,由於國家海洋權益越來越受到重視,如何從海量的遙感數據中快速、准確識別艦船成為一個迫切的應用需求。所以本文採用深度學習的方法對遙感圖像艦船目標識別,一方面可以替代人們從事重復繁瑣的工作,使人們從繁重的遙感圖像解譯工作中解脫出來﹔另一方面建立一種端到端的模型結構,不僅可以提高遙感數據的處理速率,而且達到較高的識別准確率。

2 項目具體方案

2.1 數據集的預處理與轉換

本次實驗選用的是DOTA[7]數據集,該數據集共有2806張圖片,來自不同的傳感器和平台,每一張尺度約為(800~4000),目標涵蓋了各種各樣的規模,位置,形狀。這些圖像被遙感領域的專家注釋並被分為15個目標類別,包括飛機、船隻、儲蓄罐、棒球內場、網球場、籃球場、田徑場、海港、橋、大型車輛、小型車輛、直升飛機、英式足球場、環形路線、游泳池,注釋后的完整數據集包括188282個實例,每一個被一個任意的四邊形標記。

由於DOTA數據集的尺寸非常大,這樣的圖片輸入網絡進行訓練時,計算資源將不能承載,所以就需要對DOTA數據集進行裁剪。裁剪方式主要分為兩個步驟,第一,使用1024×1024窗口在寬幅圖片上滑動進行裁剪,窗口每次的步進幅度1000,但是這種裁剪方式可能會導致物體正處於切割處,所以做出如下定義,物體剩余的面積大於或等於原始面積0.7時保留該物體的標注信息,否則對其丟棄處理﹔第二,對寬幅圖像進行放縮,縮放比例分別為0.5,1,2。

Mask RCNN訓練時需要三種標注信息,類別(category),包圍框(bounding box),掩模(segmentation),其中包圍框為非旋轉框。DOTA數據集隻存在類別與旋轉框,標注形式為(x_1,y_1,x_2,y_2,x_3,y_3,x_4,y_4)。DOTA數據集中目標的尺寸范圍比較大,艦船面積小至100,大至1000000。切分后的圖像尺寸仍然較大,圖像中經常性的存在密集排列的物體,所以基於DOTA數據集的識別非常具有挑戰性。對艦船目標而言,輪廓信息與旋轉框相差無幾,所以可以近似將其旋轉框等價於掩模標注信息,所以本文Mask RCNN的主要研究對象為艦船目標。對於非旋轉框,我們通過旋轉框的轉換,可以得到非旋轉的信息,轉換方式如下:

(1)對所有x,y坐標求取

(2)將兩兩組合,構成四對坐標﹔

(3)所求的四對坐標即為非旋轉信息。

圖1為DOTA數據集對艦船目標旋轉框的標注,以及通過上述的方式得到非旋轉框的標注。

2.2 Mask RCNN算法

Mask RCNN[1]基於Faster RCNN網絡架構做出了改進,添加了用於實例分割的分支,該分支與已有的包圍框回歸分支、分類分支平行。實例分割分支將一個小型的FCN網絡應用於所有RoI,預測像素級的分割掩模。Mask RCNN網絡相對於Faster RCNN網絡主要做出了兩處改變,第一,使用RoI Align代替RoI Pooling,使得特征圖與原始圖片的對齊一致性增強,改善分割的精度﹔第二,損失函數加入實例分割損失。網絡的主要框架圖2所示。

圖2中網絡的整體框架包含一個FPN[2](Feature Pyramid Networks)架構。在FPN之前,大多數的目標檢測算法隻在特征提取網絡的頂層進行檢測。雖然卷積神經網絡的深層特征有利於分類識別,但不利於目標的定位。為此,一個具有側向連接的自頂向下的架構被用於構建不同尺度的語義信息。主干網絡通過它的正向傳播,自然形成一個特征金字塔,FPN在檢測各種尺度的目標方面顯示出了巨大的進步。FPN已經成為許多目標檢測算法的基本組成。

2.3 Mask RCNN算法改進

2.3.1 群組歸一化

BN(Batch Normalization)是深度學習發展過程中的一個裡程碑的技術,它使得各種網絡較為容易的訓練。然后在批次維度的歸一化會帶來一個問題,當批次大小下降時,BN的誤差將會增加。通常在目標檢測與實例分割中,批次大小一般是1或2,這樣就限制了BN在這些任務中的應用。2018年6月,Facebook研究院的Yuxin Wu等提出了群組歸一化[3](Group Normalization)(以下簡稱GN),GN的計算不依賴於批次的大小,在大范圍批次變動下,其精度是穩定的。

在深度學習興起之前,提取的特征通常是SIFT、HOG、GIST特征,這些特征有一個共性,都是按群組(group)表示的特性,每一個群組由相同種類直方圖構建而成。這些特征通常是每個直方圖或每個方向圖進行組歸一化而得到的。導致分組的因素很多,比如頻率、形狀、亮度或者紋理等,HOG特征根據旋轉梯度分組,而對神經網絡而言,其提取特征的機制更復雜,也更難以描述。另外在神經科學領域,一種被廣泛接受的計算模型是對細胞的響應做歸一化,此現象存在於淺層和整個視覺系統。特征歸一化的表征形式如公式1所示:

2.3.2 權重標准化

權重標准化[4](Weight Standardization)(以下簡稱WS)也是為了解決BN對於Batch size的限制要求,基本思想和BN一致的,就是盡量保持映射的平滑性。不過BN是通過反饋信號來間接調整權重,WS是直接調整權重。

設一個卷積網絡,其偏置為0,則前向傳播過程可以表示為:

在WS中f(x)和x分別表示為損失和權重,所以公式(13)中,由於減去兩個正數所以L約束常數將會變小,在小的batchsize下能夠像BN在大的batchsize下一樣使得損失函數變得很平滑,同時消除了卷積核在偏置和尺度上的自由度,使得訓練收斂的更好。

2.3.3 可變卷積

 CNN中池化層和STN[5](Spatial Transformer Networks)都是為了增加空間不變性,但是二者增加空間不變性的出發點不同,CNN是盡力讓網絡適應物體的形變,而STN是直接通過ST將形變的物體變回正常的姿態。CNN固定的卷積核,固定的池化核,固定的RoI,導致高層神經元的感受野是固定的,沒有辦法有效的編碼語義或者位置信息。因此在STN的基礎上,針對分類和檢測提出了可變卷積[6](Deformable Convolution)(以下簡稱DC)模塊,來動態調節感受野的作用。

由於採樣點可能是小數,這就需要雙線性插值操作。為了學習到採樣偏移,DC採用圖6的結構,其中下路是標准的3×3卷積,上路也是一個3×3卷積,步長一樣,輸出偏移場與輸入特征圖的大小一致,通道數是輸出特征圖通道的2倍。隨后裁剪出卷積核相對的那一塊區域,得到偏移量。與下一路的標准卷積進行相加,然后線性插值,確定採樣點坐標,最后進行卷積操作即可。

3 實驗結果

為了避免其它因素對實驗結果的影響,網絡均不採用ImageNet的預訓練模型。為了快速的迭代以及后續計算的限制,主干網絡的模型改為ResNet50。本次實驗採用SGD優化器,訓練的軟件平台為Pytorch,硬件平台為Tesla K40c由於現存的限制,訓練的圖片經過尺度縮放為(800,800)訓練,以0.5的概率隨機翻轉圖像。

具體的實驗配置如表1所示:

當使用各種模塊對Mask RCNN算法進行改進之后,bbox AP和segm AP指標在訓練過程中的變換情況,如圖7所示:

對訓練過程中最優的模型在驗証集上的各項AP指標的統計如表2所示:

需要指出的是,一般WS和GN是聯合使用。從訓練過程中AP的變化曲線可以看出,GN處理后的網絡,AP大體上始終高於BN處理后的網絡。這正是因為當圖片批次較小時,BN估計的均值與方差不准確,使得網絡的每個子網絡輸入的數據存在較大的差異,訓練的效率較低,且驗証集上的AP較低。由於分割任務較難,導致segm AP上的性能提升相對於bbox AP性能的提升較低。GN處理后的網絡在兩個指標上依然抖動劇烈,這從側面驗証了,WS的確可以平滑損失空間。由於損失空間的平滑,這使得網絡收斂效果更好,在較短時間內可以找到局部最優點,網絡訓練效率提升。在訓練初期可變卷積和正常卷積的性能相當,這是因為偏移量此時並沒有學習好。但是隨著偏移網絡的逐漸學習,后期可變卷積的性能已大幅超越正常卷積。

從最優的模型各個檢測指標可以看出,可變卷積大幅提高了網絡的性能,在AP75指標上,可變卷積更是大幅度的提高了2.7個點。同時在segm AP指標上的性能提升,依然可觀,提升了2.5個點。平均指標的收益大部分來源於這兩個指標的貢獻。實驗結果表明,針對遙感圖像中的不同的大小、姿態、視角變化甚至非剛體形變的問題,可變卷積可以有效的改善這些問題。

最終的網絡,本文採用主干網絡ResNeXt-101_32x8d,然后引入上述的三個模塊對Mask RCNN網絡進行改進,最終的Mask RCNN算法的性能表現如表3所示。

本文中的Mask RCNN算法並不能稱之為嚴格的艦船目標實例分割,因為數據集的限制,並沒有充分的精准的艦船目標輪廓標注數據,隻能將艦船目標的選裝框標注近似看作是掩模標注信息。這對於較小的艦船是適用的,因為旋轉框與掩模標注相差不大,但是對於航母、護衛艦這種級別的艦船,輪廓標注的信息就有所缺失,這就導致訓練的Mask RCNN模型有所偏差。

從檢測結果可以看出Mask RCNN對於艦船輪廓的邊緣缺失做到了有效的提取,實現了實例分割,但是小目標存在較大的漏警率,大目標和中等目標檢測效果良好。

4 結論

在不增加網絡深度和網絡復雜度的條件下,使用了幾種算法對Mask RCNN算法的性能進行提升。Mask RCNN算法由於模型較大,計算機的顯存的限制,batch size一般為1,BN的使用將會帶來較大的誤差。為此引入GN對此問題進行改善,改善后的Mask RCNN算法性能有大幅度的提升,同時為了減小Lipschitz約束條件的常數,引用WS算法平滑損失函數空間。針對遙感目標不同的大小、姿態、視角變化,利用可變卷積對艦船目標特征偏移性採樣。基於GN、WS、DC的對比實驗,均顯示了三種算法的優越性。最后採用復雜的主干網絡聯合這三種優化方法,實驗結果顯示Mask RCNN算法對大、中、小目標均達到較高的檢測性能。

參考文獻

[1] He K, Gkioxari G, Dollár P, et al. Mask r-cnn[C]. Proceedings of the IEEE international conference on computer vision. 2017: 2961-2969.

[2] Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 2117-2125.

[3] Wu Y, He K. Group normalization[C]. Proceedings of the European Conference on Computer Vision (ECCV). 2018: 3-19.

[4] Siyuan Qiao, Huiyu Wang, Chenxi Liu, Wei Shen, Alan Loddon Yuille. Weight Standardization. arXiv:1903.10520

[5] Jaderberg M, Simonyan K, Zisserman A. Spatial transformer networks[C]. Advances in neural information processing systems. 2015: 2017-2025.

[6] Dai J, Qi H, Xiong Y, et al. Deformable convolutional networks[C]. Proceedings of the IEEE international conference on computer vision. 2017: 764-773.

[7] Xia G S, Bai X, Ding J, et al. DOTA: A large-scale dataset for object detection in aerial images[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 3974-3983.

(責編:劉揚、趙光霞)

分享讓更多人看到

傳媒推薦
  • @媒體人,新聞報道別任性
  • 網站運營者 這些"紅線"不能踩!
  • 一圖縱覽中國網絡視聽行業
返回頂部