王小信是從Qure.ai Blog編譯而來的

量子比特生產(chǎn)|公眾號QbitAI

圖像語義分割是機器自動分割圖像中的對象區(qū)域并識別其內(nèi)容。

從楊子偉今天推薦的這篇文章、形象意義分割中回顧了深度學(xué)習的發(fā)展過程。

發(fā)表這篇文章Qure.ai是為了閱讀醫(yī)學(xué)視頻而進行深度學(xué)習的公司,在官方博客上梳理了語義分割的深度學(xué)習方法。(莎士比亞)(莎士比亞)。

他們希望通過這一介紹,告訴人們在自然圖像處理上成熟,但在醫(yī)學(xué)圖像上仍然需要發(fā)展的新技術(shù)。

作者Sasank Chilamkurthy介紹了語義分割的相關(guān)研究。

語義分割的概念、相關(guān)解決方法、相關(guān)研究的綜述。

以下內(nèi)容是在Qure.ai官方博客中編譯的。

什么是語義分割?

語義分割方法在操作圖像時應(yīng)用到像素級別。也就是說,將圖像中的每個像素指定給對象類別。以下是具體案例。

左邊是輸入圖像,右邊是語義分割的輸出圖像。

該模型不僅需要識別摩托車和駕駛員,還需要識別每個對象的邊界。因此,與分類目的不同,相關(guān)模型必須具有像素級別的密集預(yù)測功能。

目前用于語義分割研究的兩組最重要的數(shù)據(jù)集是VOC2012和MSCOCO。

VOC2012:

MSCOCO:

有什么辦法嗎?

在深入學(xué)習應(yīng)用于計算機視覺領(lǐng)域之前,研究人員通常使用紋理基元森林(TextonForest)或隨機森林(Random Forest)方法構(gòu)建語義分割的分類器。

卷積神經(jīng)網(wǎng)絡(luò)(CNN)不僅能很好地實現(xiàn)圖像分類,而且在分割問題上也取得了很大進展。

最初,圖像塊分類是常用的深度學(xué)習方法。也就是說,使用每個像素周圍的圖像塊將每個像素分為相應(yīng)的類別。使用圖像塊的主要原因是分類網(wǎng)絡(luò)通常有完整的連接層,輸入必須是固定大小的圖像塊。

2014年,加州大學(xué)伯克利分校的Long等人提出的整個卷積網(wǎng)絡(luò)(Fully Convolutional Networks)推廣了現(xiàn)有的CNN結(jié)構(gòu),使其能夠在沒有整個連接層的情況下進行密集預(yù)測。

由于這種結(jié)構(gòu)的提出,分割地圖可以生成任意大小的圖像,與圖像塊分類方法相比,處理速度更快。后來,幾乎所有關(guān)于語義分割的最新研究都采用了這種結(jié)構(gòu)。

除了整個連接層結(jié)構(gòu)外,在分區(qū)問題上很難使用CNN網(wǎng)絡(luò)的另一個問題是池層。普華層不僅能增加上層卷積核的感覺場,還能收斂背景,同時丟棄部分位置信息。(威廉莎士比亞、溫斯頓、涪陵、涪陵、涪陵、涪陵、涪陵)但是,語義分割方法必須正確調(diào)整類別映射,因此要在涪陵層保留廢棄的位置信息。

為了解決這個問題,研究者提出了兩種不同形式的結(jié)構(gòu)。

第一種方法是編碼器-解碼器結(jié)構(gòu)。編碼器使用池化層逐漸減少輸入數(shù)據(jù)的空間維度,而解碼器通過網(wǎng)絡(luò)層(如反卷積層)逐步恢復(fù)目標的細節(jié)及其空間維度。從編碼器到解碼器有直接的信息連接,解碼器可以更好地恢復(fù)大象細節(jié)。在這種方法中,典型的結(jié)構(gòu)是U-Net網(wǎng)絡(luò)。

典型編碼器-解碼器結(jié)構(gòu)U-Net

第二種方法是使用一種稱為空卷積的結(jié)構(gòu),消除池層結(jié)構(gòu)。

空卷積,如果比率為1,則是經(jīng)典卷積結(jié)構(gòu)。

標準隨機場(CRF)方法通常用于在后處理中提高分割效果。CRF方法是根據(jù)基本圖像像素強度“平滑”劃分的圖表模型,在運行時以相同的類別顯示像素強度相似的點。添加條件隨機場方法可以將最終得分值提高1%到2%。

t="312"/>

△ 發(fā)展中的CRF方法效果。b圖中將一維分類器作為CRF方法的分割輸入;c、d、e圖為CRF方法的三種變體;e圖為廣泛使用的一種CRF結(jié)構(gòu)。

接下來,我們會梳理一些代表性論文,來介紹從FCN網(wǎng)絡(luò)開始的分割結(jié)構(gòu)演變歷程。

這些結(jié)構(gòu)都使用了VOC2012數(shù)據(jù)集來測試實際效果。

一些有趣的研究

接下來將按照論文的發(fā)表順序來介紹以下論文:

1.FCN網(wǎng)絡(luò);

2.SegNet網(wǎng)絡(luò);

3.空洞卷積(Dilated Convolutions);

4.DeepLab (v1和v2);

5.RefineNet;

6.PSPNet;

7.大內(nèi)核(Large Kernel Matters);

8.DeepLab v3;

對于上面的每篇論文,下面將會分別指出主要貢獻并進行解釋,也貼出了這些結(jié)構(gòu)在VOC2012數(shù)據(jù)集中的測試分值IOU。

FCN

論文:

Fully Convolutional Networks for Semantic Segmentation

于2014年11月14日提交到arvix

主要貢獻:

  • 將端到端的卷積網(wǎng)絡(luò)推廣到語義分割中;

  • 重新將預(yù)訓(xùn)練好的Imagenet網(wǎng)絡(luò)用于分割問題中;

  • 使用反卷積層進行上采樣;

  • 提出了跳躍連接來改善上采樣的粗糙程度。

具體解釋:

本文的關(guān)鍵在于:分類網(wǎng)絡(luò)中的全連接層可以看作是使用卷積核遍歷整個輸入?yún)^(qū)域的卷積操作。

這相當于在重疊的輸入圖像塊上評估原始的分類網(wǎng)絡(luò),但是與先前相比計算效率更高,因為在圖像塊重疊區(qū)域,共享計算結(jié)果。

盡管這種方法并不是這篇文章中所特有的,還有一篇關(guān)于overfeat的文章也使用了這種思想,但是確實顯著提高了在VOC2012數(shù)據(jù)集上的實際效果。

△ 用卷積運算實現(xiàn)的全連接層結(jié)構(gòu)

在將VGG等預(yù)訓(xùn)練網(wǎng)絡(luò)模型的全連接層卷積化之后,由于CNN網(wǎng)絡(luò)中的池化操作,得到的特征圖譜仍需進行上采樣。

反卷積層在進行上采樣時,不是使用簡單的雙線性插值,而是通過學(xué)習實現(xiàn)插值操作。此網(wǎng)絡(luò)層也被稱為上卷積、完全卷積、轉(zhuǎn)置卷積或是分形卷積。

然而,由于在池化操作中丟失部分信息,使得即使加上反卷積層的上采樣操作也會產(chǎn)生粗糙的分割圖。因此,本文還從高分辨率特性圖譜中引入了跳躍連接方式。

分值評論來源
62.2排行榜
67.2增大動量momentum(原文未描述)排行榜

△ FCN網(wǎng)絡(luò)在VOC2012上測試的基準分值

個人評論:

本文的研究貢獻非常重要,但是最新的研究已經(jīng)很大程度地改進了這個結(jié)果。

SegNet

論文:

SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation

于2015年11月2日提交到arvix

主要貢獻:

將最大池化指數(shù)轉(zhuǎn)移至解碼器中,改善了分割分辨率。

具體解釋:

在FCN網(wǎng)絡(luò)中,通過上卷積層和一些跳躍連接產(chǎn)生了粗糙的分割圖,為了提升效果而引入了更多的跳躍連接。

然而,F(xiàn)CN網(wǎng)絡(luò)僅僅復(fù)制了編碼器特征,而Segnet網(wǎng)絡(luò)復(fù)制了最大池化指數(shù)。這使得在內(nèi)存使用上,SegNet比FCN更為高效。

△ SegNet網(wǎng)絡(luò)結(jié)構(gòu)

分值評論來源
59.9排行榜

△ SegNet在VOC2012上測試的基準分值

個人評論:

FCN網(wǎng)絡(luò)和SegNet網(wǎng)絡(luò)都是最先出現(xiàn)的編碼器-解碼器結(jié)構(gòu),但是SegNet網(wǎng)絡(luò)的基準分值還不能滿足可實際使用的需求。

空洞卷積

論文:

Multi-Scale Context Aggregation by Dilated Convolutions

于2015年11月23日提交到arvix

主要貢獻:

  • 使用了空洞卷積,這是一種可用于密集預(yù)測的卷積層;

  • 提出在多尺度聚集條件下使用空洞卷積的“背景模塊”。

具體解釋:

池化操作增大了感受野,有助于實現(xiàn)分類網(wǎng)絡(luò)。但是池化操作在分割過程中也降低了分辨率。

因此,該論文所提出的空洞卷積層是如此工作的:

△ 空洞卷積示意圖

空洞卷積層在不降低空間維度的前提下增大了相應(yīng)的感受野指數(shù)。

在接下來將提到的DeepLab中,空洞卷積被稱為多孔卷積(atrous convolution)。

從預(yù)訓(xùn)練好的分類網(wǎng)絡(luò)中(這里指的是VGG網(wǎng)絡(luò))移除最后兩個池化層,而用空洞卷積取代了隨后的卷積層。

特別的是,池化層3和池化層4之間的卷積操作為空洞卷積層2,池化層4之后的卷積操作為空洞卷積層4。

這篇文章所提出的背景模型(frontend module)可在不增加參數(shù)數(shù)量的情況下獲得密集預(yù)測結(jié)果。

這篇文章所提到的背景模塊單獨訓(xùn)練了前端模塊的輸出,作為該模型的輸入。該模塊是由不同擴張程度的空洞卷積層級聯(lián)而得到的,從而聚集多尺度背景模塊并改善前端預(yù)測效果。

分值評論來源
71.3前端空洞卷積論文
73.5前端+背景同上
74.7前端+背景+ CRF同上
75.3前端+背景+ CRF - RNN同上

△ 空洞卷積在VOC2012上測試的基準分值

個人評論:

需要注意的是,該模型預(yù)測分割圖的大小是原圖像大小的1/8。這是幾乎所有方法中都存在的問題,將通過內(nèi)插方法得到最終分割圖。

DeepLab(v1和v2)

論文1:

Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs

于2014年12月22日提交到Arvix

論文2:

DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs

于2016年6月2日提交到Arxiv

主要貢獻:

  • 使用了空洞卷積;

  • 提出了在空間維度上實現(xiàn)金字塔型的空洞池化atrous spatial pyramid pooling(ASPP);

  • 使用了全連接條件隨機場。

具體解釋:

空洞卷積在不增加參數(shù)數(shù)量的情況下增大了感受野,按照上文提到的空洞卷積論文的做法,可以改善分割網(wǎng)絡(luò)。

我們可以通過將原始圖像的多個重新縮放版本傳遞到CNN網(wǎng)絡(luò)的并行分支(即圖像金字塔)中,或是可使用不同采樣率(ASPP)的多個并行空洞卷積層,這兩種方法均可實現(xiàn)多尺度處理。

我們也可通過全連接條件隨機場實現(xiàn)結(jié)構(gòu)化預(yù)測,需將條件隨機場的訓(xùn)練和微調(diào)單獨作為一個后期處理步驟。

△ DeepLab2網(wǎng)絡(luò)的處理流程

分值評論來源
79.7ResNet-101 + 空洞卷積 + ASPP + CRF排行榜

△ DeepLab2網(wǎng)絡(luò)在VOC2012上測試的基準分值

RefineNet

論文:

RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation

于2016年11月20日提交到Arxiv

主要貢獻:

  • 帶有精心設(shè)計解碼器模塊的編碼器-解碼器結(jié)構(gòu);

  • 所有組件遵循殘差連接的設(shè)計方式。

具體解釋:

使用空洞卷積的方法也存在一定的缺點,它的計算成本比較高,同時由于需處理大量高分辨率特征圖譜,會占用大量內(nèi)存,這個問題阻礙了高分辨率預(yù)測的計算研究。

DeepLab得到的預(yù)測結(jié)果只有原始輸入的1/8大小。

所以,這篇論文提出了相應(yīng)的編碼器-解碼器結(jié)構(gòu),其中編碼器是ResNet-101模塊,解碼器為能融合編碼器高分辨率特征和先前RefineNet模塊低分辨率特征的RefineNet模塊。

△ RefineNet網(wǎng)絡(luò)結(jié)構(gòu)

每個RefineNet模塊包含一個能通過對較低分辨率特征進行上采樣來融合多分辨率特征的組件,以及一個能基于步幅為1及5×5大小的重復(fù)池化層來獲取背景信息的組件。

這些組件遵循恒等映射的思想,采用了殘差連接的設(shè)計方式。

△ RefineNet模塊

分值評論來源
84.2CRF + 多維度輸入 + COCO預(yù)訓(xùn)練排行榜

△ RefineNet網(wǎng)絡(luò)在VOC2012上測試的基準分值

PSPNet

論文:

Pyramid Scene Parsing Network

于2016年12月4日提交到Arxiv

主要貢獻:

  • 提出了金字塔池化模塊來聚合背景信息;

  • 使用了附加損失(auxiliary loss)。

具體解釋:

全局場景分類很重要,由于它提供了分割類別分布的線索。金字塔池化模塊使用大內(nèi)核池化層來捕獲這些信息。

和上文提到的空洞卷積論文一樣,PSPNet也用空洞卷積來改善Resnet結(jié)構(gòu),并添加了一個金字塔池化模塊。該模塊將ResNet的特征圖譜連接到并行池化層的上采樣輸出,其中內(nèi)核分別覆蓋了圖像的整個區(qū)域、半各區(qū)域和小塊區(qū)域。

在ResNet網(wǎng)絡(luò)的第四階段(即輸入到金字塔池化模塊后),除了主分支的損失之外又新增了附加損失,這種思想在其他研究中也被稱為中級監(jiān)督(intermediate supervision)。

△ PSPNet網(wǎng)絡(luò)結(jié)構(gòu)

分值評論來源
85.4COCO預(yù)訓(xùn)練,多維度輸入,無CRF方法排行榜
82.6無COCO預(yù)訓(xùn)練方法,多維度輸入,無CRF方法PSPNet論文

△ PSPNet網(wǎng)絡(luò)在VOC2012上測試的基準分值

大內(nèi)核

論文:

Large Kernel Matters — Improve Semantic Segmentation by Global Convolutional Network

于2017年3月8日提交到Arxiv

主要貢獻:

提出了一種帶有大維度卷積核的編碼器-解碼器結(jié)構(gòu)。

具體解釋:

這項研究通過全局卷積網(wǎng)絡(luò)來提高語義分割的效果。

語義分割不僅需要圖像分割,而且需要對分割目標進行分類。在分割結(jié)構(gòu)中不能使用全連接層,這項研究發(fā)現(xiàn)可以使用大維度內(nèi)核來替代。

采用大內(nèi)核結(jié)構(gòu)的另一個原因是,盡管ResNet等多種深層網(wǎng)絡(luò)具有很大的感受野,有相關(guān)研究發(fā)現(xiàn)網(wǎng)絡(luò)傾向于在一個小得多的區(qū)域來獲取信息,并提出了有效感受野的概念。

大內(nèi)核結(jié)構(gòu)計算成本高,且具有很多結(jié)構(gòu)參數(shù)。因此,k×k卷積可近似成1×k+k×1和k×1+1×k的兩種分布組合。這個模塊稱為全局卷積網(wǎng)絡(luò)(Global Convolutional Network, GCN)。

接下來談結(jié)構(gòu),ResNet(不帶空洞卷積)組成了整個結(jié)構(gòu)的編碼器部分,同時GCN網(wǎng)絡(luò)和反卷積層組成了解碼器部分。該結(jié)構(gòu)還使用了一種稱作邊界細化(Boundary Refinement,BR)的簡單殘差模塊。

△ GCN網(wǎng)絡(luò)結(jié)構(gòu)

分值評論來源
82.2-詳情見本論文
83.6改進訓(xùn)練過程,未在本文中詳細描述排行榜

△ GCN網(wǎng)絡(luò)在VOC2012上測試的基準分值

DeepLab v3

論文:

Rethinking Atrous Convolution for Semantic Image Segmentation

于2017年6月17日提交到Arxiv

主要貢獻:

  • 改進了空間維度上的金字塔空洞池化方法(ASPP);

  • 該模塊級聯(lián)了多個空洞卷積結(jié)構(gòu)。

具體解釋:

與在DeepLab v2網(wǎng)絡(luò)、空洞卷積中一樣,這項研究也用空洞卷積/多空卷積來改善ResNet模型。

這篇論文還提出了三種改善ASPP的方法,涉及了像素級特征的連接、加入1×1的卷積層和三個不同比率下3×3的空洞卷積,還在每個并行卷積層之后加入了批量歸一化操作。

級聯(lián)模塊實際上是一個殘差網(wǎng)絡(luò)模塊,但其中的空洞卷積層是以不同比率構(gòu)建的。這個模塊與空洞卷積論文中提到的背景模塊相似,但直接應(yīng)用到中間特征圖譜中,而不是置信圖譜。置信圖譜是指其通道數(shù)與類別數(shù)相同的CNN網(wǎng)絡(luò)頂層特征圖譜。

該論文獨立評估了這兩個所提出的模型,嘗試結(jié)合將兩者結(jié)合起來并沒有提高實際性能。兩者在驗證集上的實際性能相近,帶有ASPP結(jié)構(gòu)的模型表現(xiàn)略好一些,且沒有加入CRF結(jié)構(gòu)。

這兩種模型的性能優(yōu)于DeepLabv2模型的最優(yōu)值,文章中還提到性能的提高是由于加入了批量歸一化層和使用了更優(yōu)的方法來編碼多尺度背景。

△ DeepLabv3 ASPP結(jié)構(gòu)

分值評論來源
85.7使用了ASPP結(jié)構(gòu),且不帶有級聯(lián)模塊排行榜

△ DeepLabv3 ASPP結(jié)構(gòu)在VOC2012上測試的基準分值

原文地址:

【完】

一則通知

量子位讀者5群開放申請,對人工智能感興趣的朋友,可以添加量子位小助手的微信qbitbot2,申請入群,一起研討人工智能。

另外,量子位大咖云集的自動駕駛技術(shù)群,僅接納研究自動駕駛相關(guān)領(lǐng)域的在校學(xué)生或一線工程師。申請方式:添加qbitbot2為好友,備注“自動駕駛”申請加入~

招聘

量子位正在招募編輯/記者等崗位,工作地點在北京中關(guān)村。相關(guān)細節(jié),請在公眾號對話界面,回復(fù):“招聘”。

1.《【abs141avi】語義分割的深度學(xué)習方法整體解決方案:從FCN、SegNet到各個版本的DeepLab》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識,僅代表作者本人觀點,與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。

2.《【abs141avi】語義分割的深度學(xué)習方法整體解決方案:從FCN、SegNet到各個版本的DeepLab》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進行證實,對其原創(chuàng)性、真實性、完整性、及時性不作任何保證。

3.文章轉(zhuǎn)載時請保留本站內(nèi)容來源地址,http://f99ss.com/auto/2975589.html