今日看點:深度解析計算機視覺的圖像分割技術

2023-05-30 10:25:22 來源:新機器視覺

人類對計算機視覺感興趣的最重要的問題是圖像分類 (Image Classification)、目標檢測(Object Detection) 和圖像分割 (Image Segmentation),同時它們的難度也是依次遞增。

今天我們來聊聊圖像分割(Image Segmentation)。

PART.01


(資料圖片)

什么是圖像分割?

顧名思義,圖像分割是將一個圖像分割成多個片段的過程。在這個過程中,圖像中的每個像素都與一個對象類型相關聯。

對于圖像分割任務而言,我們可以將其細分為語義分割、實例分割和全景分割三種類別。

1語義分割

將圖像中的所有像素劃分為有意義的對象類。這些類是“語義上可解釋的”,并對應于現實世界的類別。例如,你可以將與貓相關的所有像素分離出來,并將它們涂成綠色。這也被稱為dense預測,因為它預測了每個像素的含義。

2實例分割

標識圖像中每個對象的每個實例。它與語義分割的不同之處在于它不是對每個像素進行分類。如果一幅圖像中有三輛車,語義分割將所有的車分類為一個實例,而實例分割則識別每一輛車。

3全景分割

要求圖像中的每個像素點都必須被分配給一個語義標簽和一個實例id。其中,語義標簽指的是物體的類別,而實例id則對應同類物體的不同編號。

如上圖所示,輸入的是一張街拍場景的圖片。

語義分割任務只能區分不同的類別,無法區別相同的類別;

實例分割任務不僅可以區分不同的類別,也可以區分相同類別中的不同個數,如圖片中的行人和車輛 ,不同的人用不同的顏色進行顯示;

全景分割則是語義分割和實例分割的交集。

PART.02經典算法剖析01U-Net

可視化時,其架構看起來像字母U,因此名稱為U-Net。

UNet是一種基于卷積神經網絡的圖像分割算法,它于2015年由Olaf Ronneberger等人提出。與FCN等分割算法不同,UNet采用了一種新的網絡結構,能夠更好地處理物體邊緣和小的物體。

它的體系結構由兩部分組成,左邊部分是收縮路徑,右邊部分是擴展路徑。收縮路徑的目的是捕獲上下文,而擴展路徑的作用是幫助精確定位。

UNet算法采用了跳躍連接,能夠更好地保留圖像的信息,使得算法更適用于分割小物體和物體之間的邊界。該算法在實際應用中被廣泛使用,特別是在醫學圖像分割領域,如肝臟分割和胰腺分割等。

02FastFCN

(圖片來自網絡)

在這種結構中,聯合金字塔上采樣(JPU)模塊被用來代替擴展卷積,因為它們消耗大量的內存和時間。它的核心是一個全連接網絡,同時使用JPU進行上采樣。JPU將低分辨率特征圖提升為高分辨率特征圖。

03Mask-RCNN

Mask RCNN是一種深度學習圖像分割算法,它是RCNN系列算法的最新版本,在Faster RCNN和Mask RCNN的基礎上加入了全新的分割網絡。

在這種體系結構中,使用bounding box和語義分割對對象進行分類和定位,并將每個像素分類為一組類別。

PART.03圖像分割的場景應用

1醫學影像診斷

圖像分割算法可以針對人體各器官進行精細的分割,協助醫生完成一些醫學診斷的問題。該功能已經在一些醫院有所應用。

如圖,左邊第一張圖是大腦的MR原圖,右邊兩張是進行圖像分割后的圖片。

這張胸片,通過圖像分割后,我們可以很清晰的分辨出肺、鎖骨和心臟的位置。

02自動駕駛

圖像分割最著名的應用應該非自動駕駛莫屬了。

目標分割可以應用在自動駕駛場景中完成靜態障礙物和動態障礙物的精準分割,從而構建一個語義地圖傳遞給后面的規劃和控制模塊。

03自動扣圖

圖像分割可以把每個物體所在位置的像素給分別標注出來,那么這是不是跟我們的摳圖任務有類似呢。

比如把一張商品的圖片送進模型,通過圖像分割我們是不是可以分辨出哪些像素屬于背景,哪些像素屬于前景(商品)呢?

最后一個,我們生活中有遇到過的運用。不知道大家有沒有在某些購物APP上,使用過3D試穿功能呢。就是選擇好我們想是穿的衣物,通過手機攝像頭對準我們要試穿的身體部位,那么手機上就會呈現出我們穿上這一衣物的樣子。

這其實也是需要通過圖像分割來分割出我們身體上應該穿上衣服的部位的。

同時,還有一種虛擬化妝的任務,其實原理也跟虛擬試穿類似。

編輯:黃飛

標簽:

上一篇:當前速遞!編程中用到的字符編碼知識點
下一篇:最后一頁