Kiến trúc mạng UˆNct

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học máy tính: Chuyển đổi phong cách ảnh theo chủ thể và nền (Trang 29 - 33)

2.2.1 Giới thiệu

Trong ngành thị giác máy tính, việc phát hiện và phân đoạn đối tượng thu hút

sự chú ý trong hình ảnh được gọi là phát hiện vùng nổi bật (saliency detection). Hầu hết các mạng phát hiện vùng nổi bật có kiến trúc tương tự nhau và tập

trung vào việc tận dụng những đặc trưng cấp cao được rút trích từ các mạng xương sống (backbone network) như AlexNet, VGG, RestNet,.... Tuy nhiên các mạng xương sống này được xây dựng với nhiệm vụ chính là phân loại hình ảnh,

vì vậy những đặc trưng được trích xuất sẽ mang ngữ nghĩa nhiều hơn là các chi tiết cục bộ hoặc thông tin toàn cục quan trọng trong việc phát hiện vùng

nổi bật. Mạng U2Net với kiến trúc đơn giản nhưng đã giải quyết được vấn đề

này. Kiến trúc U?Net được giới thiệu bởi nhóm tác giả thuộc dai hoc Alberta, Canada qua bai báo "U?Net: Going Deeper with Nested U-Structure for Salient

Object Detection" [12]. Trang Github của bai báo nay đã nhận được hơn 2,400

sao trong ba ngày kể từ khi mở mã nguồn.

U? Net có kiến trúc đơn giản nhưng chặt chẽ nhờ hai lớp kiến trúc mạng hình chữ U lồng nhau. Kiến trúc ReSidual U-block (RSU) được đề xuất nhằm nắm bắt thông tin ngữ cảnh tốt hơn trên các hình ảnh tỷ lệ khác nhau. RSU sử dụng phép pooling giúp tăng chiều sâu kiến trúc mạng nhưng chi phí tăng khong đáng

kể.

2.2.2 Khối ReSidual U-block (RSU)

Kiến trúc của RSU-L(Cin, M, Cour) với L là số lớp encoder, Cin, Cout là số input và output channel, M là số channel bên trong khối RSU. Cấu trúc của khối RSU này gồm 3 phần như Hình 2.2 với cấu tạo và chức năng của từng phần

như sau:

e Một lớp Convolution để trích xuất đặc trưng cục bộ. Đầu vào là một ban

đồ đặc trưng (feature map) ô (H x W x Cin) và đầu ra là bản đồ đặc trưng

F(x) với kênh (channel) Cout.

e Một cấu trúc mã hóa-giải mã giống Unet với độ cao L để trích xuất và

mã hóa thông tin ngữ cảnh ở nhiều kích tỷ lệ (multi-scale) U(F1(z)). Khi

L càng lớn thì khối RSU càng sâu, có thể trích xuất được nhiều đặc trưng

11

l4 Conv+BN+ReLU

me Downisample+

| L] Conv+BN+ReLU

EI Upsample+

Conv+BN+ReLU

Hình 2.2: Cau tao của khối Khối ReSidual U-block (RSU)[12|.

cục bộ và toàn cục hơn. Điều chỉnh tham số L có thể trích xuất đặc trưng

multi-scale từ đặc trưng đầu vào với nhiều kích thước khác nhau.

e Một kết nối residual để kết hợp đặc trưng cục bộ và đặc trưng nhiều tỷ lệ

(multi-scale) bằng phép cộng: Ƒ1(z) + U(F(+))

Điểm khác biệt giữa RSU va residual block là RSU thay phép Convolution

thành một kiến trúc nhiều lớp giống Unet và thay đặc trưng gốc (original feature) thành đặc trưng cục bộ. Diều này cho phép RSU trích xuất đặc trưng nhiều tỷ

lệ từ mỗi khối residual.

12

2.2.3 Kiến trúc mạng U?Net

Mạng U?Net được thế kế với cấu trúc lồng hai phần mã hóa và giải (giống như hình chữ U) vào nhau như Hình 2.3. Chữ U lớn bên ngoài gồn 11 giai đoạn, trong đó mỗi giai đoạn là một khối ReSidual U-block (RSU). Cấu trúc này cho phép trích xuất đặc trưng nhiều tỷ lệ (multi-scale) trong các giai đoạn và đặc trưng nhiều cấp (multi-level) giữa các giai đoạn.

Downsample x Conv+BN+RELU

Conv+BN+RELU

dilation=2

Conv+BN+RELU

dilation=4

Conv+BN+RELU

dilation=8

i Upsample x2

i Conv+BN+RELU

ị " Downsample x1/2

ị Ậ Upsample x2

¡=> Conv+Sigmoid

¡ _ Upsample to input size

ị Œ Concatenation

ị a Addition

Hình 2.3: Kiến trúc mang U?Net(12].

13

Cu thé, mạng U?Net gồm 3 phan:

e Phan mã hóa gồm các giai đoạn En_1, En_ 2, En_ 3, En 4,En 5,

En_ 6, tương ứng với các khối RSU có chiều cao (L) lần lượt là 7,6,5,4,4,4. Riêng đối với giai đoạn En_5 và En_ 6 thì các toán pooling và upsampling

bên trong khối RSU sẽ được thay bằng phép dilated Conv. Việc thay đổi tham số chiều cao (L) ở mỗi khối RSU là để phù hợp với kích thước của

các bản đồ đặc trưng của các giai đoạn. Ở các giai đoạn đầu thì các bản đồ

đặc trưng sẽ có kích thước lớn, nên cần L lớn để nắm bắt được nhiều thông

tin hơn. Con ở giai đoạn En_ 5 và En_ 6 thì kích thước của các bản đồ đặc trưng sẽ rất nhỏ, nên không phải downpsample các bản đồ đặc trưng

nữa để tránh mất mát đặc trưng ngữ nghĩa của các bản đồ đặc trưng này.

e Phần giải mã gồm các giai đoạn De_5, De_4, De_ 3, De_ 2,De_ l1có

cau trúc tương tự như phần đối xứng ở giai đoạn mã hóa. Giai đoạn De_ 5 cũng được thay các phép toán pooling và upsampling bên trong khối RSU

thành phép dilated Conv tương tự En_ 5 và En_ 6. Ngoài ra, ở mỗi giai

đoạn giải mã còn có thêm phép concatenation các bản đồ đặc trưng từ giai

đoạn trước và từ phần mã hóa đối xứng để giữ lại được nhiều thông tin

hơn.

e Phần mô đun tổng hợp hình ảnh vùng nổi bậc. Phần này tạo ra sáu ảnh

vùng nổi bậc (See, ORS An từ các giai đoạn En_ 6,

De_5,De_ 4,De_ 3,De_ 2,De_ 1 bằng phép Conv với kernel_ size là 3x3 và một hàm sigmoid. Sau đó, sáu ảnh này sẽ được kết hợp lại bằng

phép concatenation và theo sau là một phép Conv với kernel_ size là 1x1

và một hàm sigmoid để tạo thành ảnh dự đoán vùng nổi bật cuối cùng

Sruse.

14

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học máy tính: Chuyển đổi phong cách ảnh theo chủ thể và nền (Trang 29 - 33)

Tải bản đầy đủ (PDF)

(74 trang)