2.2.1 Giới thiệu
Trong ngành thị giác máy tính, việc phát hiện và phân đoạn đối tượng thu hút
sự chú ý trong hình ảnh được gọi là phát hiện vùng nổi bật (saliency detection). Hầu hết các mạng phát hiện vùng nổi bật có kiến trúc tương tự nhau và tập
trung vào việc tận dụng những đặc trưng cấp cao được rút trích từ các mạng xương sống (backbone network) như AlexNet, VGG, RestNet,.... Tuy nhiên các mạng xương sống này được xây dựng với nhiệm vụ chính là phân loại hình ảnh,
vì vậy những đặc trưng được trích xuất sẽ mang ngữ nghĩa nhiều hơn là các chi tiết cục bộ hoặc thông tin toàn cục quan trọng trong việc phát hiện vùng
nổi bật. Mạng U2Net với kiến trúc đơn giản nhưng đã giải quyết được vấn đề
này. Kiến trúc U?Net được giới thiệu bởi nhóm tác giả thuộc dai hoc Alberta, Canada qua bai báo "U?Net: Going Deeper with Nested U-Structure for Salient
Object Detection" [12]. Trang Github của bai báo nay đã nhận được hơn 2,400
sao trong ba ngày kể từ khi mở mã nguồn.
U? Net có kiến trúc đơn giản nhưng chặt chẽ nhờ hai lớp kiến trúc mạng hình chữ U lồng nhau. Kiến trúc ReSidual U-block (RSU) được đề xuất nhằm nắm bắt thông tin ngữ cảnh tốt hơn trên các hình ảnh tỷ lệ khác nhau. RSU sử dụng phép pooling giúp tăng chiều sâu kiến trúc mạng nhưng chi phí tăng khong đáng
kể.
2.2.2 Khối ReSidual U-block (RSU)
Kiến trúc của RSU-L(Cin, M, Cour) với L là số lớp encoder, Cin, Cout là số input và output channel, M là số channel bên trong khối RSU. Cấu trúc của khối RSU này gồm 3 phần như Hình 2.2 với cấu tạo và chức năng của từng phần
như sau:
e Một lớp Convolution để trích xuất đặc trưng cục bộ. Đầu vào là một ban
đồ đặc trưng (feature map) ô (H x W x Cin) và đầu ra là bản đồ đặc trưng
F(x) với kênh (channel) Cout.
e Một cấu trúc mã hóa-giải mã giống Unet với độ cao L để trích xuất và
mã hóa thông tin ngữ cảnh ở nhiều kích tỷ lệ (multi-scale) U(F1(z)). Khi
L càng lớn thì khối RSU càng sâu, có thể trích xuất được nhiều đặc trưng
11
l4 Conv+BN+ReLU
me Downisample+
| L] Conv+BN+ReLU
EI Upsample+
Conv+BN+ReLU
Hình 2.2: Cau tao của khối Khối ReSidual U-block (RSU)[12|.
cục bộ và toàn cục hơn. Điều chỉnh tham số L có thể trích xuất đặc trưng
multi-scale từ đặc trưng đầu vào với nhiều kích thước khác nhau.
e Một kết nối residual để kết hợp đặc trưng cục bộ và đặc trưng nhiều tỷ lệ
(multi-scale) bằng phép cộng: Ƒ1(z) + U(F(+))
Điểm khác biệt giữa RSU va residual block là RSU thay phép Convolution
thành một kiến trúc nhiều lớp giống Unet và thay đặc trưng gốc (original feature) thành đặc trưng cục bộ. Diều này cho phép RSU trích xuất đặc trưng nhiều tỷ
lệ từ mỗi khối residual.
12
2.2.3 Kiến trúc mạng U?Net
Mạng U?Net được thế kế với cấu trúc lồng hai phần mã hóa và giải (giống như hình chữ U) vào nhau như Hình 2.3. Chữ U lớn bên ngoài gồn 11 giai đoạn, trong đó mỗi giai đoạn là một khối ReSidual U-block (RSU). Cấu trúc này cho phép trích xuất đặc trưng nhiều tỷ lệ (multi-scale) trong các giai đoạn và đặc trưng nhiều cấp (multi-level) giữa các giai đoạn.
Downsample x Conv+BN+RELU
Conv+BN+RELU
dilation=2
Conv+BN+RELU
dilation=4
Conv+BN+RELU
dilation=8
i Upsample x2
i Conv+BN+RELU
ị " Downsample x1/2
ị Ậ Upsample x2
¡=> Conv+Sigmoid
¡ _ Upsample to input size
ị Œ Concatenation
ị a Addition
Hình 2.3: Kiến trúc mang U?Net(12].
13
Cu thé, mạng U?Net gồm 3 phan:
e Phan mã hóa gồm các giai đoạn En_1, En_ 2, En_ 3, En 4,En 5,
En_ 6, tương ứng với các khối RSU có chiều cao (L) lần lượt là 7,6,5,4,4,4. Riêng đối với giai đoạn En_5 và En_ 6 thì các toán pooling và upsampling
bên trong khối RSU sẽ được thay bằng phép dilated Conv. Việc thay đổi tham số chiều cao (L) ở mỗi khối RSU là để phù hợp với kích thước của
các bản đồ đặc trưng của các giai đoạn. Ở các giai đoạn đầu thì các bản đồ
đặc trưng sẽ có kích thước lớn, nên cần L lớn để nắm bắt được nhiều thông
tin hơn. Con ở giai đoạn En_ 5 và En_ 6 thì kích thước của các bản đồ đặc trưng sẽ rất nhỏ, nên không phải downpsample các bản đồ đặc trưng
nữa để tránh mất mát đặc trưng ngữ nghĩa của các bản đồ đặc trưng này.
e Phần giải mã gồm các giai đoạn De_5, De_4, De_ 3, De_ 2,De_ l1có
cau trúc tương tự như phần đối xứng ở giai đoạn mã hóa. Giai đoạn De_ 5 cũng được thay các phép toán pooling và upsampling bên trong khối RSU
thành phép dilated Conv tương tự En_ 5 và En_ 6. Ngoài ra, ở mỗi giai
đoạn giải mã còn có thêm phép concatenation các bản đồ đặc trưng từ giai
đoạn trước và từ phần mã hóa đối xứng để giữ lại được nhiều thông tin
hơn.
e Phần mô đun tổng hợp hình ảnh vùng nổi bậc. Phần này tạo ra sáu ảnh
vùng nổi bậc (See, ORS An từ các giai đoạn En_ 6,
De_5,De_ 4,De_ 3,De_ 2,De_ 1 bằng phép Conv với kernel_ size là 3x3 và một hàm sigmoid. Sau đó, sáu ảnh này sẽ được kết hợp lại bằng
phép concatenation và theo sau là một phép Conv với kernel_ size là 1x1
và một hàm sigmoid để tạo thành ảnh dự đoán vùng nổi bật cuối cùng
Sruse.
14