Cấu trúc mô hình Unet [12]

8 Tổng kết

2.23 Cấu trúc mô hình Unet [12]

Bộ phiên mã

Bộ phiên mã hoàn toàn là một CNN bình thường, với các lớp tích chập và pooling xen kẽ nhau. Qua mỗi lớp, ta thu được ma trận đặc trưng có kích thước không gian ngày càng giảm, và độ sâu ngày càng tăng (channel tăng). Bộ phiên mã giúp chắt lọc các đặc trưng của ảnh để hỗ trợ cho việc phân loại từng điểm ảnh của ảnh ở bộ dịch mã.

Bộ dịch mã

Bộ dịch mã trong Unet là phần thực hiện quá trình khôi phục lại kích thước ban đầu sau khi qua bộ phiên mã, nó sẽ thực hiện phân loại cho từng điểm ảnh. Như ta đã biết, kết quả của quá trình phân mảng không chỉ là lớp của ảnh hay các tham số về bounding box, mà là các điểm ảnh được phân loại với kích thước đầy đủ như ảnh ban đầu. Nếu như chúng ta chỉ sử dụng các lớp convolution, pooling như encoder, chúng ta sẽ chỉ giữ được các thông tin về phân loại như ảnh chứa đối tượng gì, mà không có thông tin về việc chúng ở đâu. Bộ dịch mã giúp khôi phục lại những thông tin về vị trí để phân loại đến từng điểm ảnh. Mỗi bước dịch mã gồm 3 bước cơ bản:

• Phóng lớn (upscale) bản đồ đặc trưng trước đó, được thực hiện bằng phép tích chập chuyển vị từ ma trận đặc trưng ở bước trước đó, thu được một ma trận đặc trưng với kích thước không gian lớn hơn.

• Nối ma trận phóng lớn vừa nhận được với ma trận đối xứng tương ứng với nó ở bộ phiên mã để có được những thông tin về vị trí chính xác hơn.

• Nhân tích chập ma trận vừa nối ở bước trên để kết hợp hai ma trận vừa nối, nhằm giúp mô hình vừa nắm được các đặc trưng ảnh, vừa khởi tạo lại được vị trí của đặc trưng đó trên ma trận với kích thước ban đầu.

Hai quá trình phiên mã - dịch mã đối xứng nhau, tạo thành chữ U nên mô hình mạng này được gọi là Unet.

2.5.2 Biến thể Unet

Để tăng hiệu năng của mô hình, thông thường người ta sẽ thay đổi bộ phiên mã CNN bình thường với một số kiến trúc CNN khác để tận dụng những ưu điểm riêng. Những mô hình thường được dùng như VGG - VGG16, VGG19,...; ResNet - ResNet18, ResNet34, ResNet50, ResNet101,...

2.5.2.1 VGG16

VGG16 là một mạng tích chập CNN đã chiến thắng cuộc thi ILSVR(Imagenet) năm 2014. Hiện tại nó vẫn được cho là một mô hình xuất sắc. Điểm khác biệt của VGG16 là thay vì sử dụng thông số hyper-parameter lớn thì nó tập trung sử dụng những lớp tích

chập3×3với stride 1 và luôn luôn dùng lớp padding,maxpool 2×2vớistride 2.Mô hình tuân theo sự sắp xếp này của các lớp tích hợp và các lớp maxpool một cách nhất quán trong toàn bộ kiến trúc. Ở cuối kiến trúc có 2 lớp kết nối đầy đủ FCN và kết quả được đi qua hàm softmax. Số 16 trong VGG16 cho ta biết kiến trúc có 16 lớp.

Mô hình nhận diện vật thể Faster R-CNN [6]

Kết quả nhận diện của Mask R-CNN [10]