4 Thử nghiệm phương pháp đề xuất
2.14 Kiến trúc của Unet
Kiến trúc của Unet gồm 2 thành phần chính là bộ mã hóa (encoder) ở bên trái và bộ giải mã (decoder) mơ hình. Phần mã hóa là kiến trúc thơng thường của mạng neural, bao gồm 2 lớp tích chập kích thước 3x3, theo sau mỗi lớp là hàm kích hoạt ReLU. Tại mỗi khối như thế, chúng ta gấp đôi số kênh của ảnh. Theo sau các khối convolution ở trên là phép max-pooling kích thước 2x2, tham số stride bằng 2, chúng có tác dụng giảm độ phân giải, đồng thời trích xuất ra các đặc trưng cần thiết của ảnh nhờ các lớp tích chập. Bộ giải mã gồm các phép up-sampling kích thước 2x2 để giảm một nửa số kênh của ảnh. Đầu ra được đi qua khối convolution như ở phần mã hóa. Bộ giải mã có vai trị khơi phục lại số chiều và kích cỡ của ảnh ban đầu. Trong q trình thực hiện của bộ giải mã cịn kết nối tới từng đầu ra ở các khối convolution tương ứng ở bộ mã hóa, từ đó giúp khơi phục lại những thơng tin khơng gian bị mất lúc trích xuất đặc trưng tại bộ mã hóa.
Unet đã xuất hiện nhiều biến thể của nó trong những năm gần đây, nhằm cải thiện các yếu điểm hiện có của nó như có hiện tượng overfitting và muốn cải thiện kết quả phân đoạn, kết quả phân đoạn của Unet vẫn chưa được tốt với những mạch máu có kích cỡ nhỏ khó phát hiện. Changlu Guo và đồng sự đã đề xuất mơ hình SA-Unet được xây dựng và phát triển dựa trên mơ hình Unet, SA-Unet sử dụng khối tích chập dropout có cấu trúc (structured dropout
convolutional giúp tăng cường khả năng trích xuất đặc trưng của mơ hình [19]. Xu hướng hiện giờ của các phương pháp có phần nào đó làm phức tạp mơ hình khá nhiều.
Nhưng mục tiêu mà phương pháp đề xuất của nhóm muốn đạt được là sử dụng một mơ hình nhẹ (light-weight) đạt được hiệu quả cao trong phân đoạn ảnh võng mạc, với kết quả có thể đạt tới hoặc vượt lên các phương pháp state-of-the-art hiện giờ. Qua đó, để có thể áp dụng thực tế vào các thiết bị nhúng hay di động cho bài tốn này. Vì vậy nhóm chọn mơ hình W-net do Adrian Galdran và cộng sự đề xuất để tiếp tục phát triển [20].
2.2.6 Mơ hình W-net
Như đã giới thiệu ở trên, kiến trúc của mơ hình W-net có được từ việc phát triển, cải tiến dựa trên mơ hình U-net cơ bản. Kiến trúc tổng thế bao gồm tổ hợp của hai kiến trúc U-net. Mỗi kiến trúc U-net bao gồm 2 đường: contractive path và expansive path như đã giới thiệu ở phần trên của báo cáo.
Chúng tơi kí hiệu mơ hình W-net làΦ. Gọi ảnh đầu vào là x, kết quả thu được sau khi đi qua kiến trúc U-net thứ nhất làφ1(x), nối với hình ảnh x ban đầu, được qua kiến trúc U-net thứ 2,
biểu diễn bởi công thức dưới đây:
Φ(x) =φ2(x,(φ1(x))) (2.1) Trong phần đầu tiên,φ1(x)tạo ra dự đoán ban đầu về mạch máu, dự đoán này được sử dùng choφ2(x)như là một loại attention map tập trung vào các khu vực trong hình ảnh, kiến trúc được mình họa trong hình 2.15.
Hiển nhiên, do sở hữu 2 kiến trúc con, nên số lượng tham số của kiến trúc W-net nhiều gấp đôi so với một kiến trúc U-net thông thường.