4 Thử nghiệm phương pháp đề xuất
4.1.2 Đánh giá kết quả
Dataset Evaluation W-net RAW-net DRIVE AUC 0.9788 0.9810 F1 Score 0.8253 0.8284 MCC 0.7995 0.8030 STARE AUC 0.9805 0.9827 F1 Score 0.8194 0.8263 MCC 0.7984 0.8058 HRF AUC 0.9788 0.9794 F1 Score 0.7984 0.7984 MCC 0.7777 0.7777 CHASE-DB AUC 0.9821 0.9847 F1 Score 0.8069 0.8153 MCC 0.7867 0.7958
Bảng 4.1: Bảng so sánh kết quả thực thi mơ hình W-net và mơ hình RAW-net
Với kết quả thử nghiệm đã đạt được, nhóm em nhận thấy khi mơ hình RAW-net với sự thay thế của các residual-block đạt được hiệu quả tốt hơn so với mô hỉnh W-net cơ bản ban đầu, thêm vào đó là sự xuất hiện của Attention Gate và SAM đã làm cho thông tin về không gian được truyền từ encoder sang decoder một cách hiệu quả hơn.
Với cùng một kiến trúc mơ hình, khơng có sự thay đổi về mặt tham số và thời gian huấn luyện vẫn đạt được kết quả tốt. Điều này nhấn mạnh một vấn đề rằng với cách sự dụng kiến trúc hợp lý, một mơ hình vẫn có thể đạt được hiệu suất tốt hơn nhưng vẫn giữ được tính đơn giản của mơ hình ban đầu.
(a) Ground truth
(b) W-net (c) RAW-net
Sau đây là hình ảnh có minh họa thêm tất cả các thơng số có trong Confusion Matrix, gồm TP, TN, FP, FN lần lượt tương ứng với màu trắng, đen, đỏ, vàng.
(a) W-net
(b) RAW-net
4.2 Domain adaptation 4.2.1 Thử nghiệm
4.2.1.1 Tập dữ liệu
Phương pháp này được thử nghiệm trên 3 tập dữ liệu ảnh võng mạc mắt được sử dụng phổ biến và cũng thường nằm trong các đánh giá về phương pháp unsupervised domain adaptation của bài toán phân đoạn ảnh võng mạc. 3 tập dữ liệu gồm DRIVE, STARE, CHASEDB1. Sau đây là bảng tổng quan các thông tin của 3 tập dữ liệu trên cho thấy có xuất hiện domain shift giữa các tập dữ liệu, chúng khác nhau về FOV(field-of-view), về cách thức chụp ảnh, về độ phân giải và cường độ ánh sáng.
Dataset Số lượng ảnh Thông tin ảnh DRIVE(D) 40 ảnh 584x565 FOV45o STARE(S) 20 ảnh 700x605 FOV35o CHASE-DB1(C) 28 ảnh 999x960 FOV30o Bảng 4.2: Bảng tổng quan về 3 tập dữ liệu
Ta sẽ thử nghiệm sử dụng phương pháp được đề xuất lần lượt trên 3 tập dữ liệu này. Mỗi lần thực hiện thì 1 tập dữ liệu sẽ đóng vai trị là tập dữ liệu nguồn (source domain dataset) và tập cịn lại là tập dữ liệu đích (target domain dataset). Ví dụ như khi thử nghiệm S→D nghĩa là ta thực hiện phương pháp đề xuất với tập DRIVE là tập nguồn và tập STARE là tập đích.
4.2.1.2 Q trình thử nghiệm
Ngồi việc trình bày kết quả của thử nghiệm phương pháp đề xuất, ta sẽ trình bày thêm 2 kết quả của 2 mơ hình lần lượt là source-only và Oracle để đánh giá một cách chính xác. Mơ hình
source-only là mơ hình chỉ dùng W-net được huấn luyện trên tập nguồn, đánh giá nó trên tập đích, mơ hình này được xem là kết quả cận dưới. Mơ hình Oracle là mơ hình dùng W-net được huấn luyện trên chính tập đích, và đánh giá trên tập đích, đây được xem là kết quả cận trên. Mục tiêu tốt nhất của 1 phương pháp unsupervised domain adaptation chính là có kết quả bằng với kết quả của mơ hình Oracle.
4.2.1.3 Phương thức đánh giá
Đánh giá kết quả của phương pháp này dựa trên 3 thông số AUC, F1 score và MCC và đánh giá trên 3 tập dữ liệu DRIVE, STARE và CHASEDB1.
4.2.1.4 Chi tiết thực hiện
Tập dữ liệu đầu vào sẽ được chia làm 3 tập lần lượt là training set, validation set, test set. GọiXs vàYs lần lượt là ảnh võng mạc và ảnh ground truth (label) thuộc tập dữ liệu nguồn,
Xtlà ảnh võng mạc thuộc tập dữ liệu đích, tập dữ liệu đích khơng chứa ảnh ground truth. Gọi bộ phân đoạn là U(). ChoXs vàXt vào bộ phân đoạn, kết quả đầu ra là U(Xs)và U(Xt). Tính hàm mất mát của bộ phân đoạn bằnglossseg(Xs,Ys).
Ghép kết quả của bộ phân đoạn 2 tập dữ liệu nguồn và đích, với nhãn lớp lần lượt là 0 và 1. Vậy ta có đầu vào của lớp Gradient reversal và bộ phân lớp là {U(Xs), 0}, {U(Xt), 1}. Lớp Gradient reversal chỉ có ảnh hưởng q trình lan truyền ngược khi tính đạo hàm của hàm mất mát, cịn trong q trình forward thì nó khơng có ảnh hưởng. Bộ phân lớp C sẽ nhận vào {U(Xx), 0}, {U(Xt), 1}, hàm mất mát của bộ phân lớp làlossclass(U(Xs),(Xt)). Hàm mất mát của cả mơ
hình sẽ là:lossagg=lossseg+lossclass
Phương thức đề xuất của nhóm được hiện thực bằng Pytorch, huấn luyện mơ hình với Adam Optimizer, tốc độ học (learning rate) được điều chỉnh theo Cosine Annealing Scheduler với tốc độ học lớn nhất là 0.01 và nhỏ nhất là10−8. Dữ liệu đầu vào với kích cỡ batch là 4. Khi huấn luyện thì dữ liệu sẽ được thay đổi kích cỡ (resize) về 512, cịn khi đánh giá thì sẽ đánh giá trên độ phân giải (resolution) tự nhiên của nó.
domain shift khá nặng ở đây. Metric Phương pháp S→D C→D AUC Source-only 0.9675 0.9616 Our method 0.9770 0.9738 Oracle 0.9827 0.9847 F1-score Source-only 0.7689 0.7419 Our method 0.8083 0.7686 Oracle 0.8263 0.8153 MCC Source-only 0.7497 0.7131 Our method 0.7865 0.7425 Oracle 0.8058 0.7958 Bảng 4.3: Bảng so sánh kết quả các phương pháp
Từ hình 4.3, ta thấy mặc dù các mạch máu của phương pháp đề xuất khá mờ khi so với mục tiêu là Oracle, những nó đã cả thiện đã nhiều so với phương pháp Source-only, nhất là ở những đoạn mạch máu nhỏ thì phương pháp đã đề xuất đã có kết quả tốt hơn rõ so với phương pháp source-only.
(a) Oracle
(b) Source-only (c) Our method
Hình 4.3: Hình ảnh phân đoạn mạch máu được đánh giá trên tập CHASEDB