Lược đồ của Attention Gate

Một phần của tài liệu Phân đoạn ảnh võng mạc hỗ trợ chẩn đoán bệnh (Trang 48)

4 Thử nghiệm phương pháp đề xuất

3.5 Lược đồ của Attention Gate

Khi ta đem ứng dụng mơ hình vào làm việc thực tế trong mơi trường y tế, thì sẽ xảy ra vấn đề liên quan đến việc khác nhau về miền (domain) giữa dữ liệu mà mơ hình được huấn luyện và dữ liệu mà mơ hình làm việc (ví dụ như khác nhau về chất lượng ảnh, độ phân giải ảnh, ...), đến việc thiếu ảnh ground truth đã được phân đoạn. Mà những mơ hình mạng nơ-ron rất phụ thuộc vào dữ liệu huấn luyện, chúng sẽ giảm độ chính xác một cách rất lớn khi phải gặp những dữ liệu khác nhau về miền với dữ liệu đã được học. Vì vậy, chúng tơi sẽ tìm hiểu về domain adaptation (thích ứng miền) để hiện thực phương pháp giúp giải quyết vấn đề đã nêu trên. Domain adaptation là một mảng rất quan trọng và thú vị trong transfer learning.

3.2 Phương pháp sử dụng adversarial training cho mơ hìnhRAW-Net RAW-Net

Khi ứng dụng mơ vào thực tế, ta còn gặp phải khá nhiều vấn đề khác nhau, như ở đối với bài tốn phân đoạn ảnh võng mạc này thì bài tốn khi miền (domain) ở tập dữ liệu mà mơ hình làm việc khác với miền của dữ liệu mà mơ hình đã được học, trong khi đây là bài toán thuộc lĩnh vực y tế, nên những ảnh ground truth được phân loại từ chuyên gia rất khó kiếm được mà khi kiếm được thì tốn rất nhiều thời gian và chi phí, nên nhóm đề xuất ra phương pháp unsupervised domain adaptation để giải quyết vấn đề đã nêu trên.

Nhóm lấy ý tưởng từ mạng DANN[25], đề xuất ra 1 phương pháp unsupervised domain adaptation thuộc kiểu Adversarial-based domain adaptation, ý tưởng là áp dụng adversarial training để huấn luyện cho bộ phân đoạn và bộ phân lớp, cho cả 2 tập dữ liệu nguồn và đích, để đạt được domain-invariant feature giúp mơ hình được huấn luyện có thể làm việc tốt trên cả 2

Hình 3.6: Kiến trúc mơ hình

3.2.1 Kiến trúc:

Nhìn chung thì kiến trúc này có 2 phần cơ bản tương đương với 2 mạng nơ-ron lần lượt là: bộ phân đoạn (segmentor) và bộ phân lớp miền (domain classifier).

Bộ phân đoạn là mạng nơ-ron dùng để phân đoạn ảnh mạch máu, cụ thể ở đây ta sẽ chọn mạng RAW-Net để làm bộ phân đoạn. Sau khi ảnh đầu vào đi qua bộ phân đoạn thì ảnh đã được phân đoạn sẽ tiếp tục đi qua lớp Gradient revesal để đạo hàm ngược, sau đó sẽ đi vào bộ phân lớp.

Bộ phân lớp sẽ có trách nhiệm phân loại giữa ảnh đã được phân đoạn thuộc về tập dữ liệu nguồn hoặc tập dữ liệu đích, ở đây chọn bộ phân lớp là 1 mạng CNN.

3.2.2 Bộ phân đoạn

Bộ phân đoạn là mơ hình RAW-net đã được đề xuất, nên nó có kiến trúc như hình 3.1.

3.2.3 Bộ phân lớp miền

Hình 3.7: Kiến trúc mơ hình

3.2.4 Lớp Gradient Reversal

Lớp Gradient Reversal khơng có bất kỳ ảnh hưởng nào trong q trình forward của mạng, nó chỉ có ảnh hưởng vào q trình backward của bộ phân lớp, cụ thể là bộ phân lớp thực hiện q trình backward để tính đạo hàm, thì đạo hàm khi đi qua lớp này sẽ bị âm đi. Đây là điểm mấu chốt trong quá trình adversarial training.

3.3 Phương pháp đánh giá

Có rất nhiều cách đánh giá một mơ hình phân lớp. Tùy vào những bài tốn khác nhau mà ta sử dụng các phương pháp khác nhau.

Việc phân loại mạch máu võng mạc dựa trên các chỉ số :

- True positive(TP): là số pixel được phân loại chính xác là mạch máu

- True negative(TN): là số pixel được phân loại chính xác là khơng phải mạch máu - False positive(FP): là số pixel bị phân loại sai là mạch máu

- False negative(FN): là số pixel bị phân loại sai là không phải mạch máu

Trong báo cáo này, chúng tôi đã sàng lọc, lựa chọn các phương thức đánh giá mà chúng tơi cho là phù hợp nhất gồmAUC,F1 ScoreMCC.

AUC:Area Under the Curve

- Dựa trên ROC curve, ta có thể chỉ ra rằng một mơ hình có hiệu quả hay khơng (thơng qua hai chỉ số TPR và FPR). Mơ hình hiệu quả khi TPR cao và FPR thấp, tức tồn tại một các điểm nằm gần điểm (0,1). AUC chính là diện tích dưới ROC curve. Diện tích dưới ROC curve càng lớn tức AUC càng lớn thì mơ hình càng hiệu quả.

- Mơ hình chúng tơi ưu tiên phân loại đúng mạch máu hơn là việc bỏ sót mạch máu, tức chúng tơi ưu tiên TPR cao hơn là việc FPR thấp. Nên chúng tơi chọn AUC làm chỉ số đánh giá mơ hình của mình.

F1 Score:

- Là trung bình điều hịa của đại lượngpredictionrecall

- Cũng như lý do ở AUC, chúng tôi ưu tiên phân loại đúng mạch máu hơn là việc bỏ sót mạch máu, do đó cúng tơi ưu Positive class cao. Do đó, chúng tơi lựa chọn F1 Score làm chỉ số đánh giá mơ hình.

- Có cơng thức như sau:

2

F1 = 1

prediction+ 1

recall (3.3)

MCC:Matthews correlation coefficient

- Là chỉ số đo mối tương quan của positive class với nhãn được dự đoán.

- MCC phù hợp với các bài tốn có tập dự liệu mất cân bằng. Do đó, chỉ số này khá phù hợp với bài tốn của chúng tơi khi bộ dự liệu có tỉ lệ điểm ảnh là mạch máu và khơng phải mạch máu có chênh lệch khá đáng kể.

- Có cơng thức như sau:

MCC=p T P.T N−FP.FN

(T P+FP).(T P+FN).(T N+FP).(T N+FN) (3.4)

3.4 Tập dữ liệu

Hiện tại, số lượng tập dữ liệu ảnh võng mạc mắt được công khai khá nhiều. Bước đi rất trọng yếu cho việc phân đoạn mạch máu võng mạc mắt là huấn luyện và kiểm thử bộ phân lớp trên các tập dữ liệu này. Sau đây sẽ là giới thiệu tổng quan về 4 tập dữ liệu ảnh võng mạc mắt được sử dụng trong các bài báo và nghiên cứu của chúng tôi:

- STARE:(Structured Analysis of the Retina): Tập dữ liệu này bao gồm 20 ảnh võng mạc mắt, có độ phân giải là 700 x 605, được chụp bởi máy ảnh fundus TOPCON TRV-50, trường nhìn (FOV) là 35°. Các ảnh này đều được căn chỉnh tại trung tâm điểm vàng của mắt. STARE có 20 ảnh ground truth đã được phân đoạn mạch máu võng mạc, trong đó có 9 ảnh là có võng mạc khỏe mạnh, cịn 11 ảnh cịn lại thì cho thấy các biểu hiện của

các kiểu bệnh võng mạc khác nhau. 20 ảnh ground truth này được 2 chuyên gia nhãn khoa phân đoạn bằng tay, chuyên gia đầu tiên đã phân đoạn khoảng 10.4% điểm ảnh là mạch máu, còn chuyên gia thứ hai phân đoạn 14.9% điểm ảnh là mạch máu mỏng hơn. Thường thì kết quả của người quan sát thứ nhất được xem là ground truth cho bài toán. - DRIVE:(Digital Retinal Images for Vessel Extraction): DRIVE là một trong những tập

dữ liệu ảnh võng mạc mắt được sử dụng phổ biến nhất, bao gồm 40 ảnh với độ phân giải mỗi ảnh trong tập dữ liệu là 584 x 565. Trong đó 33 ảnh là ảnh của người có võng mạc khỏe mạnh, cịn lại 7 ảnh có dấu hiệu của bệnh võng mạc tiểu đường tình trạng nhẹ. Những ảnh trong tập dữ liệu này được chụp bởi máy ảnh non-mydriatic Canon CR5 với trường nhìn (FOV) là 45°. Tập dữ liệu DRIVE được chia làm tập huấn luyện và tập kiểm thử, mỗi tập 20 ảnh. Trong tập huấn luyện, 14 ảnh được phân đoạn bằng tay bởi chuyên gia nhãn khoa đầu tiên và 6 ảnh còn lại được phân đoạn bởi chuyên gia thứ 2. Còn trong tập kiểm thử, sự phân đoạn ảnh được thực hiện 2 lần trong 2 trường hợp. Trong trường hợp đầu tiên, chuyên gia thứ nhất và thứ hai đã phân đoạn ảnh bằng tay lần lượt 13 và 7 ảnh, còn trong trường hợp thứ hai thì được thực hiện bởi chuyên gia thứ ba. Trong trường hợp 1 và 2, các chuyên gia đã đánh dấu lần lượt 12.7 phần trăm và 12.3 phần trăm điểm ảnh là mạch máu.

- CHASE-DB1:(Child Health and Heart Studies in England): Tập dữ liệu CHASE-DB1 gồm 28 ảnh, những ảnh này được chụp từ mắt trái và phải từ 14 trẻ em có độ phân giải 999x960. Những ảnh trong tập dữ liệu này được chụp với máy chụp ảnh fundus NM– 200D với trường nhìn (FOV) là 35°. Những hình ảnh được chụp dưới sự chiếu sáng toàn diện và xung quanh trung tâm của đĩa quang. Những ảnh ground truth được phân đoạn bằng tay bởi 2 chun gia. Khơng có sự ghi chép mắc bệnh ở 28 bức ảnh này, tuy nhiên chúng vẫn có chất lượng và sự khác biệt tốt.

- HRF:Tập dữ liệu HRF chứa 45 ảnh có độ phân giải 3504x2336, độ phân giải này cao hơn khá nhiều so với các tập dữ liệu ảnh võng mạc mắt khác. Bộ ảnh gồm 15 ảnh của những người có sức khỏe bình thường, 15 ảnh của những bệnh nhân mắc bệnh tăng nhãn áp, 15 ảnh của những bệnh nhân mắc bệnh võng mạc tiểu đường. Đây là tập dữ liệu của những ảnh fundus có độ phân giải cao được tạo ra bởi Jan Odstrcilik để thực hiện việc phân tích tương ứng trên thuật toán phân đoạn tự động. Những ảnh này được chụp bởi máy ảnh fundus với trường nhìn là 45°. Tập dữ liệu có những ảnh ground truth được phân đoạn bằng tay bởi những chuyên gia nhãn khoa.

4.1 Mơ hình RAW-net 4.1.1 Thử nghiệm

4.1.1.1 Tập dữ liệu

Nhóm sử dụng 4 tập dữ liệu ảnh võng mạc mắt được sử dụng phổ biến trong bài toán phân đoạn mạch máu ảnh võng mạc mắt gồm DRIVE, STARE, CHASEDB, HRF. 4 tập dữ liệu này mỗi tập đều được chia thành ba phần gồm tập huấn luyện, tập validation và tập kiểm thử. Chi tiết thông tin về mỗi tập dữ liệu đã được mô tả rõ trong phần 3.4.

4.1.1.2 Phương thức đánh giá

Để đánh giá mơ hình kết quả như thế nào, nhóm chọn 3 chỉ số đánh giá được sử dụng phổ biến trong bài toán phân đoạn ảnh y khoa, gồm AUC, F1-score và MCC.

4.1.1.3 Chi tiết thực hiện

Phương thức đề xuất của nhóm được hiện thực bằng Pytorch, huấn luyện mơ hình với Adam Optimizer, tốc độ học (learning rate) được điều chỉnh theo Cosine Annealing Scheduler với tốc độ học lớn nhất là 0.01 và nhỏ nhất là10−8. Dữ liệu đầu vào với kích cỡ batch là 4. Khi huấn luyện thì dữ liệu sẽ được thay đổi kích cỡ (resize) về 512, cịn khi đánh giá thì sẽ đánh giá trên độ phân giải (resolution) tự nhiên của nó.

4.1.2 Đánh giá kết quả

Dataset Evaluation W-net RAW-net DRIVE AUC 0.9788 0.9810 F1 Score 0.8253 0.8284 MCC 0.7995 0.8030 STARE AUC 0.9805 0.9827 F1 Score 0.8194 0.8263 MCC 0.7984 0.8058 HRF AUC 0.9788 0.9794 F1 Score 0.7984 0.7984 MCC 0.7777 0.7777 CHASE-DB AUC 0.9821 0.9847 F1 Score 0.8069 0.8153 MCC 0.7867 0.7958

Bảng 4.1: Bảng so sánh kết quả thực thi mơ hình W-net và mơ hình RAW-net

Với kết quả thử nghiệm đã đạt được, nhóm em nhận thấy khi mơ hình RAW-net với sự thay thế của các residual-block đạt được hiệu quả tốt hơn so với mô hỉnh W-net cơ bản ban đầu, thêm vào đó là sự xuất hiện của Attention Gate và SAM đã làm cho thông tin về không gian được truyền từ encoder sang decoder một cách hiệu quả hơn.

Với cùng một kiến trúc mơ hình, khơng có sự thay đổi về mặt tham số và thời gian huấn luyện vẫn đạt được kết quả tốt. Điều này nhấn mạnh một vấn đề rằng với cách sự dụng kiến trúc hợp lý, một mơ hình vẫn có thể đạt được hiệu suất tốt hơn nhưng vẫn giữ được tính đơn giản của mơ hình ban đầu.

(a) Ground truth

(b) W-net (c) RAW-net

Sau đây là hình ảnh có minh họa thêm tất cả các thơng số có trong Confusion Matrix, gồm TP, TN, FP, FN lần lượt tương ứng với màu trắng, đen, đỏ, vàng.

(a) W-net

(b) RAW-net

4.2 Domain adaptation 4.2.1 Thử nghiệm

4.2.1.1 Tập dữ liệu

Phương pháp này được thử nghiệm trên 3 tập dữ liệu ảnh võng mạc mắt được sử dụng phổ biến và cũng thường nằm trong các đánh giá về phương pháp unsupervised domain adaptation của bài toán phân đoạn ảnh võng mạc. 3 tập dữ liệu gồm DRIVE, STARE, CHASEDB1. Sau đây là bảng tổng quan các thông tin của 3 tập dữ liệu trên cho thấy có xuất hiện domain shift giữa các tập dữ liệu, chúng khác nhau về FOV(field-of-view), về cách thức chụp ảnh, về độ phân giải và cường độ ánh sáng.

Dataset Số lượng ảnh Thông tin ảnh DRIVE(D) 40 ảnh 584x565 FOV45o STARE(S) 20 ảnh 700x605 FOV35o CHASE-DB1(C) 28 ảnh 999x960 FOV30o Bảng 4.2: Bảng tổng quan về 3 tập dữ liệu

Ta sẽ thử nghiệm sử dụng phương pháp được đề xuất lần lượt trên 3 tập dữ liệu này. Mỗi lần thực hiện thì 1 tập dữ liệu sẽ đóng vai trị là tập dữ liệu nguồn (source domain dataset) và tập cịn lại là tập dữ liệu đích (target domain dataset). Ví dụ như khi thử nghiệm S→D nghĩa là ta thực hiện phương pháp đề xuất với tập DRIVE là tập nguồn và tập STARE là tập đích.

4.2.1.2 Q trình thử nghiệm

Ngồi việc trình bày kết quả của thử nghiệm phương pháp đề xuất, ta sẽ trình bày thêm 2 kết quả của 2 mơ hình lần lượt là source-only và Oracle để đánh giá một cách chính xác. Mơ hình

source-only là mơ hình chỉ dùng W-net được huấn luyện trên tập nguồn, đánh giá nó trên tập đích, mơ hình này được xem là kết quả cận dưới. Mơ hình Oracle là mơ hình dùng W-net được huấn luyện trên chính tập đích, và đánh giá trên tập đích, đây được xem là kết quả cận trên. Mục tiêu tốt nhất của 1 phương pháp unsupervised domain adaptation chính là có kết quả bằng với kết quả của mơ hình Oracle.

4.2.1.3 Phương thức đánh giá

Đánh giá kết quả của phương pháp này dựa trên 3 thông số AUC, F1 score và MCC và đánh giá trên 3 tập dữ liệu DRIVE, STARE và CHASEDB1.

4.2.1.4 Chi tiết thực hiện

Tập dữ liệu đầu vào sẽ được chia làm 3 tập lần lượt là training set, validation set, test set. GọiXs vàYs lần lượt là ảnh võng mạc và ảnh ground truth (label) thuộc tập dữ liệu nguồn,

Xtlà ảnh võng mạc thuộc tập dữ liệu đích, tập dữ liệu đích khơng chứa ảnh ground truth. Gọi bộ phân đoạn là U(). ChoXs vàXt vào bộ phân đoạn, kết quả đầu ra là U(Xs)và U(Xt). Tính hàm mất mát của bộ phân đoạn bằnglossseg(Xs,Ys).

Ghép kết quả của bộ phân đoạn 2 tập dữ liệu nguồn và đích, với nhãn lớp lần lượt là 0 và 1. Vậy ta có đầu vào của lớp Gradient reversal và bộ phân lớp là {U(Xs), 0}, {U(Xt), 1}. Lớp Gradient reversal chỉ có ảnh hưởng q trình lan truyền ngược khi tính đạo hàm của hàm mất mát, cịn trong q trình forward thì nó khơng có ảnh hưởng. Bộ phân lớp C sẽ nhận vào {U(Xx), 0}, {U(Xt), 1}, hàm mất mát của bộ phân lớp làlossclass(U(Xs),(Xt)). Hàm mất mát của cả mơ

hình sẽ là:lossagg=lossseg+lossclass

Phương thức đề xuất của nhóm được hiện thực bằng Pytorch, huấn luyện mơ hình với Adam Optimizer, tốc độ học (learning rate) được điều chỉnh theo Cosine Annealing Scheduler với tốc độ học lớn nhất là 0.01 và nhỏ nhất là10−8. Dữ liệu đầu vào với kích cỡ batch là 4. Khi huấn luyện thì dữ liệu sẽ được thay đổi kích cỡ (resize) về 512, cịn khi đánh giá thì sẽ đánh giá trên độ phân giải (resolution) tự nhiên của nó.

domain shift khá nặng ở đây. Metric Phương pháp S→D C→D AUC Source-only 0.9675 0.9616 Our method 0.9770 0.9738 Oracle 0.9827 0.9847 F1-score Source-only 0.7689 0.7419 Our method 0.8083 0.7686 Oracle 0.8263 0.8153 MCC Source-only 0.7497 0.7131 Our method 0.7865 0.7425 Oracle 0.8058 0.7958 Bảng 4.3: Bảng so sánh kết quả các phương pháp

Từ hình 4.3, ta thấy mặc dù các mạch máu của phương pháp đề xuất khá mờ khi so với mục tiêu là Oracle, những nó đã cả thiện đã nhiều so với phương pháp Source-only, nhất là ở những đoạn mạch máu nhỏ thì phương pháp đã đề xuất đã có kết quả tốt hơn rõ so với phương pháp source-only.

(a) Oracle

(b) Source-only (c) Our method

Hình 4.3: Hình ảnh phân đoạn mạch máu được đánh giá trên tập CHASEDB

Một phần của tài liệu Phân đoạn ảnh võng mạc hỗ trợ chẩn đoán bệnh (Trang 48)

Tải bản đầy đủ (PDF)

(69 trang)