Phương pháp đề xuất

Một phần của tài liệu Nghiên cứu, phát triển một số kỹ thuật học sâu áp dụng cho phân vùng polyp trên ảnh nội soi đại tràng (Trang 58 - 108)

2.2.1. Kiến trúc mô hình học sâu đề xuất cho phân vùng polyp trên ảnh nội soi đại tràng

Từ những nghiên cứu, phân tích về bài toán phân vùng polyp trên ảnh nội soi đại tràng luận án đã đề xuất một mô hình học sâu phân vùng polyp trên ảnh nội soi đại tràng. Hình 2.1 là minh họa kiến trúc chung của mô hình đề xuất.

42

Hình 2.1. Tổng quan kiến trúc mô hình phân vùng polyp trên ảnh nội soi đại tràng

Kiến trúc mạng UNet được điều chỉnh với bộ mã hóa là các mạng pretrained-CNN khác nhau. EfficientNet B7 được lựa chọn làm kiến trúc của bộ mã hóa trong mô hình phân vùng polyp đề xuất vì kiến trúc này cho độ chính xác cao nhất. Kiến trúc mạng UNet điều chỉnh này được gọi là EfficientUnet. Tiếp theo mạng EfficientUnet được mở rộng bằng việc xếp chồng mô hình xác suất trường ngẫu nhiên có điều kiện được xấp xỉ bằng mạng nơ ron hồi qui (gọi là lớp CRF-RNN) [92] vào trên cùng của mạng. Mô hình thu được gọi là CRF- EfficientUNet. Bên cạnh đó, luận án đề xuất hàm mất mát bất đối xứng kết hợp

AsymCE dùng cho huấn luyện mô hình. Hàm AsymCE là sự kết hợp có trọng số

giữa hai thành phần là hàm mất mát cross-entropy và hàm mất mát bất đối xứng. Ngoài ra, luận án cũng đề xuất phương pháp học chuyển giao để huấn luyện mô

hình nhằm tăng độ chính xác của mô hình đề xuất CRF-EfficientUNet.

Mô hình đề xuất được huấn luyện theo qui trình như sau: Đầu tiên, huấn luyện mô hình EfficientUnet bằng phương pháp học chuyển giao, tức là sử dụng trọng số của mạng pretrained được huấn luyện trên bộ Imagenet là trọng số khởi tạo cho bộ mã hóa và huấn luyện lại toàn bộ các lớp mạng với bộ dữ liệu ảnh nội soi sử dụng các phương pháp tăng cường dữ liệu cơ bản. Kết thúc huấn luyện các tham số học được của mô hình EfficientUnet được lưu lại. Tiếp theo, các trọng số của mô hình EfficientUnet được chuyển giao cho mô hình CRF-EfficientUNet và được đóng băng. Cuối cùng mô hình CRF- EfficientUNet được huấn luyện để tinh chỉ lớp CRF-RNN, sử dụng bộ dữ liệu huấn luyện chính là bộ dữ liệu đã dùng để huấn luyện mạng EfficientUnet.

2.2.2. Mạng UNet điều chỉnh cho phân vùng polyp trên ảnh nội soi đại tràng.

Kiến trúc UNet được phát triển bởi Olaf Ronneberger và các cộng sự [59] dùng cho phân vùng đối tượng trên ảnh y sinh. Mạng UNet gồm hai nhánh đối xứng nhau. Nhánh thứ nhất, gọi là bộ mã hóa, được sử dụng để nắm bắt các thông tin về ngữ cảnh trên ảnh. Bộ mã hóa là một mạng CNN bao gồm các lớp tích chập (convolution layer) và lớp tổng hợp (pooling layer). Nhánh thứ hai, được gọi là bộ giải mã, được sử dụng để xác định vị trí chính xác bằng cách sử dụng các lớp tích chập chuyển vị (transpose convolution layer) hoặc các lớp giải tích chập (deconvolution layer). Ngoài ra, UNet có các kết nối giữa bộ mã hóa và bộ giải mã để chuyển các đặc trưng ở các mức cao hơn mà bộ mã hóa

44

học được (các đặc trưng này có thể bị mất trong quá trình giải mã của bộ giải mã) từ bộ mã hóa sang bộ giải mã.

Hình 2.2. Mạng UNet cho phân vùng polyp trên ảnh nội soi đại tràng Luận án đã sử dụng mạng UNet điều chỉnh cho phân vùng polyp trên ảnh nội soi đại tràng. Hình 2.2 là minh họa mạng UNet cho phân vùng polyp. UNet được điều chỉnh bằng cách sử dụng mạng CNN dựng sẵn (pre-trained CNN) làm bộ mã hóa. Luận án đã thực hiện cài đặt mạng UNet điều chỉnh với các bộ mã hóa khác nhau dùng cho phân vùng polyp trên ảnh nội soi đại tràng, bao gồm: họ các mạng EfficientNet [80] từ EfficientNet-B0 tới EfficientNet-B7, ResNet-50; ResNet-101 [25]; và MobileNetV2 [63]. Các kết quả thử nghiệm cho thấy UNet với bộ mã hóa EfficientNet-B7 cho độ chính xác cao nhất, do đó bộ mã hóa EfficientNet-B7 được lựa chọn.

- Bộ mã hóa (Encoder): Bộ mã hóa sử dụng trong mạng Unet cải tiến cho

phân vùng polyp đã đề xuất là một mạng pretrained-CNN phân loại ảnh nhưng bỏ đi những lớp kết nối đầy đủ (layer fully connected). Hình 2.3 là minh họa kiến trúc bộ mã hóa EfficientNet-B7 với 7 khối (Block1, Block 2, Block 3, Block 4, Block 5, Block 6, Block 7). Trong mỗi khối gồm các Modul1

(Deepwise Conv2D, BatchNormalixe, Activate), Modul2 (Deepwise Conv2D, BatchNormalixe, Activate, Padding, Deepwise Conv2D, BatchNormalixe,

Activate), Modul3 (Global Average Pooling, recalling, Conv2D, Conv2D) và lớp cộng (Add) giữa các modul.

Hình 2.3. Kiến trúc bộ mã hóa EfficientB7 [82]

- Bộ giải mã (decoder): Bộ giải mã của mạng Unet phân vùng polyp trên

ảnh nội soi đại tràng đã đề xuất có kiến trúc giống kiến trúc của Unet nguyên bản do Olaf Ronneberger và các cộng sự [59] đề xuất. Bộ giải mã hóa gồm 4 khối Upsample2D (UpConv2D, Concatenate, Conv2D, Activation, Conv2D, Activation) nối tiếp và lớp Conv 1x1 tiếp nối hàm kích hoạt Sigmoid ở trên cùng. Hình 2.4 là minh họa khối Upsample2D của bộ giải mã.

Hình 2.4. Khối Upsample2D của bộ giải mã

46

- Kết nối giữa bộ mã hóa và giải mã (Skip conncection): Mạng UNet

cải tiến cho phân vùng polyp áp dụng 4 kết nối tắt giữa các lớp của bộ mã hóa và bộ giải mã. Phép Concatenate ở các Upsample2D của bộ giải mã thể hiện điều này, trong đó đầu ra của lớp Up-Conv2D của bộ giải mã được kết hợp qua phép Concatenate với đầu ra của một lớp skip của bộ mã hóa. Tùy theo các kiến trúc của bộ mã hóa khác nhau mà các lớp skip được xác định khác nhau. Luận án đã sử dụng các lớp skip theo đề xuất của Pavel Iakubovskii trong [88]. Với bộ mã hóa là EfficientNet B7 thì các lớp skip bao gồm:

-Lớp activation trong Modul 2 của Block 6

-Lớp activation trong Modul 2 của Block 4

-Lớp activation trong Modul 2 của Block 3

-Lớp activation trong Modul 2 của Block 2

2.2.3. Tích hợp lớp CRF-RNN vào mạng UNet

Sử dụng mô hình xác suất trường ngẫu nhiên có điều kiện (Conditional Random Field) [39], gọi tắt là CRF, kết hợp với mô hình học sâu phân vùng ngữ nghĩa ảnh là cách tiếp cận phổ biến cho bài toán phân vùng các đối tượng trên ảnh. Ý tưởng chung của phương pháp này là mô hình phân vùng đóng vai trò công cụ trích rút các đặc trưng và tạo ra phân vùng đối tượng thô ban đầu, sau đó CRF sẽ được sử dụng để tinh chỉnh lại kết quả. Đầu vào của CRF bao gồm xác suất phân vùng do mạng học sâu tạo ra và ảnh đầu vào ban đầu. Không giống như các lớp tích chập thực thi các bộ lọc cục bộ, với CRF kết nối đầy đủ (fully connected Conditional Random Field) thì mọi cặp pixel có trong ảnh được xem xét, do đó trường tiếp nhận của CRF kết nối đầy đủ là toàn bộ hình ảnh. Trong mô hình CRF, mỗi cặp pixel được định nghĩa bằng khoảng cách không gian và khoảng cách màu giữa các pixel. Điều này làm cho các phân vùng do CRF tạo ra sắc nét hơn nhiều so với các phân vùng được tạo ra bởi mô hình phân vùng ban đầu. Tuy nhiên, thông thường khi sử dụng CRF để cải thiện chất lượng của mô hình phân vùng, CRF phải được thực hiện riêng sau khi mô hình phân vùng đã được huấn luyện. Khắc phục điều này, trong [92] các tác giả đã đề xuất xấp xỉ mô hình CRF bằng mạng nơ- ron hồi qui, để có thể tích hợp với mạng phân vùng và huấn luyện toàn bộ mạng từ đầu đến cuối (end to end) để thu được kết quả tốt hơn.

Trong mô hình phân vùng ảnh CRF giải quyết bài toán tối ưu cực tiểu hóa hàm năng lượng sau [62]:

( ) = ∑

=1

Trong đó Φ ( ) là hàm mất mát khi nhãn u được gán cho pixel i, N là số

pixel trong ảnh, Ψ( , ) là hàm mất mát khi nhãn u, v được gán cho cặp pixel

i, j và được tính toán như sau:

( , ) = ( , ) ∑

Trong đó ( , ) chỉ sự tương thích giữa các nhãn u và v; , là các vec-tơ đặc trưng của pixel i, j; K=2 là số các nhân Gaussian (Gaussian kernel); ( )

là Gaussian kernel; ( )là trọng số của Gaussian kernel ( ).

(1) = (−

(2) = (−

Trong đó , biểu thị cường độ sáng (intensity) của các pixel i, j; , biểu thị tọa độ không gian của các pixel i, j; , ,

là tham số của Gaussian kernel.

CRF dự đoán xác suất gán nhãn u cho pixel i, ký hiệu là , bằng cách cực tiểu hóa hàm năng lượng E(Y) ở biểu thức (2.1), { } có thể tính toán sử dụng thuật toán lặp Mean-field [92] xấp xỉ CRF dưới dạng mạng nơ-ron hồi qui, ký hiệu là CRF-RNN. Nhờ đó mạng CNN và CRF có thể tích hợp thành một mạng học sâu và có thể được huấn luyện sử dụng thuật toán lan truyền ngược.

Luận án đã đề xuất tích hợp mạng UNet và CRF-RNN thành một mô hình học sâu để phân vùng polyp trên ảnh nội soi đại tràng. Toàn bộ mô hình tích hợp có thể được huấn luyện từ đầu đến cuối (end to end) bằng thuật toán lan truyền ngược. Hình 2.5 trình bày cấu trúc của CRF-RNN tích hợp vào mạng Unet cho phân vùng polyp được đề xuất.

Hình 2.5. Cấu trúc lớp CRF-RNN tích hợp trong mô hình phân vùng polyp

48

Trong Hình 2.5, G1, G2 là hai hàm đảo chiều (gating function) được định nghĩa như sau:

= { ( ) = 0

= ( ) 0 < ≤

= { 0 0 < <

= ( ) =

Trong đó = { }, là xác suất gán nhãn u cho pixel i; , là đầu vào, đầu ra của một vòng lặp Mean-field; là các kết quả dự đoán cuối cùng của CRF-RNN, P là đầu ra của mạng UNet, là đầu ra của hàm softmax với đầu vào là P, t biểu diễn vòng lặp thứ t và T là tổng số vòng lặp.

Vòng lặp Mean-field [92] được coi như một xếp các lớp của mạng CNN, bao gồm các bước sau: Message Passing, Re-Weighting; Compatibility transform; Adding Unary Potentials; và Normalization.

Trong mô hình phân vùng polyp tích hợp UNet và CRF-RNN được đề xuất, Φ ( ) trong công thức (2.1) là đầu ra của mạng UNet; Ψ( , ) được tính toán dựa trên các vec-tơ đặc trưng của các pixel i, j; Giá trị các vec-tơ đặc trưng này được trích rút từ các thông tin ảnh như vị trí không gian và các giá trị R, G, B; Tham số của Gausian kernel được đặt theo đề xuất trong [92] là = 160, = 3, = 3; và w được học trong bước huấn luyện.

2.2.4. Hàm mất mát bất đối xứng kết hợp AsymCE

Để huấn luyện mô hình học sâu đã đề xuất dùng cho phân vùng polyp trên ảnh nội soi đại tràng, luận án đề xuất một hàm mất mát mới, gọi là hàm bất đối xứng kết hợp, ký hiệu là AsymCE. Hàm này là sự kết hợp có trọng số của hai hàm mất mát thường được dùng cho huấn luyện các mô hình phân vùng đối tượng trên ảnh là: hàm mất mát cross-entropy nhị phân mức pixel [59] (pixel-wise binary cross-entropy loss) và hàm mất mát bất đối xứng (asymmetric similarity loss) [24].

Hàm mất mát cross-entropy mức pixel được Ronneberger và các cộng sự

[59] đề xuất cho huấn luyện mạng UNet cho phân vùng đối tượng trên ảnh y tế. Hàm mất mát này chỉ tính toán mất mát trên từng pixel riêng lẻ bằng cách

so sánh phân lớp dự đoán lớp của pixel được xác định bởi vec-tơ dự đoán với vec-tơ nhãn đúng thực sự được gán cho pixel đó. Hàm mất mát cross-entropy được định nghĩa như sau:

ℒ = − ∑ , , ∗ log( , )

Trong đó , và , là xác suất phân lớp dự đoán và nhãn phân lớp đúng của pixel có tọa độ (i, j). Hàm mất mát cross-entropy đánh giá mất mát như nhau trên mỗi pixel đơn lẻ, trong khi đó các ứng dụng phân tích ảnh y tế, ví dụ như phân vùng polyp, các pixel thuộc lớp dương tính (possitive), tức là các pixel là polyp, có số lượng ít hơn rất nhiều so với các pixel thuộc lớp âm tính (negative), tức là các pixel không phải polyp. Do đó, các mô hình phân vùng đối tượng trên ảnh được huấn luyện bằng hàm mất mát cross-entropy thường dự đoán bị lệch (biased) về lớp negative (tức là lớp không phải là polyp) hơn là về lớp possitive (tức là lớp là polyp). Điều này dẫn đến vùng phân vùng đối tượng bị thiếu hoặc chỉ được phát hiện một phần, nên không dễ để mô hình có thể nhận dạng được đối tượng.

Hàm mất mát dice (dice loss) được đề xuất trong [46]để cải thiện độ chính xác của mạng UNet và một số mạng phân vùng đối tượng khác. Hệ số điểm Dice (Dice score coefficient), viết tắt là DSC, là một chỉ số thể hiện sự giao nhau giữa phân vùng đối tượng dự đoán và phân vùng đối tượng đúng thực sự. DSC được sử dụng rộng rãi để đánh giá kết quả phân vùng trong cộng đồng nghiên cứu về phân tích ảnh y tế. DSC giữa tập các pixel dự đoán thuộc lớp possitive (ký hiệu là P) và tập các pixel đúng thực sự thuộc lớp possitive (ký

hiệu là G) được định nghĩa như sau:

( , ) =

Dựa theo phân loại pixel, có thể viết lại công thức tính điểm số Dice như sau:

( , ) =

Trong đó TP (True Possitive) là dương tính đúng, tức là số pixel polyp được phân loại đúng, FP (False Possitive) là dương tính sai, tức là số pixel polyp bị phân loại nhầm thành không phải polyp và FN (False Nagative) là âm tính sai, tức là số pixel không phải là polyp bị phân loại nhầm thành polyp. Từ công thức (2.6) có thể thấy là: Khi mô hình được huấn luyện bằng hàm mất mát

50

Dice trên dữ liệu không cân bằng tức (số pixel dương tính (số pixel là polyp) sẽ ít hơn rất nhiều so với số pixel là âm tính (pixel không phải là polyp)) thì mô hình có thể tạo ra các dự đoán bị lệch về phía lớp âm tính (tức là lớp không phải là polyp). Đó là điều thực sự không mong muốn trong các ứng dụng hỗ trợ chẩn đoán bởi vì việc chẩn đoán âm tính sai (tức là bỏ sót các polyp) sẽ dẫn đến hậu quả nghiêm trọng hơn rất nhiều so với việc chẩn đoán dương tính sai (tức là chẩn đoán có polyp bị sai).

Hơn nữa, độ chính xác (Precision) và độ bao phủ (Recall) là các độ đo thường được sử dụng để đánh giá các mô hình học máy, chúng được định nghĩa như sau:

( , ) =

( , ) =

Kết hợp các công thức (2.9), (2.10) và (2.11) chúng ta có:

=2 ×

Công thức (2.12) cho thấy điểm số Dice là trung bình điều hòa của hai độ đo Precision và recall. Do đó, khi mô hình được huấn luyện sử dụng hàm mất mát Dice bằng dữ liệu huấn luyện là không cân bằng thì mô hình có thể tạo ra các dự đoán với độ chính xác precision cao và độ bao phủ recall thấp.

Để điều chỉnh trọng số của FP và FN (do đó thực hiện được cân bằng Precision, Recall) hàm mất mát bất đối xứng được đề xuất trong [24] cho huấn luyện các mô hình phân vùng đối tượng trên ảnh với dữ liệu huấn luyện không cân bằng và việc phát hiện các pixel thuộc lớp thiểu số là quan trọng hơn. Hàm mất mát bất đối xứng được đề xuất dựa trên điểm số và được sử dụng để thay thế hàm mất mát Dice. Điểm số được định nghĩa như sau:

Bằng cách điều chỉnh siêu tham số chúng ta có thể điều khiển sự cân bằng giữa precision và recall. Biểu thức (2.13) có thể viết lại như sau:

(1+ 2)| |

( , , ) =(1+ 2)| |+ 2| \ P|+| \ G|

(2.15)

Trong đó |P\G| là phần bù của P trên G và |G\P| là phần bù của G trên P. Như vậy có thể tính toán theo công thức sau:

51

=(1+ 2) ∑

,

Điểm số với siêu tham số là tổng quát hóa của điểm số Dice, khi β =1 thì điểm số chính là điểm số Dice, khi β = 0 thì chuyển thành Precision. Khi có giá trị lớn thì trọng số của recall cao hơn trọng số của precision (theo công thức 2.13) trong và các dự đoán âm tính sai (FN) sẽ bị phạt nhiều hơn dự đoán dương tính sai (FP) (theo công thức 2.14). Như vậy khi siêu tham số được điều chỉnh phù hợp, hàm mất mát bất đối xứng khi được sử dụng cho huấn luyện các mô hình phân vùng đối tượng có thể giải quyết được vấn đề dữ liệu không cân bằng và kiểm soát được sự cân bằng giữa Precision và Recall.

Khi chỉ sử dụng hàm mất mát bất đối xứng thì chỉ phạt được các dự đoán âm tính sai mà không thể phạt tất cả các trường hợp dự đoán sai, do đó

Một phần của tài liệu Nghiên cứu, phát triển một số kỹ thuật học sâu áp dụng cho phân vùng polyp trên ảnh nội soi đại tràng (Trang 58 - 108)

Tải bản đầy đủ (DOCX)

(154 trang)
w