Kết luận Chương 1

Chương 1 của luận án đã trình bày tổng quan về các vấn đề nghiên cứu trong luận án, bao gồm: Tổng quan bài toán phân tích ảnh nội soi đại tràng, tình hình nghiên cứu bài toán trong và ngoài nước và các kiến thức cơ sở có liên quan để giải quyết bài toán.

Nội soi đại tràng là một trong những thủ thuật hiệu quả để phát hiện và sàng lọc ung thư đại tràng, tuy nhiên tỉ lệ sai sót trong lâm sàng còn cao do thủ thuật này còn phụ thuộc rất nhiều vào các bác sỹ nội soi, điều này mở ra hướng phát triển tiềm năng cho các ứng dụng trí tuệ nhân tạo sử dụng các kỹ thuật thị giác máy tính tiến tự động phân tích ảnh nội soi đại tràng hỗ trợ các bác sỹ trong chuẩn đoán nội soi, sàng lọc và phát hiện sớm ung thư đại tràng. Tuy nhiên, khi nghiên cứu phát triển các kỹ thuật thị giác máy tính tự động phân tích ảnh nội soi đại tràng có một số các khó khăn, đòi hỏi có những nghiên cứu chuyên sâu để tìm ra các hướng giải quyết bài toán khác nhau. Hiện nay các phương pháp học sâu được sử dụng rộng rãi do khả năng tự động trích rút các đặc trưng ảnh với độ chính xác cao. Ngoài ra, các bộ dữ liệu ảnh soi đại tràng chuẩn để dùng cho các mô hình học máy được công bố rộng rãi đã tạo điều kiện

cho mô hình học sâu phân tích ảnh nội soi đại tràng phát triển hơn. Chương 1 của luận án, đã tiến hành khảo sát một số bộ dữ liệu ảnh nội soi chuẩn được công bố công khai và sử dụng rộng rãi hiện nay, từ đó lựa chọn các bộ dữ liệu phù hợp cho các nghiên cứu. Chương 1 của luận án đồng thời, cũng đã khảo sát, phân tích tình hình nghiên cứu trong và ngoài nước cho bài toán phân tích ảnh nội soi đại tràng qua đó đã đưa ra các vấn đề còn tồn tại cần giải quyết đối với bài toán và xác định nội dung chính mà luận án sẽ tập trung giải quyết. Luận án này sẽ tập trung vào bài toán phân vùng polyp trên ảnh nọi soi đại tràng, là một trong những bài toán quan trọng nhất trong phân tích ảnh nội soi đại tràng nói chung. Phần cuối cùng của Chương 1 là các kiến thức lý thuyết cơ sở có liên quan tới nội dung nghiên cứu của luận án bao gồm: tổng quan các kỹ thuật học sâu, các khái niệm về phương pháp học bán giám sát, không giám sát, học chuyển giao, mạng học sâu phân vùng đối tượng trên ảnh, các độ đo đánh giá phương pháp phân vùng, các phép tăng cường dữ liệu cơ bản cho hệ thống học sâu, tổng quan về mạng sinh dữ liệu có điều kiện và phương pháp học tự giám sát các đặc trưng thị giác của ảnh.

CHƯƠNG 2

MÔ HÌNH PHÂN VÙNG POLYP ĐẠI TRÀNG DỰA TRÊN MẠNG UNET CẢI TIẾN VÀ HÀM MẤT MÁT BẤT ĐỐI XỨNG KẾT HỢP

2.1. Đặt vấn đề

Phân vùng các polyp trên ảnh nội soi đại tràng là một tác vụ phân vùng ngữ nghĩa ảnh, trong đó các pixel trên ảnh sẽ được phân lớp nhị phân, thành các pixel thuộc lớp polyp hoặc các pixel thuộc lớp không phải là polyp. Phân vùng các polyp một cách chính xác là một tác vụ phức tạp vì các polyp có hình dạng, kích thước, màu sắc và kết cấu rất đa dạng. Thêm vào đó, các khó khăn như ảnh bị mờ, ảnh bị chói và chất lượng hình ảnh thấp là những nguyên nhân gây nên lỗi khi phân vùng polyp. Trong những năm qua, các nhà nghiên cứu đã nỗ lực phát triển nhiều phương pháp phân vùng polyp tự động cho hệ thống CADx. Tuy nhiên, hạn chế chính của các công trình nghiên cứu đến hiện tại là hầu hết các công trình hiện tại đề xuất các thuật toán được huấn luyện và thử nghiệm trên các tập dữ liệu nhỏ, đơn lẻ, và được lựa chọn kỹ. Khi kiểm thử các mô hình với bộ dữ liệu kiểm thử độc lập với bộ dữ liệu huấn luyện cho kết quả thấp. Trong khi đó, thực tế các hệ thống nội soi ở các bệnh viện khác nhau cho hình ảnh nội soi rất khác nhau về độ sáng, độ tương phản, chất lượng hình ảnh. Ngoài ra trên thực tế nội soi có rất nhiều trường hợp polyp với hình dạng đa dạng khác nhau ở các cơ sở y tế.

Hướng tới giải quyết những vấn đề còn tồn tại và những khó khăn thách thức của bài toán phân vùng polyp trên ảnh nội soi đại tràng, Chương 2 của luận án hướng tới phát triển một thuật toán có thể đạt được độ chính xác cao trên các bộ dữ liệu kiểm thử khác bộ dữ liệu huấn luyện, từ đó có thể làm nền tảng cho các ứng dụng có thể triển khai trên thực tế với các dữ liệu rất đa dạng.

2.2. Phương pháp đề xuất

2.2.1. Kiến trúc mô hình học sâu đề xuất cho phân vùng polyp trên ảnh nội soi đại tràng

Từ những nghiên cứu, phân tích về bài toán phân vùng polyp trên ảnh nội soi đại tràng luận án đã đề xuất một mô hình học sâu phân vùng polyp trên ảnh nội soi đại tràng. Hình 2.1 là minh họa kiến trúc chung của mô hình đề xuất.

Kiến trúc mạng UNet được điều chỉnh với bộ mã hóa là các mạng pretrained-CNN khác nhau. EfficientNet B7 được lựa chọn làm kiến trúc của bộ mã hóa trong mô hình phân vùng polyp đề xuất vì kiến trúc này cho độ chính xác cao nhất. Kiến trúc mạng UNet điều chỉnh này được gọi là EfficientUnet. Tiếp theo mạng EfficientUnet được mở rộng bằng việc xếp chồng mô hình xác suất trường ngẫu nhiên có điều kiện được xấp xỉ bằng mạng nơ ron hồi qui (gọi là lớp CRF-RNN) [92] vào trên cùng của mạng. Mô hình thu được gọi là CRF- EfficientUNet. Bên cạnh đó, luận án đề xuất hàm mất mát bất đối xứng kết hợp

AsymCE dùng cho huấn luyện mô hình. Hàm AsymCE là sự kết hợp có trọng số giữa hai thành phần là hàm mất mát cross-entropy và hàm mất mát bất đối xứng. Ngoài ra, luận án cũng đề xuất phương pháp học chuyển giao để huấn luyện mô hình nhằm tăng độ chính xác của mô hình đề xuất CRF-EfficientUNet.

Mô hình đề xuất được huấn luyện theo qui trình như sau: Đầu tiên, huấn luyện mô hình EfficientUnet bằng phương pháp học chuyển giao, tức là sử dụng trọng số của mạng pretrained được huấn luyện trên bộ Imagenet là trọng số khởi tạo cho bộ mã hóa và huấn luyện lại toàn bộ các lớp mạng với bộ dữ liệu ảnh nội soi sử dụng các phương pháp tăng cường dữ liệu cơ bản. Kết thúc huấn luyện các tham số học được của mô hình EfficientUnet được lưu lại. Tiếp theo, các trọng số của mô hình EfficientUnet được chuyển giao cho mô hình CRF- EfficientUNet và được đóng băng. Cuối cùng mô hình CRF-EfficientUNet được huấn luyện để tinh chỉ lớp CRF-RNN, sử dụng bộ dữ liệu huấn luyện chính là bộ dữ liệu đã dùng để huấn luyện mạng EfficientUnet.

2.2.2. Mạng UNet điều chỉnh cho phân vùng polyp trên ảnh nội soi đại tràng.

Kiến trúc UNet được phát triển bởi Olaf Ronneberger và các cộng sự [59] dùng cho phân vùng đối tượng trên ảnh y sinh. Mạng UNet gồm hai nhánh đối xứng nhau. Nhánh thứ nhất, gọi là bộ mã hóa, được sử dụng để nắm bắt các thông tin về ngữ cảnh trên ảnh. Bộ mã hóa là một mạng CNN bao gồm các lớp tích chập (convolution layer) và lớp tổng hợp (pooling layer). Nhánh thứ hai, được gọi là bộ giải mã, được sử dụng để xác định vị trí chính xác bằng cách sử dụng các lớp tích chập chuyển vị (transpose convolution layer) hoặc các lớp giải tích chập (deconvolution layer). Ngoài ra, UNet có các kết nối giữa bộ mã hóa và bộ giải mã để chuyển các đặc trưng ở các mức cao hơn mà bộ mã hóa

học được (các đặc trưng này có thể bị mất trong quá trình giải mã của bộ giải mã) từ bộ mã hóa sang bộ giải mã.

Hình 2.2. Mạng UNet cho phân vùng polyp trên ảnh nội soi đại tràng Luận án đã sử dụng mạng UNet điều chỉnh cho phân vùng polyp trên ảnh nội soi đại tràng. Hình 2.2 là minh họa mạng UNet cho phân vùng polyp. UNet được điều chỉnh bằng cách sử dụng mạng CNN dựng sẵn (pre-trained CNN) làm bộ mã hóa. Luận án đã thực hiện cài đặt mạng UNet điều chỉnh với các bộ mã hóa khác nhau dùng cho phân vùng polyp trên ảnh nội soi đại tràng, bao gồm: họ các mạng EfficientNet [80] từ EfficientNet-B0 tới EfficientNet- B7, ResNet-50; ResNet-101 [25]; và MobileNetV2 [63]. Các kết quả thử nghiệm cho thấy UNet với bộ mã hóa EfficientNet-B7 cho độ chính xác cao nhất, do đó bộ mã hóa EfficientNet-B7 được lựa chọn.

- Bộ mã hóa (Encoder): Bộ mã hóa sử dụng trong mạng Unet cải tiến cho

phân vùng polyp đã đề xuất là một mạng pretrained-CNN phân loại ảnh nhưng bỏ đi những lớp kết nối đầy đủ (layer fully connected). Hình 2.3 là minh họa kiến trúc bộ mã hóa EfficientNet-B7 với 7 khối (Block1, Block 2, Block 3, Block 4, Block 5, Block 6, Block 7). Trong mỗi khối gồm các Modul1 (Deepwise Conv2D, BatchNormalixe, Activate), Modul2 (Deepwise Conv2D,

Activate), Modul3 (Global Average Pooling, recalling, Conv2D, Conv2D) và lớp cộng (Add) giữa các modul.

Hình 2.3. Kiến trúc bộ mã hóa EfficientB7 [82]

- Bộ giải mã (decoder): Bộ giải mã của mạng Unet phân vùng polyp trên ảnh nội soi đại tràng đã đề xuất có kiến trúc giống kiến trúc của Unet nguyên bản do Olaf Ronneberger và các cộng sự [59] đề xuất. Bộ giải mã hóa gồm 4 khối Upsample2D (UpConv2D, Concatenate, Conv2D, Activation, Conv2D, Activation) nối tiếp và lớp Conv 1x1 tiếp nối hàm kích hoạt Sigmoid ở trên cùng. Hình 2.4 là minh họa khối Upsample2D của bộ giải mã.

- Kết nối giữa bộ mã hóa và giải mã (Skip conncection): Mạng UNet cải tiến cho phân vùng polyp áp dụng 4 kết nối tắt giữa các lớp của bộ mã hóa và bộ giải mã. Phép Concatenate ở các Upsample2D của bộ giải mã thể hiện điều này, trong đó đầu ra của lớp Up-Conv2D của bộ giải mã được kết hợp qua phép Concatenate với đầu ra của một lớp skip của bộ mã hóa. Tùy theo các kiến trúc của bộ mã hóa khác nhau mà các lớp skip được xác định khác nhau. Luận án đã sử dụng các lớp skip theo đề xuất của Pavel Iakubovskii trong [88]. Với bộ mã hóa là EfficientNet B7 thì các lớp skip bao gồm:

-Lớp activation trong Modul 2 của Block 6 - Lớp activation trong Modul 2 của Block 4 - Lớp activation trong Modul 2 của Block 3 - Lớp activation trong Modul 2 của Block 2

2.2.3. Tích hợp lớp CRF-RNN vào mạng UNet

Sử dụng mô hình xác suất trường ngẫu nhiên có điều kiện (Conditional Random Field) [39], gọi tắt là CRF, kết hợp với mô hình học sâu phân vùng ngữ nghĩa ảnh là cách tiếp cận phổ biến cho bài toán phân vùng các đối tượng trên ảnh. Ý tưởng chung của phương pháp này là mô hình phân vùng đóng vai trò công cụ trích rút các đặc trưng và tạo ra phân vùng đối tượng thô ban đầu, sau đó CRF sẽ được sử dụng để tinh chỉnh lại kết quả. Đầu vào của CRF bao gồm xác suất phân vùng do mạng học sâu tạo ra và ảnh đầu vào ban đầu. Không giống như các lớp tích chập thực thi các bộ lọc cục bộ, với CRF kết nối đầy đủ (fully connected Conditional Random Field) thì mọi cặp pixel có trong ảnh được xem xét, do đó trường tiếp nhận của CRF kết nối đầy đủ là toàn bộ hình ảnh. Trong mô hình CRF, mỗi cặp pixel được định nghĩa bằng khoảng cách không gian và khoảng cách màu giữa các pixel. Điều này làm cho các phân vùng do CRF tạo ra sắc nét hơn nhiều so với các phân vùng được tạo ra bởi mô hình phân vùng ban đầu. Tuy nhiên, thông thường khi sử dụng CRF để cải thiện chất lượng của mô hình phân vùng, CRF phải được thực hiện riêng sau khi mô hình phân vùng đã được huấn luyện. Khắc phục điều này, trong [92] các tác giả đã đề xuất xấp xỉ mô hình CRF bằng mạng nơ-ron hồi qui, để có thể tích hợp với mạng phân vùng và huấn luyện toàn bộ mạng từ đầu đến cuối (end to end) để thu được kết quả tốt hơn.

Trong mô hình phân vùng ảnh CRF giải quyết bài toán tối ưu cực tiểu hóa hàm năng lượng sau [62]:

𝐸(𝑌) = ∑𝑁𝑖=1Φ⁡(𝑦𝑖𝑢) + ⁡ ∑∀𝑖,𝑗,𝑖<𝑗Ψ(𝑦𝑖𝑢, 𝑦𝑗𝑣) (2.1) Trong đó Φ⁡(𝑦𝑖𝑢) là hàm mất mát khi nhãn u được gán cho pixel i, N là số pixel trong ảnh, Ψ(𝑦𝑖𝑢, 𝑦𝑗𝑣) là hàm mất mát khi nhãn u, v được gán cho cặp pixel

i, j và được tính toán như sau:

𝛹(𝑦𝑖𝑢, 𝑦𝑗𝑣) = 𝜇(𝑢, 𝑣) ∑𝐾𝑚=1𝑤(𝑚)𝑘(𝑚)⁡(𝑓𝑖, 𝑓𝑗) (2.2) Trong đó 𝜇(𝑢, 𝑣) chỉ sự tương thích giữa các nhãn u và v;𝑓𝑖, 𝑓𝑗 là các vec- tơ đặc trưng của pixel i, j; K=2 là số các nhân Gaussian (Gaussian kernel); 𝑘(𝑚)

là Gaussian kernel; 𝑤(𝑚) là trọng số của Gaussian kernel 𝑘(𝑚).

𝑘(1) = (−|𝑠𝑖−𝑠𝑗|

2𝜃𝛼2 −|𝑒𝑖−𝑒𝑗|

2𝜃𝛽2 ) (2.3)

𝑘(2) = 𝑒𝑥𝑝 (−|𝑠𝑖−𝑠𝑗|

2𝜃𝛽2 ) (2.4) Trong đó 𝑒𝑖, 𝑒𝑗 biểu thị cường độ sáng (intensity) của các pixel i, j; 𝑠𝑖, 𝑠𝑗

biểu thị tọa độ không gian của các pixel i, j; 𝜃𝛼, 𝜃𝛽, 𝜃𝛾 là tham số củaGaussian kernel.

CRF dự đoán xác suất gán nhãn u cho pixel i, ký hiệu là 𝑞𝑖𝑢, bằng cách cực tiểu hóa hàm năng lượng E(Y) ở biểu thức (2.1), {𝑞𝑖𝑢} có thể tính toán sử dụng thuật toán lặp Mean-field [92] xấp xỉ CRF dưới dạng mạng nơ-ron hồi qui, ký hiệu là CRF-RNN. Nhờ đó mạng CNN và CRF có thể tích hợp thành một mạng học sâu và có thể được huấn luyện sử dụng thuật toán lan truyền ngược.

Luận án đã đề xuất tích hợp mạng UNet và CRF-RNN thành một mô hình học sâu để phân vùng polyp trên ảnh nội soi đại tràng. Toàn bộ mô hình tích hợp có thể được huấn luyện từ đầu đến cuối (end to end) bằng thuật toán lan truyền ngược. Hình 2.5 trình bày cấu trúc của CRF-RNN tích hợp vào mạng Unet cho phân vùng polyp được đề xuất.

Trong Hình 2.5, G1, G2 là hai hàm đảo chiều (gating function) được định nghĩa như sau:

𝑄𝑖𝑛 = { 𝑠𝑜𝑓𝑡𝑚𝑎𝑥(𝑃)⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡𝑖𝑓⁡𝑡 = 0

𝑄𝑜𝑢𝑡 = 𝑀𝑒𝑎𝑛𝐹𝑖𝑒𝑙𝑑(𝑄𝑖𝑛)⁡𝑖𝑓⁡0 < 𝑡 ≤ 𝑇 (2.5)

𝑄𝑓𝑖𝑛𝑎𝑙 = { 0⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡𝑖𝑓⁡0 < 𝑡 < 𝑇

𝑄𝑜𝑢𝑡 = 𝑀𝑒𝑎𝑛𝐹𝑖𝑒𝑙𝑑(𝑄𝑖𝑛)⁡⁡𝑖𝑓⁡𝑡 = 𝑇 (2.6)

Trong đó 𝑄 = {𝑞𝑖𝑢}, ⁡𝑞𝑖𝑢 là xác suất gán nhãn u cho pixel i; 𝑄𝑖𝑛⁡, 𝑄𝑜𝑢𝑡 là đầu vào, đầu ra của một vòng lặp Mean-field; 𝑄𝑓𝑖𝑛𝑎𝑙 là các kết quả dự đoán cuối cùng của CRF-RNN, P là đầu ra của mạng UNet, 𝑃𝑛𝑜𝑟𝑚 là đầu ra của hàm softmax với đầu vào là P, t biểu diễn vòng lặp thứ t và T là tổng số vòng lặp.

Vòng lặp Mean-field [92] được coi như một xếp các lớp của mạng CNN, bao gồm các bước sau: Message Passing, Re-Weighting; Compatibility transform; Adding Unary Potentials; và Normalization.

Trong mô hình phân vùng polyp tích hợp UNet và CRF-RNN được đề xuất, Φ⁡(𝑦𝑖𝑢) trong công thức (2.1) là đầu ra của mạng UNet; Ψ(𝑦𝑖𝑢, 𝑦𝑗𝑣) được tính toán dựa trên các vec-tơ đặc trưng của các pixel i, j; Giá trị các vec-tơ đặc trưng này được trích rút từ các thông tin ảnh như vị trí không gian và các giá trị R, G, B; Tham số của Gausian kernel được đặt theo đề xuất trong [92] là

𝜃𝛼 = 160, 𝜃𝛽 = 3, 𝜃𝛾 = 3; 𝜇 và w được học trong bước huấn luyện.

2.2.4. Hàm mất mát bất đối xứng kết hợp AsymCE

Để huấn luyện mô hình học sâu đã đề xuất dùng cho phân vùng polyp trên ảnh nội soi đại tràng, luận án đề xuất một hàm mất mát mới, gọi là hàm bất đối xứng kết hợp, ký hiệu là AsymCE. Hàm này là sự kết hợp có trọng số của hai hàm mất mát thường được dùng cho huấn luyện các mô hình phân vùng đối tượng trên ảnh là: hàm mất mát cross-entropy nhị phân mức pixel [59] (pixel- wise binary cross-entropy loss) và hàm mất mát bất đối xứng (asymmetric similarity loss) [24].

Hàm mất mát cross-entropy mức pixel được Ronneberger và các cộng sự [59] đề xuất cho huấn luyện mạng UNet cho phân vùng đối tượng trên ảnh y tế. Hàm mất mát này chỉ tính toán mất mát trên từng pixel riêng lẻ bằng cách

so sánh phân lớp dự đoán lớp của pixel được xác định bởi vec-tơ dự đoán với vec-tơ nhãn đúng thực sự được gán cho pixel đó. Hàm mất mát cross-entropy

Kỹ thuật học chuyển giao

Mạng sinh dữ liệu có điều kiện CGAN