Qua các phân tích tổng quan bài toán phân tích ảnh nội soi đại tràng, tổng hợp tình hình nghiên cứu, phát triển các thuật toán, kỹ thuật thị giác máy tính để giải quyết bài toán trên thế giới và trong nước thời gian gần đây cho thấy nghiên cứu và phát triển các kỹ thuật học sâu áp dụng trong phân tích ảnh nội soi đại tràng là một hướng nghiên cứu tiềm năng, vẫn còn có thể khai thác ở nhiều khía cạnh. Cụ thể là cần có các nghiên cứu đưa ra các giải pháp khắc phục vấn đề khó khăn về việc dữ liệu huấn luyện không cân bằng, thiếu hụt dữ liệu huấn luyện có gán nhãn cho các hệ thống học sâu, và khai thác kho dữ liệu lớn ảnh nội soi đại tràng không được gán nhãn thu thập từ hệ thống PACS. Từ đó có thể nâng cao độ chính xác và tính tổng quát hóa của các hệ thống tự động phân vùng polyp trên ảnh nội soi, hỗ trợ các bác sỹ trong chẩn đoán nội soi đại tràng. Những vấn đề chính luận án sẽ tập trung giải quyết bao gồm:
- Nghiên cứu, đề xuất một mô hình học sâu phân vùng polyp trên ảnh nội soi đại tràng có độ chính xác và tính tổng quát hóa tốt trên các bộ dữ liệu khác nhau, từ đó có thể làm nền tảng cho các ứng dụng có thể triển khai trên thực tế với các dữ liệu rất đa dạng. Mô hình này cần giải quyết được vấn đề không cân bằng trong dữ liệu ảnh huấn luyện phân vùng polyp từ đó nâng cao hiệu quả của mô hình, cải thiện các dự đoán phân vùng polyp tốt hơn.
- Nghiên cứu đề xuất các phương pháp học bán giám sát nhằm khai thác kho dữ liệu ảnh chưa được gán nhãn trong các hệ thống PACS nhằm nâng cao độ chính xác của mô hình học sâu phân vùng polyp trên ảnh nội soi đại tràng.
- Nghiên cứu giải pháp sinh dữ liệu giả lập ảnh nội soi đại tràng có gán nhãn phân vùng polyp để khắc phục tình trạng thiếu hụt dữ liệu có gán nhãn dùng cho huấn luyện mô hình học sâu phân vùng polyp, tiết kiệm chi phí gán nhãn dữ liệu.
1.4. Kết luận Chương 1
Chương 1 của luận án đã trình bày tổng quan về các vấn đề nghiên cứu trong luận án, bao gồm: Tổng quan bài toán phân tích ảnh nội soi đại tràng, tình hình nghiên cứu bài toán trong và ngoài nước và các kiến thức cơ sở có liên quan để giải quyết bài toán.
Nội soi đại tràng là một trong những thủ thuật hiệu quả để phát hiện và sàng lọc ung thư đại tràng, tuy nhiên tỉ lệ sai sót trong lâm sàng còn cao do thủ thuật này còn phụ thuộc rất nhiều vào các bác sỹ nội soi, điều này mở ra hướng phát triển tiềm năng cho các ứng dụng trí tuệ nhân tạo sử dụng các kỹ thuật thị giác máy tính tiến tự động phân tích ảnh nội soi đại tràng hỗ trợ các bác sỹ trong chuẩn đoán nội soi, sàng lọc và phát hiện sớm ung thư đại tràng. Tuy nhiên, khi nghiên cứu phát triển các kỹ thuật thị giác máy tính tự động phân tích ảnh nội soi đại tràng có một số các khó khăn, đòi hỏi có những nghiên cứu chuyên sâu để tìm ra các hướng giải quyết bài toán khác nhau. Hiện nay các phương pháp học sâu được sử dụng rộng rãi do khả năng tự động trích rút các đặc trưng ảnh với độ chính xác cao. Ngoài ra, các bộ dữ liệu ảnh soi đại tràng chuẩn để dùng cho các mô hình học máy được công bố rộng rãi đã tạo điều kiện
cho mô hình học sâu phân tích ảnh nội soi đại tràng phát triển hơn. Chương 1 của luận án, đã tiến hành khảo sát một số bộ dữ liệu ảnh nội soi chuẩn được công bố công khai và sử dụng rộng rãi hiện nay, từ đó lựa chọn các bộ dữ liệu phù hợp cho các nghiên cứu. Chương 1 của luận án đồng thời, cũng đã khảo sát, phân tích tình hình nghiên cứu trong và ngoài nước cho bài toán phân tích ảnh nội soi đại tràng qua đó đã đưa ra các vấn đề còn tồn tại cần giải quyết đối với bài toán và xác định nội dung chính mà luận án sẽ tập trung giải quyết. Luận án này sẽ tập trung vào bài toán phân vùng polyp trên ảnh nọi soi đại tràng, là một trong những bài toán quan trọng nhất trong phân tích ảnh nội soi đại tràng nói chung. Phần cuối cùng của Chương 1 là các kiến thức lý thuyết cơ sở có liên quan tới nội dung nghiên cứu của luận án bao gồm: tổng quan các kỹ thuật học sâu, các khái niệm về phương pháp học bán giám sát, không giám sát, học chuyển giao, mạng học sâu phân vùng đối tượng trên ảnh, các độ đo đánh giá phương pháp phân vùng, các phép tăng cường dữ liệu cơ bản cho hệ thống học sâu, tổng quan về mạng sinh dữ liệu có điều kiện và phương pháp học tự giám sát các đặc trưng thị giác của ảnh.
CHƯƠNG 2
MÔ HÌNH PHÂN VÙNG POLYP ĐẠI TRÀNG DỰA TRÊN MẠNG UNET CẢI TIẾN VÀ HÀM MẤT MÁT BẤT ĐỐI XỨNG KẾT HỢP 2.1. Đặt vấn đề
Phân vùng các polyp trên ảnh nội soi đại tràng là một tác vụ phân vùng ngữ nghĩa ảnh, trong đó các pixel trên ảnh sẽ được phân lớp nhị phân, thành các pixel thuộc lớp polyp hoặc các pixel thuộc lớp không phải là polyp. Phân vùng các polyp một cách chính xác là một tác vụ phức tạp vì các polyp có hình dạng, kích thước, màu sắc và kết cấu rất đa dạng. Thêm vào đó, các khó khăn như ảnh bị mờ, ảnh bị chói và chất lượng hình ảnh thấp là những nguyên nhân gây nên lỗi khi phân vùng polyp. Trong những năm qua, các nhà nghiên cứu đã nỗ lực phát triển nhiều phương pháp phân vùng polyp tự động cho hệ thống CADx. Tuy nhiên, hạn chế chính của các công trình nghiên cứu đến hiện tại là hầu hết các công trình hiện tại đề xuất các thuật toán được huấn luyện và thử nghiệm trên các tập dữ liệu nhỏ, đơn lẻ, và được lựa chọn kỹ. Khi kiểm thử các mô hình với bộ dữ liệu kiểm thử độc lập với bộ dữ liệu huấn luyện cho kết quả thấp. Trong khi đó, thực tế các hệ thống nội soi ở các bệnh viện khác nhau cho hình ảnh nội soi rất khác nhau về độ sáng, độ tương phản, chất lượng hình ảnh. Ngoài ra trên thực tế nội soi có rất nhiều trường hợp polyp với hình dạng đa dạng khác nhau ở các cơ sở y tế.
Hướng tới giải quyết những vấn đề còn tồn tại và những khó khăn thách thức của bài toán phân vùng polyp trên ảnh nội soi đại tràng, Chương 2 của luận án hướng tới phát triển một thuật toán có thể đạt được độ chính xác cao trên các bộ dữ liệu kiểm thử khác bộ dữ liệu huấn luyện, từ đó có thể làm nền tảng cho các ứng dụng có thể triển khai trên thực tế với các dữ liệu rất đa dạng.
2.2. Phương pháp đề xuất
2.2.1.Kiến trúc mô hình học sâu đề xuất cho phân vùng polyp trên ảnh nội soi đại tràng
Từ những nghiên cứu, phân tích về bài toán phân vùng polyp trên ảnh nội soi đại tràng luận án đã đề xuất một mô hình học sâu phân vùng polyp trên ảnh nội soi đại tràng. Hình 2.1 là minh họa kiến trúc chung của mô hình đề xuất.
42
43
Kiến trúc mạng UNet được điều chỉnh với bộ mã hóa là các mạng pretrained-CNN khác nhau. EfficientNet B7 được lựa chọn làm kiến trúc của bộ mã hóa trong mô hình phân vùng polyp đề xuất vì kiến trúc này cho độ chính xác cao nhất. Kiến trúc mạng UNet điều chỉnh này được gọi là EfficientUnet. Tiếp theo mạng EfficientUnet được mở rộng bằng việc xếp chồng mô hình xác suất trường ngẫu nhiên có điều kiện được xấp xỉ bằng mạng nơ ron hồi qui (gọi là lớp CRF-RNN) [92] vào trên cùng của mạng. Mô hình thu được gọi là CRF- EfficientUNet. Bên cạnh đó, luận án đề xuất hàm mất mát bất đối xứng kết hợp AsymCE dùng cho huấn luyện mô hình. Hàm
AsymCE là sự kết hợp có trọng số giữa hai thành phần là hàm mất mát cross-
entropy và hàm mất mát bất đối xứng. Ngoài ra, luận án cũng đề xuất phương pháp học chuyển giao để huấn luyện mô hình nhằm tăng độ chính xác của mô hình đề xuất CRF-EfficientUNet. Mô hình đề xuất được huấn luyện theo qui trình như sau: Đầu tiên, huấn luyện mô hình EfficientUnet bằng phương pháp học chuyển giao, tức là sử dụng trọng số của mạng pretrained được huấn luyện trên bộ Imagenet là trọng số khởi tạo cho bộ mã hóa và huấn luyện lại toàn bộ các lớp mạng với bộ dữ liệu ảnh nội soi sử dụng các phương pháp tăng cường dữ liệu cơ bản. Kết thúc huấn luyện các tham số học được của mô hình EfficientUnet được lưu lại. Tiếp theo, các trọng số của mô hình EfficientUnet được chuyển giao cho mô hình CRF- EfficientUNet và được đóng băng. Cuối cùng mô hình CRF-EfficientUNet được huấn luyện để tinh chỉ lớp CRF-RNN, sử dụng bộ dữ liệu huấn luyện chính là bộ dữ liệu đã dùng để huấn luyện mạng EfficientUnet.
2.2.2. Mạng UNet điều chỉnh cho phân vùng polyp trên ảnh nội soi đại tràng.
Kiến trúc UNet được phát triển bởi Olaf Ronneberger và các cộng sự [59] dùng cho phân vùng đối tượng trên ảnh y sinh. Mạng UNet gồm hai nhánh đối xứng nhau. Nhánh thứ nhất, gọi là bộ mã hóa, được sử dụng để nắm bắt các thông tin về ngữ cảnh trên ảnh. Bộ mã hóa là một mạng CNN bao gồm các lớp tích chập (convolution layer) và lớp tổng hợp (pooling layer). Nhánh thứ hai, được gọi là bộ giải mã, được sử dụng để xác định vị trí chính xác bằng cách sử dụng các lớp tích chập chuyển vị (transpose convolution layer) hoặc các lớp giải tích chập (deconvolution layer). Ngoài ra, UNet có các kết nối giữa bộ mã hóa và bộ giải mã để chuyển các đặc trưng ở các mức cao hơn mà bộ mã hóa
44
học được (các đặc trưng này có thể bị mất trong quá trình giải mã của bộ giải mã) từ bộ mã hóa sang bộ giải mã.
Hình 2.2. Mạng UNet cho phân vùng polyp trên ảnh nội soi đại tràng Luận án đã sử dụng mạng UNet điều chỉnh cho phân vùng polyp trên ảnh nội soi đại tràng. Hình 2.2 là minh họa mạng UNet cho phân vùng polyp. UNet được điều chỉnh bằng cách sử dụng mạng CNN dựng sẵn (pre-trained CNN) làm bộ mã hóa. Luận án đã thực hiện cài đặt mạng UNet điều chỉnh với các bộ mã hóa khác nhau dùng cho phân vùng polyp trên ảnh nội soi đại tràng, bao gồm: họ các mạng EfficientNet [80] từ EfficientNet-B0 tới EfficientNet- B7, ResNet-50; ResNet-101 [25]; và MobileNetV2 [63]. Các kết quả thử nghiệm cho thấy UNet với bộ mã hóa EfficientNet-B7 cho độ chính xác cao nhất, do đó bộ mã hóa EfficientNet-B7 được lựa chọn.
- Bộ mã hóa (Encoder): Bộ mã hóa sử dụng trong mạng Unet cải tiến
cho phân vùng polyp đã đề xuất là một mạng pretrained-CNN phân loại ảnh nhưng bỏ đi những lớp kết nối đầy đủ (layer fully connected). Hình 2.3 là minh họa kiến trúc bộ mã hóa EfficientNet-B7 với 7 khối (Block1, Block 2, Block 3, Block 4, Block 5, Block 6, Block 7). Trong mỗi khối gồm các Modul1 (Deepwise Conv2D, BatchNormalixe, Activate), Modul2 (Deepwise Conv2D, BatchNormalixe, Activate, Padding, Deepwise Conv2D, BatchNormalixe,
45
Activate), Modul3 (Global Average Pooling, recalling, Conv2D, Conv2D) và lớp cộng (Add) giữa các modul.
Hình 2.3. Kiến trúc bộ mã hóa EfficientB7 [82]
- Bộ giải mã (decoder): Bộ giải mã của mạng Unet phân vùng polyp trên
ảnh nội soi đại tràng đã đề xuất có kiến trúc giống kiến trúc của Unet nguyên bản do Olaf Ronneberger và các cộng sự [59] đề xuất. Bộ giải mã hóa gồm 4 khối Upsample2D (UpConv2D, Concatenate, Conv2D, Activation, Conv2D, Activation) nối tiếp và lớp Conv 1x1 tiếp nối hàm kích hoạt Sigmoid ở trên cùng. Hình 2.4 là minh họa khối Upsample2D của bộ giải mã.
46
-Kết nối giữa bộ mã hóa và giải mã (Skip conncection): Mạng UNet
cải tiến cho phân vùng polyp áp dụng 4 kết nối tắt giữa các lớp của bộ mã hóa và bộ giải mã. Phép Concatenate ở các Upsample2D của bộ giải mã thể hiện điều này, trong đó đầu ra của lớp Up-Conv2D của bộ giải mã được kết hợp qua phép Concatenate với đầu ra của một lớp skip của bộ mã hóa. Tùy theo các kiến trúc của bộ mã hóa khác nhau mà các lớp skip được xác định khác nhau. Luận án đã sử dụng các lớp skip theo đề xuất của Pavel Iakubovskii trong [88]. Với bộ mã hóa là EfficientNet B7 thì các lớp skip bao gồm:
-Lớp activation trong Modul 2 của Block 6 - Lớp activation trong Modul 2 của Block 4 - Lớp activation trong Modul 2 của Block 3 - Lớp activation trong Modul 2 của Block 2
2.2.3. Tích hợp lớp CRF-RNN vào mạng UNet
Sử dụng mô hình xác suất trường ngẫu nhiên có điều kiện (Conditional Random Field) [39], gọi tắt là CRF, kết hợp với mô hình học sâu phân vùng ngữ nghĩa ảnh là cách tiếp cận phổ biến cho bài toán phân vùng các đối tượng trên ảnh. Ý tưởng chung của phương pháp này là mô hình phân vùng đóng vai trò công cụ trích rút các đặc trưng và tạo ra phân vùng đối tượng thô ban đầu, sau đó CRF sẽ được sử dụng để tinh chỉnh lại kết quả. Đầu vào của CRF bao gồm xác suất phân vùng do mạng học sâu tạo ra và ảnh đầu vào ban đầu. Không giống như các lớp tích chập thực thi các bộ lọc cục bộ, với CRF kết nối đầy đủ (fully connected Conditional Random Field) thì mọi cặp pixel có trong ảnh được xem xét, do đó trường tiếp nhận của CRF kết nối đầy đủ là toàn bộ hình ảnh. Trong mô hình CRF, mỗi cặp pixel được định nghĩa bằng khoảng cách không gian và khoảng cách màu giữa các pixel. Điều này làm cho các phân vùng do CRF tạo ra sắc nét hơn nhiều so với các phân vùng được tạo ra bởi mô hình phân vùng ban đầu. Tuy nhiên, thông thường khi sử dụng CRF để cải thiện chất lượng của mô hình phân vùng, CRF phải được thực hiện riêng sau khi mô hình phân vùng đã được huấn luyện. Khắc phục điều này, trong [92] các tác giả đã đề xuất xấp xỉ mô hình CRF bằng mạng nơ- ron hồi qui, để có thể tích hợp với mạng phân vùng và huấn luyện toàn bộ mạng từ đầu đến cuối (end to end) để thu được kết quả tốt hơn.
Trong mô hình phân vùng ảnh CRF giải quyết bài toán tối ưu cực tiểu hóa hàm năng lượng sau [62]:
� � � � 2�2 � � � � 48 �(�) = ∑� Φ (��) + ∑∀�,�,�<�Ψ(��, ��) (2.1) �=1 � � �
Trong đó Φ (��) là hàm mất mát khi nhãn u được gán cho pixel i, N là số pixel trong ảnh, Ψ(���, ���) là hàm mất mát khi nhãn u, v được gán cho cặp pixel
i, j và được tính toán như sau:
�(��, ��) = �( ,� �) �(�)�(�)
(��, ��) (2.2)
� � �=1
Trong đó �( ,� �) chỉ sự tương thích giữa các nhãn u và v; ��, ��là các vec- tơ đặc trưng của pixel i, j; K=2 là số các nhân Gaussian (Gaussian kernel); �(�) là Gaussian kernel; �(�) là trọng số của Gaussian kernel �(�).
�(1) = (− |��−��| − |��−��|) (2.3)
2�2 2222222222222222
�(2) = ��� (− |��−��|) (2.4) �
Trong đó ��, ��biểu thị cường độ sáng (intensity) của các pixel i, j; ��, �� biểu thị tọa độ không gian của các pixel i, j; ��, ��, �� là tham số của Gaussian kernel.
CRF dự đoán xác suất gán nhãn u cho pixel i, ký hiệu là ��, bằng cách cực tiểu hóa hàm năng lượng E(Y) ở biểu thức (2.1), {��} có thể tính toán sử dụng thuật toán lặp Mean-field [92] xấp xỉ CRF dưới dạng mạng nơ-ron hồi qui, ký hiệu là CRF-RNN. Nhờ đó mạng CNN và CRF có thể tích hợp thành một mạng học sâu và có thể được huấn luyện sử dụng thuật toán lan truyền ngược.
Luận án đã đề xuất tích hợp mạng UNet và CRF-RNN thành một mô hình học sâu để phân vùng polyp trên ảnh nội soi đại tràng. Toàn bộ mô hình tích hợp có thể được huấn luyện từ đầu đến cuối (end to end) bằng thuật toán