(Luận Án Tiến Sĩ) Nghiên Cứu, Phát Triển Một Số Kỹ Thuật Học Sâu Áp Dụng Cho Phân Vùng Polyp Trên Ảnh Nội Soi Đại Tràng.pdf

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	127
Dung lượng	2,76 MB

Nội dung

Untitled i LỜI CAM ĐOAN Tôi xin cam đoan, đây là công trình nghiên cứu của riêng tôi Những nội dung, số liệu và kết quả trình bày trong luận án là hoàn toàn trung thực và chưa từng được công bố trong[.]

i BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG VIỆN KHOA HỌC CÔNG NGHỆ QUÂN SỰ LỜIVÀ CAM ĐOAN Tơi xin cam đoan, cơng trình nghiên cứu riêng Những nội dung, số liệu kết trình bày luận án hồn tồn trung thực chưa công bố cơng trình khác Các liệu tham khảo trích dẫn đầy đủ LÊ THỊ THU HỒNG Hà Nội, ngày tháng năm 2022 Tác giả NGHIÊN CỨU, PHÁT TRIỂN MỘT SỐ KỸ THUẬT Lê Thị Thu Hồng TRÊN HỌC SÂU ÁP DỤNG CHO PHÂN VÙNG POLYP ẢNH NỘI SOI ĐẠI TRÀNG LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội – 2022 ii BỘ GIÁO DỤC VÀ ĐÀO TẠO LỜI CẢM ƠN BỘ QUỐC PHỊNG VIỆN KHOA HỌC VÀ CƠNG NGHỆ QUÂN SỰ Luận án thực Viện Khoa học Cơng nghệ qn sự/Bộ Quốc phịng Lời đầu tiên, nghiên cứu sinh xin bày tỏ lòng cảm ơn sâu sắc tới TS Nguyễn Chí Thành TS Trần Quốc Long, thầy tận tình giúp đỡ, trang bị cho NCS phương pháp nghiên cứu, kinh nghiệm, kiến thức khoa học kiểm tra, đánh giá kết cứu nghiên cứu sinh LÊnghiên THỊ THU HỒNG Nghiên cứu sinh xin chân thành cảm ơn Thủ trưởng Viện KH-CN quân sự, Thủ trưởng cán Phịng Đào tạo, Viện Cơng nghệ thơng tin/Viện KHCNQS tạo điều kiện, hỗ trợ, giúp đỡ NCS trình học tập, nghiên cứu NGHIÊN CỨU, PHÁT TRIỂN MỘT SỐ KỸ THUẬT NCS xin bàyÁP tỏ lời cảm ơnCHO chân thành tới VÙNG thầy, POLYP cô giáo Viện HỌC SÂU DỤNG PHÂN TRÊN Công nghệ thơng tin, cácẢNH đồng nghiệp phịngĐẠI CơngTRÀNG nghệ tri thức phòng Phần NỘI SOI mềm chuyên dụng thuộc Viện Công nghệ thông tin/Viện KHCNQS động viên, chia sẻ, giúp đỡ NCS suốt thời gian qua Bên cạnh đó, NCS tốnnghiệp học chovà tincác họcbạn sinh viên xin gửi Chuyên lời cảmngành: ơn thầy Cơ cơ,sởđồng Mã số: 9460110 nhóm nghiên cứu thị giác máy tính Phịng thí nghiệm mục tiêu Trí tuệ nhân tạo (UET-AILAB) thuộc Trường Đại học Công nghệ, Đại học Quốc gia Hà nội, nhiệt tình đóng góp ý kiến q báu q trình học tập, nghiên cứu NCS LUẬN ÁN TIẾN SĨ TOÁN HỌC Nghiên cứu sinh ghi nhớ công ơn bố mẹ gia đình, người ln bên cạnh, động viên chỗ dựa mặt giúp nghiên cứu sinh vượt qua khó khăn để hoàn thành luận án TácKHOA giả luận án NGƯỜI HƯỚNG DẪN HỌC: TS Nguyễn Chí Thành Lê Thị Thu Hồng TS Trần Quốc Long Hà Nội – 2022 iii MỤC LỤC Trang DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT, THUẬT NGỮ vi DANH MỤC BẢNG BIỂU viii DANH MỤC CÁC HÌNH VẼ x MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ BÀI TOÁN PHÂN VÙNG POLYP TRÊN ẢNH NỘI SOI ĐẠI TRÀNG 1.1 Bài toán tự động phân vùng polyp ảnh nội soi đại tràng 1.1.1 Giới thiệu toán 1.1.2 Các liệu ảnh nội soi đại tràng chuẩn công bố 12 1.2 Kỹ thuật học sâu cho phân vùng đối tượng ảnh 16 1.2.1 Kỹ thuật học sâu 16 1.2.2 Kỹ thuật học chuyển giao 19 1.2.3 Mạng học sâu phân vùng đối tượng ảnh 21 1.2.4 Đánh giá phương pháp phân vùng đối tượng ảnh 23 1.2.5 Tăng cường liệu cho hệ thống học sâu 26 1.2.6 Mạng sinh liệu có điều kiện CGAN 26 1.2.7 Phương pháp học tự giám sát đặc trưng thị giác ảnh 27 1.3 Tình hình nghiên cứu tốn phân tích ảnh nội soi đại tràng 28 1.3.1 Tình hình nghiên cứu giới 28 1.3.2 Tình hình nghiên cứu nước 35 1.3.3 Những vấn đề tồn 37 1.3.4 Những vấn đề luận án tập trung giải 38 1.4 Kết luận Chương 39 CHƯƠNG MƠ HÌNH PHÂN VÙNG POLYP ĐẠI TRÀNG DỰA TRÊN MẠNG UNET CẢI TIẾN VÀ HÀM MẤT MÁT BẤT ĐỐI XỨNG KẾT HỢP 41 2.1 Đặt vấn đề 41 2.2 Phương pháp đề xuất 41 iv 2.2.1 Kiến trúc mơ hình học sâu đề xuất cho phân vùng polyp ảnh nội soi đại tràng 2.2.2 Mạng UNet điều chỉnh cho phân vùng polyp ảnh nội soi đại tràng 2.2.3 Tích hợp lớp CRF-RNN vào mạng UNet 2.2.4 Hàm mát bất đối xứng kết hợp AsymCE 2.2.5 Phương pháp học chuyển giao cho huấn luyện mô hình đề xuất 2.3 Thử nghiệm đánh giá kết 2.3.1 Các liệu thử nghiệm phương pháp tăng cường liệu huấn luyện 2.3.2 Môi trường cài đặt huấn luyện mơ hình độ đo đánh giá mơ hình 2.3.3 Đánh giá hiệu kỹ thuật phương pháp đề xuất (Ablation study) 2.3.4 Đánh giá độ phức tạp mơ hình đề xuất 2.3.5 So sánh, đánh giá kết phương pháp đề xuất với phương pháp công bố gần 2.4 Kết luận Chương CHƯƠNG PHƯƠNG PHÁP HỌC TỰ GIÁM SÁT ĐẶC TRƯNG THỊ GIÁC CỦA ẢNH NỘI SOI ĐẠI TRÀNG CHO PHÂN VÙNG 3.1 Đặt vấn đề 3.2 Phương pháp đề xuất 3.2.1 Mơ hình hệ thống học tự giám sát đặc trưng thị giác cho phân vùng polyp ảnh nội soi đại tràng 3.2.2 Mạng tái tạo ảnh nội soi đại tràng 3.2.3 Phân vùng polyp sử dụng chuyển giao tri thức học từ mạng tái tạo ảnh nội soi đại tràng 3.3 Thử nghiệm đánh giá kết 3.3.1 Các liệu thử nghiệm 42 43 46 48 54 55 55 56 56 64 65 71 73 73 75 75 75 79 80 80 81 v 3.3.2 Cài đặt mơ hình 3.3.3 Kết tái tạo ảnh 3.3.4 Kết phân vùng polyp 3.3.5 So sánh độ xác phân vùng polyp phương pháp đề xuất với phương pháp 3.4 Kết luận Chương CHƯƠNG PHƯƠNG PHÁP SINH DỮ LIỆU ẢNH NỘI SOI ĐẠI TRÀNG CÓ NHÃN PHÂN VÙNG POLYP 4.1 Đặt vấn đề 4.2 Phương pháp đề xuất 4.2.1 Mạng sinh ảnh nội soi đại tràng chứa polyp PolypGenPix2Pix 4.2.2 Kỹ thuật sinh điều kiện đầu vào cho mạng sinh ảnh 4.3 Thử nghiệm đánh giá kết 4.3.1 Các liệu thử nghiệm 4.3.2 Môi trường cài đặt huấn luyện mơ hình độ đo đánh giá mơ hình 4.3.3 Kết sinh ảnh nội soi chứa polyp mơ hình PolypGenPix2Pix 4.3.4 Đánh giá hiệu kỹ thuật sinh điều kiện đầu vào cho mạng sinh ảnh nội soi 4.3.5 So sánh độ xác mơ hình học sâu phân vùng polyp tăng cường liệu mơ hình sinh ảnh 4.4 Kết luận Chương KẾT LUẬN Các kết nghiên cứu luận án Những đóng góp luận án Hướng nghiên cứu DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ TÀI LIỆU THAM KHẢO 81 83 86 86 89 89 91 91 95 96 96 97 98 99 100 103 105 105 106 106 107 108 vi DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT Ký hiệu, chữ viết tắt Ý nghĩa ℝ𝒏 |𝓓| X∪Y X∩Y 𝑓(∙) log⁡(∙) exp⁡(∙) (∙)𝑇 ‖∙‖𝑝 Tập vector số thực n chiều Số lượng phần tử tập hợp 𝒟 Hợp hai tập hợp X Y Giao hai tập hợp X Y Hàm số Logarit tự nhiên Hàm mũ Chuyển vị ma trận vector Dạng chuẩn p Baseline CE CGAN CV Cơ sở Cross-Entropy Mạng sinh liệu đối nghịch có điều kiện (Conditional GAN) Mạng nơ-ron tích chập Tích chập Ung thư đại tràng (ColoRectal Cancer) Mơ hình xác suất trường ngẫu nhiên có điều kiện (Conditional Random Field) Thị giác máy tính (Computer Vision) Data Augumentation Decoder Deconvolution Discriminative model Tăng cường liệu Bộ giải mã Giải tích chập Mơ hình phân biệt Encoder Bộ mã hóa ‖∙‖ 𝑃(∙) 𝑧~𝑃 𝑃(𝑋|𝑌) 𝔼𝑥 [𝑓(𝑥)] CNN Convolution CRC CRF Dạng chuẩn Phân phối xác suất Biến ngẫu nhiên z với phân phối xác suất P Xác suất có điều kiện X|Y Kỳ vọng hàm f(x) vii GAN GD Generative model Image classification Knowlegde Transfer Loss function MSE NCS PACS Polyp Polyp classification Polyp detection Polyp mask Polyp segmentation Regularization RNN Self-supervised learning Self-supervised visual feature learning Semi-suppervised learning SSIM Supervised learning Testing set Training set Transfer learning Unsupervised learning Validing set Mạng sinh liệu đối nghịch (GAN- Generative Adversarial Networks) Thuật toán hạ gradient (Gradient Descent) Mơ hình sinh Phân loại ảnh Chuyển giao kiến thức Hàm mát Trung bình bình phương lỗi (Mean Squared Error) Nghiên cứu sinh Hệ thống lưu trữ truyền liệu hình ảnh (Picture Archiving and Communication Systems) Đối tượng bất thường đại tràng có nguy phát triển thành ung thư đại tràng Phân loại polyp Phát polyp Ảnh nhị phân thể hình dạng polyp Phân vùng polyp Điều chuẩn Mạng nơ-ron hồi quy (Recurrent Neural Network) Học tự giám sát Học tự giám sát đặc trưng thị giác Học bán giám sát Độ tương tự mặt cấu trúc (Structure Similarity Index Measure) Học có giám sát Tập liệu kiểm tra Tập liệu huấn luyện Học chuyển giao Học không giám sát Tập liệu xác thực viii DANH MỤC CÁC BẢNG Trang Bảng 1.1 Các liệu ảnh nội soi đại tràng chuẩn công bố cho mơ hình học máy 14 Bảng 1.2 Các cơng trình nghiên cứu phân tích ảnh nội soi đại tràng Bảng 2.1 Các hàm mát sử dụng cho huấn luyện mơ hình phân vùng 31 polyp ảnh nội soi đại tràng 52 Bảng 2.2 Độ xác mạng UNet điều chỉnh với mã hóa khác Bảng 2.3 Độ xác mơ mơ hình UNet có tích hợp lớp CRF-RNN khơng có tích hợp lớp CRF-RNN Bảng 2.4 Độ xác phân vùng polyp mạng UNet huấn luyện hàm mát khác Bảng 2.5 So sánh độ xác mơ hình huấn luyện sử dụng phương pháp học chuyển giao Bảng 2.6 Độ phức tạp mạng Unet cải tiến với mã hóa khác cho phân vùng polyp Bảng 2.7 So sánh độ xác mơ hình huấn luyện đánh giá 57 59 60 64 65 liệu CVC-ClinicDB Bảng 2.8 So sánh độ xác mơ hình huấn luyện đánh giá liệu Kvarsir-SEG 66 Bảng 2.9 So sánh độ xác mơ hình huấn luyện liệu CVC-ClinicDB, kiểm thử hai liệu ETIS-Larib CVCColonDB 68 67 68 Bảng 2.10 So sánh điểm số Dice IoU mơ hình huấn luyện Kvasir-SEG, kiểm thử hai liệu ETIS-Larib CVCColonDB Bảng 2.11 So sánh điểm số Dice IoU mơ hình huấn luyện liệu trộn Kvasir-SEG ClinicDB, kiểm thử hai 69 liệu ETIS-Larib CVC-ColonDB Bảng 3.1 Độ xác mạng tái tạo ảnh với tỉ lệ nhiễu khác Bảng 3.2 Độ xác mạng phân vùng polyp học chuyển giao từ 70 82 mạng tái tạo ảnh với tỉ lệ nhiễu khác 83 ix Bảng 3.3 Độ xác mạng phân vùng polyp với phương pháp học chuyển giao khác 84 Bảng 3.4 So sánh điểm số Dice phương pháp phân vùng polyp 86 Bảng 4.1 Kết tăng cường liệu huấn luyện liệu kiểm thử CVC-ColonDB 102 Bảng 4.2 Kết tăng cường liệu huấn luyện liệu kiểm thử ETIS-Larib 102 Bảng 4.3 So sánh kết tăng cường liệu với số lượng liệu tăng cường khác liệu kiểm thử CVC-ColonDB 102 Bảng 4.4 So sánh kết tăng cường liệu với số lượng liệu tăng cường khác liệu kiểm thử ETIS-Larib 103 x DANH MỤC CÁC HÌNH VẼ Trang Hình 1.1 Minh họa thủ thuật nội soi đại tràng Hình 1.2 Hệ thống CADx hỗ trợ chuẩn đoán nội soi đại tràng Hình 1.3 Phân vùng polyp ảnh nội soi đại tràng Hình 1.4 Các trường hợp khó phân vùng polyp 10 Hình 1.5 Ví dụ minh họa liệu không cân Hình 1.6 Ví dụ minh họa liệu CVC-ClinicDB Hình 1.7 Ví dụ minh họa liệu Kvasir-Seg Hình 1.8 Kiến trúc mơ hình học sâu phân vùng ảnh Hình 1.9 Kiến trúc mạng UNet 11 12 13 22 23 Hình 1.10 Minh họa điểm số Dice Hình 1.11 Minh họa số IoU Hình 1.12 Phương pháp học tự giám sát đặc trưng thị giác máy tính 24 24 27 Hình 2.1 Tổng quan kiến trúc mơ hình phân vùng polyp ảnh nội soi đại tràng Hình 2.2 Mạng UNet cho phân vùng polyp ảnh nội soi đại tràng 42 44 Hình 2.3 Kiến trúc mã hóa EfficientB7 Hình 2.4 Khối Upsample2D giải mã Hình 2.5 Cấu trúc lớp CRF-RNN tích hợp mơ hình phân vùng polyp Hình 2.6 Các phương thức học chuyển giao 45 45 47 54 Hình 2.7 Ví dụ phép biến đổi ảnh dùng cho tăng cường liệu Hình 2.8 Biểu đồ độ xác mạng UNet điều chỉnh Hình 2.9 Biểu đồ so sánh điểm số Dice mơ hình có khơng có tích 56 58 hợp lớp CRF-RNN Hình 2.10 Biểu đồ so sánh điểm số Dice mô hình huấn luyện hàm mát khác Hình 2.11 Ảnh hưởng hàm mát trình học 59 Hình 2.12 Phân vùng polyp tạo tùy biến mơ hình đề xuất Hình 3.1 Tổng quan kiến trúc hệ thống học tự giám sát đặc trưng thị giác cho phân vùng polyp ảnh nội soi đại tràng Hình 3.2 Ví dụ phép biến đổi ảnh tạo đầu vào cho mạng tái tạo ảnh 62 Hình 3.3 Mơ hình mạng tái tạo ảnh nội soi đại tràng 78 61 62 76 77 xi Hình 3.4 Minh họa phương pháp học chuyển giao từ mạng tái tạo ảnh nội soi sang mạng phân vùng polyp 79 Hình 3.5 Một số ảnh mạng tái tạo ảnh nội soi tạo Hình 3.6 Phân vùng polyp tạo mạng UNet huấn luyện theo phương pháp học chuyển giao khác từ mạng tái tạo ảnh Hình 4.1 Minh họa mơ hình sinh ảnh nội soi chứa polyp 82 85 Hình 4.2 Huấn luyện phân biệt 92 Hình 4.3 Huấn luyện sinh 92 Hình 4.4 Kiến trúc sinh PolypGenPix2Pix Hình 4.5 Kiến trúc phân biệt PolypGenPix2Pix Hình 4.6 Kỹ thuật sinh tạo điều kiện đầu vào cho mơ hình sinh ảnh Hình 4.7 Một số ảnh nội soi chứa polyp sinh mơ hình sinh ảnh nội soi đại tràng có chứa polyp 93 94 96 91 98 Hình 4.8 Sự khác ảnh nội soi đại tràng chứa polyp sinh điều kiện đầu vào mơ hình sinh ảnh khác 100 Hình 4.9 Mơ hình học sâu phân vùng polyp ảnh nội soi đại tràng 101 MỞ ĐẦU Tính cấp thiết đề tài luận án Thị giác máy tính (Computer Vision) lĩnh vực trí tuệ nhân tạo khoa học máy tính nhằm giúp máy tính có khả “nhìn” hiểu hình ảnh giống người Hiện thị giác máy tính chuyên ngành có nhiều ứng dụng rộng rãi đời sống, ứng dụng nhiều máy móc thiết bị máy ảnh, thiết bị quang học, xe hơi, rô bốt, xe tự hành Trong ngành y tế bác sỹ dùng ảnh y tế ảnh nội soi, ảnh X quang, ảnh chụp cộng hưởng từ (MRI), ảnh chụp cắt lớp (CT scan), ảnh SPECT, ảnh PET… để chẩn đoán bệnh lên phác đồ điều trị Các ứng dụng máy tính hỗ trợ bác sỹ chẩn đoán bệnh cách dùng mơ hình học máy kỹ thuật thị giác máy tính tiên tiến để tự động phân tích ảnh y tế với độ xác tương đương người tốc độ thực nhanh nhiều lần Nghiên cứu phát triển mơ hình học máy, kỹ thuật thị giác máy tính tiên tiến, áp dụng để xây dựng ứng dụng tự động phân tích ảnh y tế hỗ trợ bác sỹ chẩn đốn hình ảnh tiết kiệm nhiều thời gian chi phí nhân cơng cho việc chẩn đốn hình ảnh Ung thư đại tràng (Colorectal Cancer-CRC) nguyên nhân phổ biến gây tử vong liên quan đến ung thư giới, với 576,858 ca tử vong (chiếm 5,8% tổng số ca tử vong ung thư) toàn giới vào năm 2020 [73] CRC thường phát sinh từ đối tượng bất thường gọi polyp, tăng trưởng bất thường bên đại tràng, đối tượng thường phát triển chậm nhiều năm để biến thành ung thư, chẩn đốn phát sớm ung thư đại trực tràng có giá trị [42] Hiện tại, nội soi đại tràng (Colonoscopy) [42] công cụ phổ biến việc sàng lọc, phát sớm CRC Tuy nhiên nội soi đại tràng dị tìm polyp thủ thuật khó với bác sỹ chuyên khoa đào tạo Tỷ lệ bỏ sót polyp trình nội soi đại trực tràng bác sĩ khoảng 25% [42] Các polyp bị bỏ sót khơng phát dẫn đến chẩn đốn phát CRC muộn nguy kịch cho bệnh nhân Vì thế, nghiên cứu mơ hình học máy kỹ thuật thị giác máy tính tiên tiến để phân tích ảnh nội soi phát polyp nghiên cứu quan trọng hữu ích Các nghiên cứu làm tảng để xây dựng ứng dụng hỗ trợ bác sỹ chẩn đoán nội soi đại tràng, phát sàng lọc sớm CRC, nâng cao hiệu suất làm việc bác sĩ Một bước quan trọng thuật toán dựa máy tính để phát polyp việc phân loại pixel ảnh nội soi thành vùng polyp khơng polyp, tốn phân vùng polyp ảnh nội soi (polyp segmentation) Phân vùng polyp ảnh nội soi cách hiệu để thu vùng quan tâm (ROI- Regions Of Interest) có chứa polyp Việc phát ROI hình ảnh dựa phân bố pixel hỗ trợ bác sỹ nâng cao chất lượng chẩn đoán polyp với thời gian ngắn Khi xây dựng mơ hình học sâu áp dụng cho phân tích ảnh nội soi khó khăn lớn thiếu hụt tập liệu huấn luyện đủ lớn Các hệ thống lưu trữ truyền liệu hình ảnh (Picture Archiving and Communication Systems-PACS) sử dụng rộng rãi y tế chúng lưu trữ lượng ảnh y tế lớn có ảnh nội soi đại tràng, nhiên khó khăn gặp phải việc gán nhãn cho tập liệu ảnh Gán nhãn cho ảnh nội soi phải thực chuyên gia chẩn đoán hình ảnh nội soi đại tràng lành nghề, việc địi hỏi nhiều thời gian cơng sức Ngồi ra, hình ảnh polyp ảnh nội soi đại tràng thường có mức độ biến thể lớn hình dạng, kích thước, kết cấu màu sắc, chất lượng hình ảnh nội soi đa dạng phụ thuộc nhiều thiết bị, cách cài đặt hệ thống nội soi thiết bị sở y tế Để vượt qua trở ngại địi hỏi có nghiên cứu chun sâu để tìm hướng giải khác Từ nhận định cho thấy việc nghiên cứu, phát triển mô hình học máy kỹ thuật thị giác máy tính tiên tiến để phân tích ảnh nội soi đại tràng, tự động phát polyp có độ xác tính tổng qt hóa tốt hướng nghiên cứu cần thiết Từ nghiên cứu áp dụng để xây dựng hệ thống phân tích ảnh nội soi đại tràng, tự động phát phân vùng polyp có độ xác cao, chấp nhận sử dụng rộng rãi y tế, trở thành công cụ hỗ trợ bác sỹ chẩn đoán nội soi đại tràng, sàng lọc phát ung thư đại tràng sớm 3 Mục tiêu nghiên cứu Giải trọn vẹn toán phân tích ảnh nội soi đại tràng vấn đề khó đồ sộ, địi hỏi phải nghiên cứu lâu dài Do đó, khn khổ luận án tập trung vào toán phân vùng polyp ảnh nội soi đại tràng, toán quan trọng phân tích ảnh nội soi đại tràng Mục tiêu chung luận án xây dựng cải tiến mơ hình học sâu cho phân vùng phân vùng polyp đạt độ xác cao tính tổng quát hóa tốt, dựa liệu huấn luyện gán nhãn phân vùng polyp chuẩn liệu ảnh nội soi chưa gán nhãn thu thập từ hệ thống PACS Để giải mục tiêu luận án đặt mục tiêu cụ thể sau: Xây dựng mơ hình học sâu phân vùng polyp ảnh nội soi đại tràng có độ xác cao tính tổng qt hóa tốt giải vấn đề liệu không cân Đề xuất phương pháp học bán giám sát khai thác liệu ảnh nội soi đại tràng không gán nhãn từ hệ thống PACS để nâng cao độ xác mơ hình phân vùng polyp Khắc phục tình trạng thiếu hụt liệu ảnh nội soi đại tràng có gán nhãn phân vùng polyp đa dạng Đối tượng phạm vi nghiên cứu Đối tượng: Đối tượng luận án nghiên cứu liệu ảnh nội soi đại tràng phương pháp học sâu cho phân vùng đối tượng ảnh Phạm vi: Luận án tập trung vào phương pháp học sâu phân vùng polyp ảnh nội soi đại tràng: - Nghiên cứu, đề xuất mơ hình học sâu phân vùng polyp ảnh nội soi đại tràng - Nghiên cứu, đề xuất số kỹ thuật cải tiến để nâng cao độ xác tính tổng quát hệ thống phân vùng polyp ảnh nội soi đại tràng Nội dung nghiên cứu Để đạt mục tiêu đề ra, luận án tập trung nghiên cứu số nội dung sau: - Nghiên cứu, phân tích, đánh giá, áp𝛽 dụng mơ hình học sâu, kỹ thuật thị giác tiên tiến để phân vùng đối tượng ảnh, đặc biệt ảnh y tế 4 - Khảo sát, phân tích, đánh giá liệu ảnh nội soi đại tràng chuẩn công bố cho liệu ảnh nội soi thu thập từ hệ thống PACS bệnh viện 103 Từ lựa chọn liệu phù hợp cho huấn luyện kiểm thử mơ hình phân vùng polyp ảnh nội soi đại tràng - Nghiên cứu, áp dụng kỹ thuật học chuyển giao để chuyển giao tri thức học mạng huấn luyện sẵn liệu lớn vào giải toán lĩnh vực ảnh nội soi đại tràng - Nghiên cứu, đề xuất phương pháp học bán giám sát, không giám sát để tận dụng kho liệu lớn liệu ảnh nội soi đại tràng không gán nhãn nhằm nâng cao hiệu tác vụ phân vùng polyp ảnh nội soi đại tràng - Nghiên cứu, đề xuất phương pháp tăng cường liệu huấn luyện cho mơ hình học sâu phân vùng polyp ảnh nội soi đại tràng nhằm khắc phục tình trạng thiếu liệu huấn luyện có gán nhãn phân vùng polyp Phương pháp nghiên cứu Phương pháp nghiên cứu luận án kết hợp nghiên cứu lý thuyết với nghiên cứu thực nghiệm - Về lý thuyết: Nghiên cứu tổng quan kỹ thuật học sâu thị giác máy tính để tốn phân vùng polyp ảnh nội soi đại tràng Nghiên cứu, khảo sát liệu ảnh nội soi đại tràng chuẩn cơng trình nghiên cứu khoa học có liên quan ngồi nước Nghiên cứu kỹ thuật tăng cường liệu, học chuyển giao, học bán giám sát, không giám sát áp dụng để giải vấn đề thiếu liệu ảnh nội soi có gán nhãn phân vùng poly cho huấn luyện mô hình học sâu -Về thực nghiệm: Khảo sát liệu ảnh nội soi đại tràng chuẩn công bố cộng đồng nghiên cứu Cài đặt thử nghiệm kỹ thuật đề xuất, lựa chọn liệu huấn luyện thử nghiệm liệu chuẩn phổ biến với ngữ cảnh sử dụng liệu đa dạng Đồng thời tiến hành so sánh, đánh giá phương pháp đề xuất với công trình cơng bố sử dụng độ đo đánh giá độ xác mơ hình phân vùng đối tượng chuẩn phổ biến 5 Ý nghĩa khoa học thực tiễn Việc nghiên cứu kỹ thuật học sâu cho phân vùng polyp ảnh nội soi đại tràng luận án có ý nghĩa hai phương diện khoa học thực tiễn: Về khía cạnh khoa học: Luận án đề xuất 03 đóng góp để giải tốn phân vùng polyp ảnh nội soi đại bao gồm: -Đề xuất mơ hình học sâu phân vùng polyp ảnh nội soi đại tràng CRFEfficientUNet Mơ hình mở rộng từ mạng UNet với mã hóa EfficientNet tích hợp lớp CRF-RNN sử dụng hàm mát bất đối xứng kết hợp AsymCE luận án đề xuất -Đề xuất phương pháp học tự giám sát đặc trưng thị giác ảnh nội soi đại tràng cho cho phân vùng polyp dựa tác vụ tái tạo ảnh nội soi - Đề xuất phương pháp sinh ảnh nội soi đại tràng giả lập có nhãn phân vùng polyp sử dụng mạng sinh liệu đối nghịch có điều kiện, nhằm tăng cường liệu huấn luyện cho mơ hình học sâu phân vùng polyp ảnh nội soi đại tràng Các đề xuất thử nghiệm đánh giá dựa 04 liệu chuẩn công bố cho mơ hình học máy với kịch sử dụng liệu cho huấn luyện kiểm thử đa dạng Luận án sử dụng phương pháp đánh giá dựa độ đo áp dụng phổ biến Bên cạnh đó, luận án tiến hành so sánh hiệu mơ hình đề xuất với mơ hình cơng gần đây, kết so sánh cho thấy mơ hình đề xuất vượt trội tính xác tính tổng quát tất liệu thử nghiệm Về khía cạnh thực tiễn: Các kết nghiên cứu luận án mô hình hóa biểu diễn sở tốn học cài đặt thử nghiệm module phần mềm Các modul sử dụng để xây dựng ứng dụng tự động phân vùng polyp ảnh nội soi đại tràng với độ xác cao, giúp bác sỹ giảm thiểu sai sót trình nội soi đại tràng, tiết kiệm thời gian công sức bác sỹ thực thủ thuật nội soi đại tràng để sàng lọc phát ung thư đại tràng sớm Hơn nữa, với điều kiện hệ thống y tế Việt Nam, nguồn nhân lực chất lượng cao lĩnh vực chẩn đoán nội soi đại tràng hiếm, ứng dụng phân tích ảnh nội soi đại tràng tự động phát phân vùng polyp, hỗ trợ bác sỹ chẩn đoán nội soi triển khai bệnh viện, trạm y tế tuyến sở đem lại lợi ích to lớn 6 Bố cục luận án Luận án gồm 04 chương nội dung với phần mở đầu, kết luận, danh mục cơng trình cơng bố NCS tài liệu tham khảo Chương Tổng quan toán phân vùng polyp ảnh nội soi đại tràng kỹ thuật học sâu Chương trình bày tổng quan tốn phân tích ảnh nội soi đại tràng, hướng nghiên cứu liệu ảnh nội soi chuẩn công bố cho mơ hình học máy Phần cuối chương trình bày kiến thức sở kỹ thuật học sâu kỹ thuật thị giác máy tính cần dùng luận án Chương Mơ hình học sâu phân vùng polyp ảnh nội soi đại tràng dựa mạng Unet cải tiến với hàm mát bất đối xứng kết hợp Nội dung chương trình bày đóng góp luận án là: xây dựng mơ hình học sâu phân vùng polyp ảnh nội soi đại tràng dựa kiến trúc mạng Unet cải tiến đề xuất hàm mát dùng cho huấn luyện mơ hình học sâu phân vùng đối tượng ảnh với liệu huấn luyện không cân Chương Phương pháp học tự giám sát đặc trưng thị giác ảnh nội soi đại tràng cho phân vùng polyp thông qua tác vụ tái tạo ảnh Chương trình bày đề xuất luận án phương pháp học tự giám sát đặc trưng thị giác ảnh nội soi đại tràng cho phân vùng polyp thông qua tác vụ tái tạo ảnh nội soi, sử dụng tập liệu ảnh nội soi đại tràng không gán nhãn thu thập từ hệ thống PACS Bệnh viện Quân y 103 Chương Phương pháp sinh liệu ảnh nội soi có nhãn phân vùng polyp dựa mạng sinh liệu có điều kiện Chương luận án đề xuất phương pháp sinh ảnh nội soi có chứa polyp nhằm tăng cường liệu ảnh nội soi đại tràng có gán nhãn phân đoạn polyp cho huấn luyện mơ hình học sâu phân vùng polyp Phương pháp đề xuất tạo nhiều ảnh nội soi chứa polyp khác từ ảnh nội soi đại tràng bình thường khơng chứa polyp Các liệu giả lập sinh dùng để tăng cường liệu huấn luyện cho mô hình học sâu phân vùng polyp nhằm cải thiện độ xác mơ hình phân vùng 7 CHƯƠNG TỔNG QUAN VỀ BÀI TOÁN PHÂN VÙNG POLYP TRÊN ẢNH NỘI SOI ĐẠI TRÀNG 1.1 Bài toán tự động phân vùng polyp ảnh nội soi đại tràng 1.1.1 Giới thiệu toán Nội soi đại tràng kiểm tra sử dụng để phát đối tượng bất thường ruột già (đại tràng) trực tràng [42] Phương pháp dị tìm polyp bất thường nguyên nhân gây nên ung thư Để tiến hành nội soi đại tràng bác sĩ dùng ống soi mỏng gắn camera đèn soi Ống nội soi đưa vào từ hậu mơn qt tồn đại tràng Hình ảnh thu từ camera phóng đại hình màu có độ nét cao, cho phép bác sĩ quan sát kỹ bên đại tràng, phát đối tượng bất thường Hình 1.1 minh họa thủ thuật nội soi đại tràng Hình 1.1 Minh họa thủ thuật nội soi đại tràng [12] Nội soi thủ thuật hiệu làm giảm đáng kể tỷ lệ mắc tử vong ung thư Tuy nhiên, qui trình nội soi bác sỹ thực quan sát mắt thường để dị tìm đối tượng bất thường nên chất lượng thủ thuật nội soi phụ thuộc hoàn toàn vào tay nghề, kinh nghiệm tập trung bác sĩ nội soi Các nghiên cứu gần tỷ lệ bỏ sót polyp trình nội soi đại trực tràng bác sĩ khoảng 25% 1/13 số bệnh nhân ung thư đại trực tràng không phát chẩn đốn nội soi [42] Có nhiều nguyên nhân gây nên tỉ lệ lỗi cao trình nội soi có ngun nhân kỹ điều hướng camera bác sỹ chưa thành thạo dẫn tới không kiểm tra khu vực khó tiếp cận đại tràng nơi chứa polyp tập trung không quan sát kỹ lưỡng chi tiết hình ảnh bác sỹ dẫn tới bỏ sót polyp [42] Ngồi khả phát polyp bác sỹ cịn phụ thuộc vào chất lượng hình ảnh thu hệ thống nội soi Một số hệ thống nội soi có chế độ tăng cường ánh sáng giúp bác sỹ quan sát rõ dễ dàng dị tìm polyp Hệ thống hỗ trợ chẩn đốn máy tính gọi tắt CADx (ComputerAided Diagnosis), tự động phân tích ảnh, phát hiện, phân vùng polyp hình ảnh thu từ camera nội soi cảnh báo cho bác sỹ q trình nội soi cơng cụ hiệu quả, hỗ trợ bác sỹ giảm thiểu tỷ lệ sai sót q trình nội soi đại tràng chuẩn đoán ung thư trực tràng giúp, thực thủ thuật nội soi đại tràng tầm soát ung thư đại tràng nhanh với độ xác cao hơn, nâng cao hiệu suất làm việc bác sỹ Hình 1.2 minh họa cho hệ thống CADx hỗ trợ chuẩn đốn nội soi đại tràng Hình 1.2 Hệ thống CADx hỗ trợ chuẩn đoán nội soi đại tràng [16] Hệ thống CADx phân tích ảnh nội soi đại tràng nhận đầu vào ảnh nội soi đại tràng thu từ camera nội soi phân tích ảnh sử dụng kỹ thuật thị giác máy để tự động phát polyp (Real time polyp detection, polyp localization) khoanh vùng chúng ảnh (polyp segmentation), phân tích đặc trưng polyp (region content analysis) hỗ trợ chẩn đoán bệnh trình nội soi đại tràng Các kỹ thuật thị giác máy để phân tích ảnh nội soi đại tràng cần phải giải tốn thị giác máy tính sau: phân loại ảnh (classification), phát đối tượng ảnh (object detection), phân vùng đối tượng ảnh (object segmentation), phân loại đối tượng (object classification) - Phân loại ảnh: đầu vào ảnh nội soi đại tràng, đầu phân loại ảnh có chứa polyp không chứa polyp - Phát đối tượng: phát polyp, xác định vị trí nhận biết vùng chứa ảnh - Phân vùng đối tượng: phân vùng polyp, xác định hình dạng kích thước chúng ảnh -Phân loại đối tượng: phân loại polyp hỗ trợ chẩn đoán bệnh dựa đặc trưng vùng polyp Để xây dựng hệ thống CADx này, nhà nghiên cứu tập trung vào nghiên cứu đề xuất mơ hình học máy kỹ thuật thị giác máy tính tự để tự động phân tích ảnh nội soi đại tràng, phát phân vùng polyp cách nhanh chóng, xác Giải trọn vẹn tốn phân tích ảnh nội soi đại tràng vấn đề khó đồ sộ, địi hỏi phải nghiên cứu lâu dài Luận án tập trung vào toán phân vùng polyp ảnh nội soi đại tràng với ảnh nội soi chụp ánh sáng trắng thông thường hệ thống nội soi không sử dụng chế độ tăng cường ảnh Đầu vào toán ảnh nội soi đại tràng chụp với ánh sáng trắng, đầu phân vùng ngữ nghĩa ảnh đó, pixel ảnh phân lớp nhị phân, thành pixel thuộc lớp polyp pixel thuộc lớp polyp Nhãn phân vùng polyp ảnh nhị phân thể hình dạng polyp, gọi polyp mask, vùng polyp có giá trị 1, vùng khơng phải polyp có giá trị Hình 1.3 ví dụ phân vùng polyp ảnh nội soi đại tràng Hình 1.3 Phân vùng polyp ảnh nội soi đại tràng: (a) Ảnh đầu vào, (b) Kết phân vùng polyp, (c): Hiển thị trực quan phát phân vùng poly 10 Phân vùng polyp tác vụ cần thiết ứng dụng hỗ trợ chẩn đoán lâm sàng, hỗ trợ bác sỹ tập trung vào khu vực polyp tiềm ẩn, trích rút thơng tin chi tiết polyp hỗ trợ bác sỹ đánh giá tổn thương định loại bỏ polyp cần thiết Hệ thống CADx tự động phân vùng polyp hỗ trợ bác sỹ theo dõi tăng khả chẩn đốn xác giảm thiểu can thiệp thủ cơng Hơn nữa, làm giảm lỗi phân vùng polyp so với thực thủ cơng người Hệ thống làm giảm khối lượng công việc cải thiện quy trình làm việc bác sĩ Phân vùng polyp tự động giúp bác sỹ điều hướng ống nội soi tập trung vào vùng nghi ngờ q trình nội soi Do hệ thống CADx tự động phân vùng polyp sử dụng công cụ hỗ trợ bác sỹ giảm thiểu lỗi bỏ sót polyp nội soi đại tràng Phân vùng polyp cách xác tác vụ khó polyp có hình dạng, kích thước, màu sắc kết cấu đa dạng Khi nghiên cứu phát triển kỹ thuật thị giác máy tính tự động phân vùng polyp ảnh nội soi đại tràng có số khó khăn phải giải quyết: -Một là, hình ảnh polyp có mức độ biến thể lớn hình dạng, kích thước, kết cấu màu sắc Thêm vào camera nội soi chuyển động q trình nội soi làm cho ảnh bị mờ, ảnh bị chói chất lượng hình ảnh thấp Hình 1.4 số ví dụ trường hợp khó phân vùng polp Hình 1.4 Các trường hợp khó phân vùng polyp: (a) polyp có hình dạng, kích thước, màu sắc kết cấu đa dạng, (b) polyp nhỏ khó nhìn thấy, (c) ảnh mờ, chói, chất lượng ảnh thấp, đại tràng chưa làm nội soi 11 - Hai là, liệu ảnh nội soi đại tràng liệu không cân bằng, tức số lượng liệu thuộc lớp polyp (dương tính) nhiều so với lớp bình thường khơng phải polyp (âm tính) Hình 1.5 minh họa liệu không cân bằng, pixel thuộc lớp không polyp lớn nhiều so với số lượng pixel thuộc lớp polyp Mơ hình huấn luyện liệu khơng cân đưa dự đốn bị lệch phía lớp khơng phải polyp, điều khơng mong muốn hậu dự đốn âm tính sai đặc biệt nghiêm trọng so với dự đốn dương tính giả Hình 1.5 Ví dụ minh họa liệu khơng cân - Ba là, thiếu hụt tập liệu ảnh nội soi gán nhãn phân vùng polyp đủ lớn, việc gán nhãn phân vùng polyp cho ảnh nội soi đại tràng phải thực chuyên gia chẩn đoán ảnh nội soi lành nghề, việc đòi hỏi nhiều thời gian, công sức Hơn nữa, yếu tố hạn chế khác thiếu hụt mẫu liệu huấn luyện đa dạng, tập liệu có nhiều ảnh, ảnh thường trích xuất từ số lượng nhỏ chuỗi video nội soi, chuỗi video nội soi chứa loại polyp chụp từ góc nhìn khác Để vượt qua khó khăn này, địi hỏi có nghiên cứu chun sâu để tìm hướng giải toán khác Hiện giới có nhiều nhóm nghiên cứu tập trung vào toán phân vùng polyp ảnh nội soi đại tràng đạt số kết quả, nhiên kết đạt chưa đủ thuyết phục để ứng dụng rộng rãi y tế 12 1.1.2 Các liệu ảnh nội soi đại tràng chuẩn công bố Trong năm gần đây, tốn phân tích ảnh nội soi đại tràng tự động phát hiện, phân vùng polyp quan tâm nghiên cứu rộng rãi Các nhóm nghiên cứu ngồi việc đưa mơ hình thuật tốn giải tốn cịn cơng bố liệu ảnh soi đại tràng chuẩn để dùng cho mơ hình học máy Điều tạo điều kiện để nghiên cứu giải toán thuận lợi nhiều Luận án tiến hành khảo sát số liệu ảnh nội soi chuẩn công bố công khai sử dụng rộng rãi nay, từ lựa chọn liệu phù hợp cho nghiên cứu Phần tổng quan liệu nội soi đại tràng phổ biến nay: - CVC-ClinicDB [8] gồm 612 ảnh kích thước (384x384) ảnh cắt từ video nội soi 29 bệnh nhân khác nhau, ảnh có polyp với 31 loại polyp khác Các ảnh liệu gán nhãn polyp mask Hình 1.6 số ảnh nội soi đại tràng nhãn phân vùng polyp tương ứng Dữ liệu ảnh nội soi liệu cung cấp Hospital Clinic, Barcelona, Tây Ban Nha, nhãn polyp mask cung cấp Trung tâm thị giác máy tính, đại học Antonoma (UBA), Bacelona, Tây Ban Nha Bộ liệu công bố cho phép sử dụng cho mục đích nghiên cứu đào tạo Hình 1.6 Ví dụ minh họa liệu CVC-ClinicDB - CVC-ColonDB [67] liệu cung cấp trung tâm thị giác máy tính, đại học Antonoma (UBA), Bacelona, Tây Ban Nha Bộ liệu gồm 300 ảnh nội soi đại tràng, kích thước 574× 500, cắt từ 15 video nội soi đại tràng, gán nhãn phân vùng polyp chuyên gia y tế 13 - Kvasir-Seg [33] liệu ảnh nội soi đại tràng có gán nhãn phân vùng polyp cơng bố Simula Research Laboratory Bộ liệu bao gồm 1000 ảnh với kích thước thay đổi từ (332 × 482) đến (1920× 1072) Các ảnh gán nhãn polyp mask vùng chứa polyp (polyp bounding box) Hình 1.7 số ảnh nội soi đại tràng nhãn tương ứng liệu Dữ liệu thu thập từ Vestre Viken Health Trust tổ chức gồm bệnh viện thuộc Na uy, gán nhãn bác sỹ nội soi bệnh viện đại học Oslo thuộc Na uy (Oslo University Hospital) Đây liệu mở cho phép sử dụng cơng khai cho mục đích nghiên cứu đào tạo Hình 1.7 Ví dụ minh họa liệu Kvasir-Seg - ASU-Mayo Clinic Colonoscopy Video [78] sở liệu video nội soi đại tràng thu thập Khoa Tiêu hóa Bệnh viện Mayo, Arizona, Mỹ, có video ca bệnh có chứa polyp video nội soi đại tràng ca bệnh không chứa polyp Các video đa dạng bao gồm nhiều dạng xuất nội soi đại tràng: Một số video có độ phân giải cao, số khác có độ phân giải thấp hơn, số video ghi lại trình kiểm tra cẩn thận tỉ mỉ, video khác lại ghi lại trình kiểm tra nhanh, số video có hình ảnh dụng cụ phẫu thuật Các ảnh nội soi liệu gán nhãn polyp mask, nhãn gán sinh viên y khoa đại học bang Arizona, Mỹ kiểm tra lại chuyên 14 gia y tế Đây liệu bảo vệ quyền đại học bang Arizona, Mỹ sử dụng cần phải xin phép - ETIS-Larib [8] liệu gồm 196 ảnh với kích thước 1225× 966 cắt từ 36 video nội soi khác nhau, ảnh gán nhãn phân vùng polyp chuyên gia y tế Bộ liệu cung cấp thi “2015 MICCAI automatic polyp detection sub-challenge” [17] để làm liệu kiểm thử Trong cộng đồng nghiên cứu, liệu nêu liệu ảnh nội soi đại tràng gán nhãn phân vùng polyp phổ biến, cịn có số liệu ảnh nội soi cho mục đích nghiên cứu khác khác như: phát hiện, phân vùng dụng cụ phẫu thuật, phát phân loại bệnh dựa ảnh nội soi tiêu hóa, phát phân vùng đối tượng bất thường ảnh nội soi tiêu hóa, phân loại mức độ làm đại tràng nội soi… Bảng trình bày tổng hợp liệu ảnh nội soi đại tràng chuẩn cơng bố cho mơ hình học máy Bảng 1.1 Các liệu ảnh nội soi đại tràng chuẩn cơng bố cho mơ hình học máy STT Tên liệu Số lượng Loại nhãn Phân vùng polyp CVC-ClinicDB [8] CVC-ColonDB [67] ASU-Mayo [78] 612 ảnh Phân vùng polyp Phát hiện, Có phân vùng polyp Polyp mask Phát hiện, Không phân vùng polyp 300 ảnh 20 video Cơ sở liệu Tác vụ mở Phát hiện, Có phân vùng polyp 15 Polyp mask ETIS-Larib [8] 196 ảnh Kvasir-Seg [33] 1.000 ảnh Polyp mask, Polyp Phát hiện, Có bounding box phân vùng polyp loại Có 8.000 ảnh Polyps,esophagitis, Phân ulcerative colitis, z- ảnh line, ylorus, cecum, dyed polyp, dyed, stool, resection margins 16 lớp cho ảnh nội Phân 110.079 soi tuyến tiêu hóa ảnh ảnh và 24 lớp cho ảnh nội soi tuyến tiêu 373 hóa phía video loại Có 4.820.73 13 lớp khác Phân ảnh bất thường ảnh ảnh nội soi tiêu hóa 118 video loại Có Kvasir [53] Hyper-Kvasir [10] KvasirCapsule [69] Kvasir-Instrument [30] 10 Phát hiện, Có phân vùng polyp GLRC [45] 590 ảnh 76 video Dụng cụ phẫu thuật Phân vùng Có nội soi đại tràng đối tượng lớp bất thường Phân ảnh nội soi tiêu ảnh hóa: serrated adenoma, hyperplastic lesions, adenoma loại Có 16 11 12 EAD2019 [3] EDD 2020 [2] 2147 ảnh Các lớp đối tượng xuất ảnh nội soi tiêu hóa: specular, saturation, artifact, blur, contrast, bubbles, instrument Phát Có đối tượng, phân vùng đối tượng 386 ảnh Polyp, Barrett’s esophagus, highgrade dysplasia, suspicious, cancer Phát Có đối tượng, Phân vùng đối tượng Sau khảo sát phân tích kỹ lưỡng liệu ảnh nội soi công bố NCS nhận thấy liệu khác độ phân giải ảnh, màu sắc, độ sáng ảnh Điều phần lớn cách thiết lập đặc điểm ảnh khác hệ thống nội soi sử dụng Ngồi cịn có khác số lượng ảnh, loại nhãn gán cho ảnh, mục đích sử dụng Tuy nhiên, liệu mẫu liệu khơng đa dạng, liệu có nhiều ảnh ảnh lại cắt từ số lượng nhỏ video nội soi, video nội soi chứa loại polyp quay góc nhìn khác Một số video khơng có thay đổi đáng ý 1.000 khung hình, có dư thừa đáng kể liệu Điều gây khó khăn lớn cho việc huấn luyện mơ hình liệu, đặc biệt mơ hình học sâu, địi hỏi tập lớn ảnh nội soi có khác biệt để huấn luyện mơ hình có tính tổng qt hóa tốt 1.2 Kỹ thuật học sâu cho phân vùng đối tượng ảnh 1.2.1 Kỹ thuật học sâu - Khái niệm học sâu (deep-learning): Học sâu họ phương pháp học máy, bao gồm mạng nơ-ron, mơ hình xác suất phân cấp, thuật toán học [41] Học sâu thúc đẩy bước tiến lớn loạt toán thị giác máy tính, phát đối tượng (object detection), theo dõi chuyển động (motion tracking), nhận dạng hành động (action recognition), đánh giá tư 17 người (human pose estimation) phân vùng ảnh theo ngữ nghĩa (semantic segmentation) - Học có giám sát, học khơng giám sát, học bán giám sát: Dựa theo phương thức học, kỹ thuật học sâu thường chia làm thường chia làm nhóm: Học có giám sát (Supervised learning), Học không giám sát (Unsupervised learning), Học bán giám sát (Semi-supervised learning) Học có giám sát thuật toán dự đoán đầu (outcome) liệu (new input) dựa cặp (input, outcome) biết từ trước Cặp liệu biết gọi (dữ liệu, nhãn) Một cách toán học, học có giám sát chúng có tập hợp biến đầu vào 𝑋 = {𝑥1 , 𝑥2 , … 𝑥𝑁 } tập nhãn tương ứng 𝑌 = {𝑦1 , 𝑦2 , … 𝑦𝑁 } 𝑥𝑖 , 𝑦𝑖 vec tơ Cặp liệu biết trước (𝑥𝑖 , 𝑦𝑖 ) ⁡ ∈ 𝑋 × 𝑌 gọi liệu huấn luyện (training data) Từ tập liệu huấn luyện, cần tạo (xấp xỉ) hàm số ánh xạ phần tử từ tập 𝑋 sang phần tử tương ứng thuộc tập 𝑌: 𝑦𝑖⁡ ≈ 𝑓(𝑥𝑖 ⁡)⁡⁡⁡⁡⁡∀𝑖 = 1,2, … 𝑁⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡ Mục đích xấp xỉ hàm số hàm f tốt để có liệu x mới, tính nhãn tương ứng 𝑦 = 𝑓(𝑥) Học khơng giám sát (Unsupervised Learning): Học không giám sát có liệu vào 𝑋 mà khơng biết nhãn 𝑌⁡tương ứng Học bán giám sát (Semi-Supervised Learning) Các phương pháp học trường hợp có lượng lớn liệu X phần chúng gán nhãn gọi học bán giám sát Thực tế cho thấy nhiều toán học máy thuộc vào nhóm việc thu thập liệu có nhãn tốn nhiều thời gian có chi phí cao, phân tích ảnh y tế ví dụ, cần phải có chuyên gia gán nhãn liệu, ngược lại, liệu chưa có nhãn thu thập với chi phí thấp từ hệ thống PACS - Mạng nơ ron tích chập Kiến trúc mơ hình học sâu tảng ứng dụng thị giác máy tính là: Mạng nơ-ron tích chập (Convolutional Neural Network- CNN) [41] Mỗi 18 mạng nơ-ron tích chập gồm loại lớp chính: lớp tích chập (convolutional layers), lớp hợp (pooling layers) lớp kết nối đầy đủ (fully connected layers) Mỗi loại lớp đóng vai trị khác mạng Kiến trúc mạng CNN thực ý tưởng là: trường tiếp nhận cục (local receptive fields), buộc trọng số (tied weights) giảm chiều không gian (spatial subsampling) [22] Sự thành công mạng học sâu lĩnh vực thị giác máy có phần đóng góp đáng kể mạng CNN tiêu biểu AlexNet [40], VGG[68], Inception (GoogleLeNet) [75], ResNet [25], MobileNet [63] , EfficientNet [80] Các mạng CNN mạng phân loại ảnh, nhóm nghiên cứu thiết kế huấn luyện số liệu ảnh tổng quát lớn ImageNet, chúng gọi mơ hình huấn luyện sẵn (pretrained model) Các mơ hình huấn luyện sẵn thường sử dụng làm làm trích rút đặc trưng cho mơ hình học sâu để giải tốn thị giác máy tính - Các thuật tốn tối ưu Các thuật tốn tối ưu tảng sở để xây dựng mơ hình mạng nơ-ron với mục tiêu “học” đặc trưng (features/patterns) từ liệu đầu vào, từ tìm tập các trọng số (weights) W tham số nội mơ hình (internal model parameters) hay bias b để tối ưu độ xác mơ hình, tức cực tiểu giá trị hàm mát (loss function) mơ hình Đối với mơ hình học sâu, thường định nghĩa hàm mát (loss function), sau sử dụng thuật tốn tối ưu nhằm cực tiểu hóa hàm mát Các mạng nơ-ron tích chập hỗ trợ thuật toán tối ưu quan trọng thuật toán hạ gradient, gọi tắt thuật toán GD (GD- Gradient Descent) [60] GD thuật toán tối ưu lặp (iterative optimization algorithm) với mục tiêu tìm tập biến nội (internal parameters) cho việc tối ưu mơ hình Cơng thức cập nhật cho GD viết là: 𝑤 ← 𝑤 − η∇𝑤 𝑓(𝑤) (1.1) ,với 𝑤 tập biến cần cập nhật, η tốc độ học (learning rate), ∇𝑤 𝑓(𝑤) Gradient hàm mát 𝑓 theo tập trọng số w 19 Tốc độ học η thiết lập thiết kế thuật toán Chọn tốc độ học η “vừa đủ” khó Nếu chọn giá trị q nhỏ, ta khơng có tiến triển Nếu chọn giá trị lớn, nghiệm dao động trường hợp tệ nhất, chí phân kỳ - Thuật toán Adam [38] thuật toán tối ưu dựa GD, kết hợp tất cải tiến thuật toán nêu thành thuật toán học hiệu Đây thuật toán tối ưu mạnh mẽ hiệu sử dụng phổ biến học sâu Một thành phần Adam trung bình động trọng số mũ (hay cịn gọi trung bình rị rỉ) để ước lượng động lượng mơ-men bậc hai gradient Cụ thể, sử dụng biến trạng thái: 𝑣𝑡 ← 𝛽1 𝑣𝑡−1 + (1 − 𝛽1 )𝑔𝑡 𝑠𝑡 ← 𝛽2 𝑠𝑡−1 + (1 − 𝛽2 )𝑔𝑡2 (1.2) Với 𝛽1 ⁡, 𝛽2 tham số trọng số không âm, thường đặt 𝛽1 = 0.9 𝛽2 = 0.999 điều có nghĩa cần chọn ước lượng phương sai di chuyển chậm nhiều so với số hạng động lượng Nếu khởi tạo 𝑣0 = 𝑣𝑥 = thuật tốn có độ lệch ban đầu đáng kể giá trị nhỏ hơn, ta sử dụng ∑𝑡𝑖=0 𝛽𝑖 = hóa lại là: 1−𝛽𝑡 1−𝛽 để chuẩn hóa lại số hạng Các biến trạng thái sau chuẩn 𝑣̂𝑡 = 𝑣𝑡 1−𝛽1𝑡 𝑠̂𝑡 = Giá trị gradient điều chỉnh lại: 𝑔𝑡′ = 𝜂𝑣̂𝑡 √𝑠̂𝑡 +𝜖 𝑠𝑡 1−𝛽2𝑡 (1.3) (1.4) Trong công thức thông thường 𝜖 = 10−6 Tổng hợp công thức lại ta có cơng thức cập nhật cho trọng số bước lặp là: 𝑤𝑡 = 𝑤𝑡−1 − 𝑔𝑡′ (1.5) 1.2.2 Kỹ thuật học chuyển giao Kỹ thuật học chuyển giao (TL- Transfer Learning) [87] thúc đẩy thực tế người áp dụng cách thông minh tri thức học trước để giải vấn đề nhanh với giải pháp tốt Động lực học chuyển giao lĩnh vực học máy nhu cầu phương pháp học máy dài hạn trì tái sử dụng tri thức học trước đây, để thiết bị thơng minh thích nghi với mơi trường 20 tác vụ cách hiệu với giám sát người Về mặt tốn học định nghĩa học chuyển giao sau: Định nghĩa học chuyển giao [87]: Cho 𝒟𝑆 lĩnh vực học nguồn, 𝑇𝑆 tác vụ học nguồn, 𝒟𝑇 ⁡là lĩnh vực học đích, 𝑇𝑇 tác vụ học đích, 𝒟𝑆 ≠ 𝒟𝑇 𝑇𝑆 ≠ 𝑇𝑇 Học chuyển giao nhằm cải thiện hàm dự đốn đích 𝑓𝑇 (∙) lĩnh vực 𝒟𝑇 sử dụng tri thức 𝒟𝑆 𝑇𝑆 Trong định nghĩa lĩnh vực biểu diễn cặp 𝒟 = {𝑋, 𝑃(𝑥)}, điều kiện 𝒟𝑆 ≠ 𝒟𝑇 có nghĩa 𝑋𝑆 ≠ 𝑋𝑇 𝑃(𝑥𝑆 ) ≠ 𝑃(𝑥𝑇 ) , tương tự tác vụ 𝑇 = {𝑌, 𝑃(𝑦|𝑥)} điều kiện 𝑇𝑆 ≠ 𝑇𝑇 có nghĩa 𝑌𝑆 ≠ 𝑌 𝑃(𝑦𝑆 |𝑥𝑆 ) ≠ 𝑃(𝑦𝑇 |𝑥𝑇 ) Học chuyển giao mơ hình học sâu: Các mạng nơ-ron sâu dùng đòi hỏi lượng liệu huấn luyện lớn để chúng tổng quát hóa tốt Tuy nhiên, tình thực tế, có số lĩnh vực liệu huấn luyện đầy đủ khơng có sẵn ví dụ phân tích ảnh y tế, việc chuyển tri thức từ lĩnh vực sang lĩnh vực khác trở thành kỹ thuật sử dụng phổ biến phương pháp học sâu Ý tưởng đằng sau kỹ thuật học chuyển tập liệu ảnh lĩnh vực đích khác với tập liệu ảnh lĩnh vực nguồn, đặc trưng mức thấp (ví dụ: góc cạnh, bề mặt, hình dáng, kết cấu vật thể) phổ biến cho hầu hết tác vụ phân vùng ảnh Do đó, chuyển giao tham số (tức trọng số mạng nơ-ron sâu) coi tập hợp đặc trưng mạnh giúp giảm nhu cầu tập liệu huấn luyện gán nhãn lớn rút ngăn thời gian huấn luyện chi phí tính tốn Với mơ hình học sâu kỹ thuật học chuyển giao phân loại theo hai hướng tiếp cận sau: (1) trích rút đặc trưng (Feature-extraction) từ liệu lĩnh vực nguồn sử dụng cho tác vụ lĩnh vực đích (2) tinh chỉnh (finetuning) mạng tiền huấn luyện liệu lĩnh vực nguồn để thực tác vụ lĩnh vực đích [81] (1) Học chuyển giao theo cách tiếp cận trích rút đặc trưng sử dụng cho tác vụ lĩnh vực đích: Cách tiếp cận sử dụng mơ hình CNN 21 huấn luyện tốt tập liệu lớn (ví dụ: ImageNet) làm cơng cụ trích xuất đặc trưng cho tác vụ lĩnh vực đích Một số mạng CNN dựng sẵn (pre-trained CNN) phổ biến Pre-trained CNN mạng nơ-ron tích chập dùng cho phân loại ảnh CNN huấn luyện tốt tập liệu lớn (ví dụ: ImageNet) bỏ lớp phân loại cuối để thành trích rút đặc trưng (feature extractor) Mơ số mạng pre-trained CNN tiêu biểu kể là: MobileNet [63], mạng Resnet [25] họ mạng EfficientNets [80] (2) Học chuyển giao theo cách tiếp cận tinh chỉnh trọng số mạng tiền huấn luyện để thực tác vụ lĩnh vực đích: phương pháp tác vụ nguồn, tác vụ đích giống (ví dụ tác vụ phân vùng ngữ nghĩa ảnh), mạng tiền huấn luyện lĩnh vực nguồn thay đổi tinh chỉnh lại liệu lĩnh vực đích 1.2.3 Mạng học sâu phân vùng đối tượng ảnh Trong lĩnh vực thị giác máy tính, phân vùng đối tượng ảnh (image segmentation), gọi phân vùng ảnh ngữ nghĩa ảnh, trình chia ảnh số thành nhiều phần (tập hợp điểm ảnh) khác nhau, tức phân chia ảnh thành vùng với ngữ nghĩa khác Các vùng ngữ nghĩa gán nhãn dự đốn đối tượng mức độ điểm ảnh Mục tiêu phân vùng ảnh ngữ nghĩa ảnh để đơn giản hóa thay đổi biểu diễn ảnh để có ý nghĩa mặt cụ thể dễ dàng để phân tích Những năm gần đây, phân vùng ảnh dựa kỹ thuật học sâu nhận quan tâm rộng rãi cho kết vượt trội so với phương pháp phân vùng ảnh cổ điển - Kiến trúc chung mơ hình học sâu phân vùng ảnh Các mơ hình học sâu học mẫu trực quan đầu vào để dự đoán lớp đối tượng pixel tạo nên ảnh kiến trúc bao gồm hai thành phần mã hóa (encoder), giải mã (decoder) Hình 1.8 minh họa mạng học sâu cho phân vùng ảnh Trong mã hóa dùng để trích rút đồ đặc trưng (feature map) ảnh, làm giảm chiều liệu việc sử dụng lớp convolutions lớp poolings, giải mã dùng để phục hồi lại kích thước ban đầu ảnh 22 Hình 1.8 Kiến trúc mơ hình học sâu phân vùng ảnh [74] Bộ mã hóa thường mạng CNN phân loại ảnh bỏ lớp kết nối đầy đủ (layer fully connected) cuối Chúng ta sử dụng mạng pretrained VGG16, MobileNet, Resnet, làm mã hóa, cịn giải mã tùy vào kiến trúc mơ hình mà ta xây dựng khác Các mã hóa có khả tự động học đặc trưng cấp cao thông qua trình downsampling từ lớp sang lớp khác, làm giảm chiều liệu Kích thước ảnh khơi q trình upsampling phép giải tích chập (deconvolution) giải mã Một số kiến trúc mạng học sâu cho phân vùng đối tượng ảnh tiếng kể Mask R-CNN [26], FCN (Fully Convolutional Networks) [43], UNet [59] , DeepLab [15], SegNet [6] Trong số kiến trúc UNet kiến trúc sử dụng rộng rãi để giải toán phân vùng ngữ nghĩa ảnh y tế Đây kiến trúc mạng mà luận án lựa chọn để giải toán phân vùng polyp ảnh nội soi đại tràng Phần trình bày chi tiết kiến trúc mạng - Kiến trúc mạng UNet UNet kiến trúc phát triển Olaf Ronneberger cộng [59] nhằm phân vùng cấu trúc nơ ron thần kinh não người ảnh chụp kính hiển vi điện tử Unet sử dụng rộng rãi cho tốn phân vùng ảnh y tế Hình 1.9 mô tả kiến trúc ban đầu mạng Unet 23 Hình 1.9 Kiến trúc mạng UNet [59] Mạng UNet gồm hai nhánh đối xứng Nhánh thứ phía bên trái, gọi mã hóa, nhánh thứ hai phía bên phải, gọi giải mã Ngồi ra, UNet có kết nối mã hóa giải mã Bộ mã hóa (Encoder): Làm nhiệm vụ trích lọc đặc trưng để tìm bối cảnh ảnh Bộ mã hóa mạng nơ-ron tích chập sâu để trích lọc đặc trưng ảnh đầu vào Qua mã hóa kích thước dài rộng đầu vào lớp giảm dần, vẽ ta thấy từ kích thước đầu vào 572x572 32x32 lớp cuối cùng, đồng thời độ sâu tăng dần từ lên 512 Bộ giải mã (Decoder): Gồm lớp đối xứng tương ứng với lớp mã hóa Q trình Upsampling áp dụng để kích thước đầu tăng dần qua lớp sau ta thu ảnh mask đánh dấu nhãn dự báo điểm ảnh Kết nối mã hóa giải mã (Skip conncection): Đặc trưng riêng cấu trúc UNet áp dụng kết nối tắt lớp đối xứng hai nhánh bên trái bên phải Với kết nối mô hình tránh việc đạo hàm bị triệt tiêu (vanishing gradient) mang thông tin đặc trưng không gian cần thiết từ lớp mã hóa sang giải mã 1.2.4 Đánh giá phương pháp phân vùng đối tượng ảnh Để đánh giá phương pháp phân vùng đối tượng ảnh độ đo thường sử dụng điểm số Dice (Dice score) [94] số IoU (IoU 24 index) [7] cịn gọi số Jacard Ngồi phân vùng đối tượng ảnh chất phân loại pixel ảnh nên cịn có độ đo khác độ xác mức pixel (accuracy), độ xác precision, độ bao phủ (recall) Các độ đo tính tốn dựa đại lượng sau: Vùng đối tượng dự đoán (ký hiệu P); Vùng đối tượng thực (ký hiệu G); Số điểm dương tính (ký hiệu TP- True Possitive) , tức số pixel thuộc đối tượng phân loại đúng; Số điểm âm tính (ký hiệu TN-True Nagative), tức số pixel không thuộc đối tượng phân loại đúng; Số điểm dương tính sai (ký hiệu FP- False Possitive), tức số pixel thuộc đối tượng bị phân loại nhầm thành khơng thuộc đối tượng; Số âm tính sai FN (False Nagative) là, tức số pixel không thuộc đối tượng bị phân loại nhầm thành thuộc đối tượng Điểm số Dice viết tắt DSC (Dice score coefficient), giá trị thống kê sử dụng để so sánh giống ảnh dự đoán (prediction image) ảnh nhãn thực người gán nhãn (ground truth) Điểm số Dice sử dụng phổ biến nghiên cứu để đánh độ xác mơ hình phân vùng đối tượng ảnh Một cách đơn giản, điểm số Dice × số pixel vùng giao P (vùng dự đoán) G (vùng nhãn thực sự) chia cho tổng số pixel có P G Hình 1.10 minh họa cho điểm số Dice Điểm số Dice tập pixel dự đoán thuộc đối tượng (ký hiệu P) tập pixel thực thuộc đối tượng (ký hiệu G) định nghĩa sau: 𝐷𝑖𝑐𝑒 = Hình 1.10 Minh họa điểm số Dice 2∗|𝑃⁡∩⁡𝐺| |𝑃|+|⁡𝐺| (1.6) Hình 1.11 Minh họa số IoU 25 Từ hình 1.10 viết lại: 𝐷𝑖𝑐𝑒 = 2|𝑇𝑃| 2|𝑇𝑃|+|𝐹𝑃|+|𝐹𝑁| (1.7) Tương tự điểm số Dice, số IoU (Intersection-Over-Union) [7] độ đo phổ biến cho tốn phân vùng đối tượng ảnh IoU tính số pixel vùng giao vùng dự đoán P vùng nhãn thực G chia cho số pixel có thuộc vùng hợp P G Hình 1.11 minh họa cho hệ số IoU Hệ số IoU tập pixel dự đoán thuộc đối tượng (ký hiệu P) tập pixel thực thuộc đối tượng (ký hiệu G) định nghĩa sau: 𝐼𝑜𝑈 = |𝑃∩𝐺| (1.8) |𝑇𝑃| (1.9) |𝑃∪𝐺| 𝐼𝑜𝑈 = |𝑇𝑃|+|𝐹𝑃|+|𝐹𝑁| Ngoài ra, tốn phân vùng đối tượng ảnh tốn phân loại mức pixel nên đánh giá mơ hình phân vùng độ đo cho tốn phân loại độ xác mức pixel, độ xác precision, độ bao phủ hay cịn gọi độ nhạy (recall/sensitive) Độ xác mức pixel (pixel accuracy) [70] tỉ lệ số lượng pixel phân lớp tổng số pixel phân lớp Công thức tính độ xác mức pixel sau : 𝐴𝑐𝑐 = 𝑇𝑃+𝑇𝑁 𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 (1.10) Độ xác precesion [70] tỉ lệ số lượng pixel thuộc đối tượng phân lớp tổng số pixel phân lớp thuộc đối tượng Cơng thức tính độ xác mức pixel sau : 𝑃𝑟𝑒𝑐 = 𝑇𝑃 𝑇𝑃+𝐹𝑃 (1.11) Độ bao phủ (recall) gọi độ nhạy (sensitive) [70] tỉ lệ số lượng pixel thuộc đối tượng phân lớp tổng số pixel thuộc đối tượng Công thức tính độ xác mức pixel sau : 𝑅𝑒𝑐/𝑆𝑒𝑛 = 𝑇𝑃 𝑇𝑃+𝐹𝑁 (1.12) 26 1.2.5 Tăng cường liệu cho hệ thống học sâu Một kỹ thuật để giải vấn đề không đủ liệu huấn luyện cho mơ hình học sâu tăng cường liệu (data augmentation) [71] kỹ thuật tăng số lượng liệu huấn luyện phép tuyến tính hay phi tuyến liệu gốc có sẵn Kỹ thuật tăng cường ảnh giúp mở rộng kích thước tập liệu ảnh dùng cho huấn luyện thông qua việc áp dụng loạt thay đổi ngẫu nhiên ảnh, từ tạo mẫu huấn luyện tương tự có khác biệt Có thể giải thích tác dụng tăng cường ảnh việc thay đổi ngẫu nhiên mẫu dùng cho huấn luyện, làm giảm phụ thuộc mơ hình vào số thuộc tính định Do giúp cải thiện tính khái qt hóa mơ hình Kỹ thuật tăng cường ảnh đóng góp lớn cho thành cơng mạng học sâu Có nhiều phép biến đổi ảnh để tăng cường liệu, nhiên phân loại thành nhóm sau: - Các phép biến đổi hình học (Geometry based): bao gồm nhiều phép xoay, lật, phóng to thu nhỏ, thêm viền (padding), bóp hình, biến dạng hình - Các phép biến đổi màu sắc (Color based): thay đổi độ sắc nét, thay đổi độ sáng, thay đổi độ tương phản đổi sang ảnh âm - Thêm nhiễu vào ảnh: Có nhiều loại nhiễu thêm nhiễu ngẫu nhiên, nhiễu có mẫu, nhiễu cộng, nhiễu nhân, nhiễu nén ảnh, nhiễu mờ chụp không lấy nét, nhiễu mờ chuyển động… 1.2.6 Mạng sinh liệu có điều kiện CGAN Mạng sinh liệu đối nghịch GAN: Một phương pháp có hiệu để sinh liệu tổng hợp, tăng cường liệu cho hệ thống học sâu mạng sinh liệu đối nghịch, viết tắt GAN (Generative Adversarial Networks)[23] GAN mơ hình mạng nơ ron có khả tạo ảnh tổng hợp cách sử dụng cạnh tranh hai mạng nơ-ron: Bộ sinh (Generator) dùng để sinh ảnh Bộ phân biệt (Discriminator) để phân biệt ảnh thật (real image) ảnh liệu thực ảnh giả ảnh Generator tạo Mạng sinh liệu có điều kiện CGAN: Mạng sinh liệu có điều kiện [47] (CGAN- Conditional GAN) dạng GAN có kiểm soát Generator sinh ảnh theo điều kiện đầu vào định Hình 1.13 sơ đồ minh họa cho mạng CGAN Tương tự mạng GAN, CGAN có phận đối nghịch Generator Discriminator Tuy nhiên với GAN Generator sinh ảnh giả từ vector đầu vào ngẫu nhiên, cịn với CGAN Generator 27 sinh ảnh từ vector ngẫu nhiên z điều kiện đầu vào y Mục tiêu Generator sinh ảnh Xfake giống ảnh thực Xreal điều kiện đầu vào yfake trùng với nhãn yreal ảnh thực Xreal Mạng Pix2Pix Pix2pix [29] mơ hình CGAN dùng để học hàm ánh xạ từ ảnh đầu vào (ảnh nguồn) thành ảnh đầu (ảnh đích) kích thước có thay đổi thuộc tính ảnh ảnh đen trắng sang ảnh màu, vẽ phác thảo đối tượng sang ảnh đối tượng đầy đủ màu sắc, ảnh phân vùng đường phố sang ảnh đường phố … Mạng Pix2Pix tạo thành từ hai phần sinh (Generator) phân biệt (Discriminator) Bộ sinh có nhiệm vụ biến đổi ảnh đầu vào thành ảnh đầu Kiến trúc Unet [59] dùng cho sinh Pix2Pix Bộ phân biệt tính tốn mức độ tương đồng ảnh đầu vào với ảnh chưa biết (có thể ảnh từ tập liệu đích ảnh sinh tạo ra) dự đốn xem ảnh có phải tạo sinh hay không Bộ phân biệt Pix2Pix thực thuật tốn PatchGan [29], ảnh phân thành phần nhỏ có kích thước (70x70) gọi patch, phân biệt thực việc phân loại patch thật hay giả thay phân loại tồn ảnh thật hay giả 1.2.7 Phương pháp học tự giám sát đặc trưng thị giác ảnh Học tự giám sát đặc trưng thị giác ảnh (Self-supervised visual feature learning) [36] phương pháp cho phép học đặc trưng thị giác liệu ảnh từ tập lớn ảnh không gán nhãn để hỗ trợ cho tác tác vụ nhận dạng đối tượng với tập liệu huấn luyện gán nhãn Nhìn chung hệ học tự giám sát đặc trưng thị giác ảnh gồm hai tác vụ chính: tác vụ giả định (pretext task), hai tác vụ mục tiêu (real task) Hình 1.14 sơ đồ tổng quan phương pháp học tự giám sát đặc trưng thị giác Hình 1.12 Phương pháp học tự giám sát đặc trưng thị giác máy tính [36] 28 Tác vụ giả định tác vụ học không giám sát dùng cho việc học đặc trưng thị giác ảnh từ tập liệu không gán nhãn Tác vụ mục tiêu tác vụ nhận dạng ảnh phân loại ảnh, phát đối tượng hay phân vùng đối tượng Tác vụ mục tiêu thường có số lượng liệu gán nhãn dùng cho huấn luyện nhỏ Các tri thức học từ tác vụ giả định chuyển giao cho tác vụ mục tiêu thơng qua trọng số trọng số mơ hình giả định học biểu diễn đặc trưng ảnh học 1.3 Tình hình nghiên cứu tốn phân tích ảnh nội soi đại tràng 1.3.1 Tình hình nghiên cứu giới Bài toán nghiên cứu phát triển thuật tốn, kỹ thuật thị giác máy tính tự động phân tích ảnh nội soi đại tràng hỗ trợ bác sỹ chẩn đoán nội soi đại tràng, sàng lọc phát ung thư đại tràng sớm, tốn thu hút đơng đảo nhà nghiên cứu giới Hiệp hội tính tốn phân tích ảnh y tế can thiệp dựa hỗ trợ máy tính (MICCAI- Medical Image Computing and Computer Assisted Intervetion Society) hàng năm từ năm 2015 đến tổ chức thi phân tích ảnh nội soi tiêu hóa, gọi tắt GIANA (Gastrointestinal ImAge ANAlysis, https://endovis.grand-challenge.org/) Mục tiêu thi xây dựng thuật tốn tự động nhận dạng, dị tìm, phân vùng, phân loại polyp video nội soi tiêu hóa, nhằm hỗ trợ bác sỹ q trình nội soi tiêu hóa, chẩn đốn phát sớm ưng thư đường tiêu hóa Ban tổ chức thi đưa liệu huấn luyện, liệu kiểm thử chuẩn để đánh giá phương pháp đề xuất Hàng năm có nhiều đội tham gia GIANA đến từ nước giới nhiều Mỹ Trung Quốc Ngoài liệu chuẩn cung cấp thi cộng đồng nghiên cứu sử dụng thường xuyên để đánh giá phương pháp đề xuất Đến thời điểm tại, hướng nghiên cứu nhóm nghiên cứu áp dụng để giải tốn phân tích ảnh nội soi đại tràng bao gồm: - Hướng tiếp cận sử dụng học máy truyền thống kỹ thuật xử lý ảnh cổ điển để phát xác định biên polyp ảnh gọi phương pháp trích rút đặc trưng thủ cơng (hand-crafted) Các phương pháp trích rút đặc trưng thủ cơng thường cho kết cao tập liệu thí nghiệm, nhiên hình ảnh polyp thường có mức độ biến thể lớn hình 29 dạng, kích thước, kết cấu màu sắc nên phương pháp khơng đạt độ xác tốt áp dụng thực tế - Phương pháp tiếp cận dựa mơ hình học sâu (deep learning) để phân tích ảnh nội soi đại tràng thu hút nhiều ý, chúng có khả tự động trích rút đặc trưng ảnh nội soi sử dụng để phân vùng polyp ảnh với độ xác vượt trội Ngồi ra, liệu ảnh soi đại tràng chuẩn công bố dùng cho mơ hình học máy tạo điều kiện để nghiên cứu sử dụng kỹ thuật học sâu phát triển Đã có nhiều cơng trình công bố theo hướng tiếp cận học sâu, có cơng trình phát polyp (polyp detection), phân vùng polyp (polyp segmenentation), phân loại polyp (polyp classification): Nhóm nghiên cứu Sungheon Park cộng đưa phương pháp phát polyp ảnh nội soi đại tràng với điểm mấu chốt phương pháp học đặc trưng phân cấp (hierarchical features) cách sử dụng mạng nơ ron tích chập [52] Các đặc trưng học theo tỷ lệ khác để tìm đặc trưng bất biến thơng qua CNN, sau pixel ảnh nội soi phân loại pixel polyp pixel không polyp thông qua mạng kết nối đầy đủ Đầu tinh chỉnh thông qua bước smooth filtering thresholding Kết thử nghiệm cho thấy thuật tốn CNN đề xuất phân loại vùng polyp vùng khơng polyp với độ xác khoảng 90%; Nhóm nghiên cứu Younghak Shin cộng sử dụng cách tiếp cận region-based CNN để tự động phát polyp ảnh nội soi [64] Họ dùng phương pháp transfer learning với kiến trúc CNN có sẵn Inception Resnet sử dụng kỹ thuật tăng cường liệu làm tăng số lượng mẫu liệu huấn luyện Kết đạt độ xác phát polyp khoảng 91,4% với số liệu “CVC-ClinicDB”; Nhóm nghiên cứu Ruikai Zhang cộng đưa phương pháp phát polyp từ video nội soi dựa mạng CNN [90] Phương pháp đề xuất gồm bước: Một học đặc trưng không gian polyp dùng kiến trúc pretrain ResYOLO (ResYoLo detector) Hai sử dụng theo dõi đối tượng (object tracker) Efficient Convolution Operators (ECO) để xác định vị trí polyp frame dựa vào thông tin phát frame trước (ECO Tracker), sau tích hợp kết ResYoLo detector Eco Tracker để tạo 30 kết cuối Thử nghiệm 17.574 khung hình từ 18 video cở sở liệu ASU-Mayo [7] kết cho thấy độ xác dị tìm phát polyp 88,6% với tốc độ xử lý 6.5 frame/1 giây; Nhóm nghiên cứu Qadir, Hemin Ali cộng đưa phương pháp phát polyp ảnh nội soi đại tràng sử dụng mạng F-CNN [58] Trong họ đề xuất sử dụng mask Gaussian 2D thay mask nhị phân phép mơ hình phát loại polyp khác cách hiệu giảm số lượng dự đốn dương tính sai Kết thử nghiệm cho thấy mask Gaussian 2D đề xuất có hiệu việc phát polyp phẳng nhỏ có ranh giới khơng rõ ràng phần phần polyp Phương pháp đề xuất đạt kết cao hai liệu ETIS-LARIB CVC-ColonDB Trên ETISLARIB họ đạt 86,54% recall, 86,12% precision, and 86,33% F1-score, CVC-ColonDB họ đạt 91% recall, 88,35% precision, and F1-score 89,65%; Taha cộng đề xuất cơng trình nghiên cứu phát phân loại polyp ảnh nội soi đại tràng, tác giả sử dụng số kỹ thuật tiền xử lý ảnh để trích rút vùng chứa polyp sử dụng mạng học sâu để phân loại polyp ảnh với độ xác cao đạt khoảng 98,4% [76] Các tác giả sử dụng Clinic-DB để huấn luyện đánh giá; Hsu cộng đề xuất cơng trình nghiên cứu phát phân loại polyp ảnh nội soi đại tràng, tác giả sử dụng kỹ thuật chuyển đổi ảnh nội soi màu ảnh xám sử dụng mạng học sâu để phát phân loại polyp ảnh với độ xác phân loại polyp cao đạt khoảng 95,2% [27] Các tác giả sử dụng Clinic-DB gồm 612 ảnh liệu gồm 1000 ảnh nội soi có chứa polyp bệnh viên Linkou Chang Gung Medical Hospital để huấn luyện đánh giá Wang cộng đề xuất cơng trình nghiên cứu phân loại polyp ảnh nội soi đại tràng với loại polyp khác sử dụng mạng học sâu phương pháp transfer learning từ liệu ảnh tự nhiên ImageNet [85] Họ sử dụng liệu ảnh nội soi có chứa polyp gán nhãn phân loại polyp CVC-Clinic DB chứa 612 ảnh Kvasir- Seg gồm 1000 ảnh để huấn luyện mơ hình, kiểm thử liệu tự thu thập với 430 ảnh, kết đạt độ xác phân loại polyp trung bình cao 86,4% 31 Bảng 1.2 tổng hợp cơng trình cơng bố gần cho tốn phân tích ảnh nội soi đại tràng giới Bảng 1.2 Các cơng trình nghiên cứu phân tích ảnh nội soi đại tràng Tên cơng trình Towards automatic polyp detection with a polyp appearance model [3] Toward embedded detection of polyps in wce images for early diagnosis of colorectal cancer [4] Automatic segmentation of polyps in colonoscopic narrow-band imaging data [20] Community detection for hierarchical image segmentation [13] Automated polyp detection in colonoscopy videos using shape and context information [78] A classification-enhanced vote accumulation scheme for detecting colonic polyps [77] Comparative validation of polyp detection methods in video colonoscopy: results from the MICCAI 2015 endoscopic vision challenge [9] Automatic colon polyp detection using region based deep cnn and post learning approaches [64] Automatic colorectal polyp detection in colonoscopy video frames [21] Artificial intelligence-assisted polyp detection for colonoscopy: initial experience [48] Real-time gastric polyp detection using convolutional neural networks [91] A comprehensive study on colorectal polyp segmentation with ResUNet++, Năm Mục tiêu 2012 Phát polyp 2014 Phát polyp 2012 Phân vùng polyp Phương pháp Trích rút đặc trưng thủ cơng Trích rút đặc trưng thủ cơng Trích rút đặc trưng thủ cơng 2011 Phát phân Trích rút đặc vùng polyp trưng thủ cơng 2015 Phát polyp Trích rút đặc trưng thủ cơng 2013 Phát polyp Trích rút đặc trưng thủ công 2017 Phát polyp Học sâu 2018 Phát polyp Học sâu 2016 Phát polyp Học sâu 2018 Phát polyp Học sâu 2019 Phát polyp Học sâu 2021 Phân vùng polyp Học sâu 32 conditional random field and test-time augmentation [32] A-DenseUNet: Adaptive densely connected UNet for polyp segmentation in colonoscopy images with atrous convolution [61] Selective feature aggregation network with area-boundary constraints for polyp segmentation [19] PolypSegNet: A modified encoderdecoder architecture for automated polyp segmentation from colonoscopy images [44] An improved framework for polyp image segmentation based on SegNet architecture [1] Resunet++: An advanced architecture for medical image segmentation[34] Unet++: A nested u-net architecture for medical image segmentation[93] Doubleu-net: A deep convolutional neural network for medical image segmentation [31] Ensemble of instance segmentation models for polyp segmentation in colonoscopy images [37] Automated Colorectal Polyp Classification Using Deep Neural Networks with Colonoscopy Images [76] Colorectal Polyp Image Detection and Classification through Grayscale Images and Deep Learning [27] Multiclassification of endoscopic colonoscopy images based on deep transfer learning [85] 2021 Phân vùng polyp Học sâu 2019 Phân vùng polyp Học sâu 2021 Phân vùng polyp Học sâu 2021 Phân vùng polyp Học sâu 2019 Phân vùng polyp Học sâu 2018 Phân vùng polyp Học sâu 2019 Phân vùng polyp Học sâu 2019 Phân vùng polyp Học sâu 2021 Phát phân Học sâu loại polyp 2021 Phát phân Học sâu loại polyp 2021 Phát phân Học sâu loại polyp 33 Nhìn chung có nhiều nghiên cứu tập trung vào tốn phân tích ảnh nội soi tuyến tiêu hóa nói chung tốn phân tích ảnh nội soi đại tràng nói riêng Các nhà nghiên cứu tiến hành nhiều nghiên cứu với phương pháp khác nhau, nhiên kết đạt hạn chế chưa ứng dụng rộng rãi thực tế Trong năm gần đây, phương pháp tiếp cận dựa mơ hình học sâu để phân vùng polyp thu hút nhiều ý, chúng có khả tự động trích rút đặc trưng ảnh nội soi sử dụng để phân vùng polyp ảnh với độ xác vượt trội Ngoài ra, liệu ảnh soi đại tràng chuẩn công bố dùng cho mô hình học máy tạo điều kiện để nghiên cứu sử dụng kỹ thuật học sâu phân vùng polyp phát triển Qadir cộng đề xuất sử dụng mạng Maks R-CNN kết hợp với trích rút đặc trưng dựa mạng CNN truyền thống để dự đoán vùng polyp ảnh nội soi [26] Kang cộng sử dụng Mask R-CNN, dựa ResNet50 ResNet101, làm cấu trúc để tự động phát phân vùng polyp tự động [56] Mạng nơ-ron tích chập đầy đủ (FCN- Fully Convolutional Neural Network) [43] cho phân vùng ngữ nghĩa ảnh sử dụng số nghiên cứu phân vùng polyp ảnh nội soi Brandao cộng kiến trúc FCN điều chỉnh cho nhận dạng cấu trúc polyp [11] Zhang cộng sử dụng mạng FCN-8S để phân vùng vùng ứng cử viên chứa polyp [89] Sau đặc trưng cấu trúc tính tốn từ vùng đưa vào phân loại sử dụng thuật toán rừng ngẫu nhiên để đưa dự đoán vùng chứa polyp Fan cộng đề xuất mạng PraNet cho phân vùng đối tượng ảnh y tế, có phân vùng polyp ảnh nội soi [18] PraNet cải tiến mơ hình FCN cách sử dụng giải mã song song phần mô-đun attention đảo chiều để phân vùng đối tượng ảnh y tế Thay dùng mã hóa kiến trúc FCN, UNet [59] có kiến trúc gồm hai phần đối xứng mã hóa (encoder) giải mã (decoder), ngồi cịn có kết nối phần để kết hợp đặc trưng học từ lớp mã hóa vào lớp giải mã UNet có độ xác tốt đáng kể so với FCN trở thành lựa chọn phổ biến cho phân vùng đối tượng 34 ảnh y tế Từ thành công UNet, số biến thể UNet đề xuất để phân vùng polyp mang lại kết tốt Jha cộng đưa mạng DoubleU-Net kết hợp hai mạng UNet: mạng UNet thứ sử dụng mạng VGG-19 huấn luyện sẵn làm backbone; mạng UNet thứ hai thêm vào cuối UNet đầu để nắm bắt thông tin ngữ nghĩa hiệu [31] Bên cạnh đó, họ áp dụng lọc Atrous xếp chồng hình kim tự tháp, viết tắt ASSP (Atrous Spatial Pyramid Pooling) [15], để nắm bắt thông tin ngữ cảnh Zhou cộng đề xuất mạng UNet ++, mạng liên kết UNet thông qua đường kết nối lồng dày đặc [93] UNet++ tác giả đề xuất để phân vùng đối tượng ảnh y tế bao gồm phân vùng polyp ảnh nội soi đại tràng, phân vùng nhân tế bào ảnh kính hiển vi, phân vùng khối u phổi ảnh chụp cộng hưởng từ Jha cộng đề xuất mạng ResUNet ++ cho phân vùng đối tượng tên ảnh y tế, sử dụng kết hợp khối residual, squeeze chế ASPP, Attention [32] Tương tự UNet, mạng tích chập sâu dựa mã hóa-giải mã khác Segnet [6] sử dụng số nghiên cứu phân vùng polyp ảnh nội soi Wang cộng sử dụng kiến trúc SegNet để phát phân vùng polyp thời gian thực với độ nhạy (sensitivity) độ đặc hiệu (specificity) cao [84] Afify cộng đưa phương pháp cải tiến để phân vùng polyp dựa tiền xử lý hình ảnh kết hợp hai mạng SegNet [1] Mahmud cộng đề xuất mơ hình PolypSegNet, kiến trúc SegNet sửa đổi để phân vùng polyp ảnh nội soi đại tràng với số khối DDI, DFSM DRM [44] Các nghiên cứu phân vùng polyp ảnh nội soi đại tràng kể bước hữu ích để xây dựng hệ thống tự động phân vùng polyp, nhằm hỗ trợ bác sỹ giảm thiểu tỉ lệ bỏ sót polyp q trình nội soi đại tràng tầm soát phát sớm ung thư đại tràng Đến tại, cơng trình nghiên cứu phân vùng polyp ảnh nội soi đại tràng phát triển bước vào hoàn thiện Các nhà nghiên cứu tiến hành nhiều nghiên cứu với phương pháp khác nhằm mục tiêu phân vùng polyp 35 cách xác Tuy nhiên, hạn chế cơng trình nghiên cứu cơng trình thực kiểm tra tính tổng qt hóa mơ hình việc kiểm thử chéo liệu kiểm thử độc lập với liệu huấn luyện Hầu hết cơng trình đề xuất thuật toán huấn luyện thử nghiệm tập liệu nhỏ, đơn lẻ, lựa chọn kỹ Trong đó, với qui trình nội soi đại tràng bác sỹ thực hiện, nhiều trường hợp polyp khó nhìn thấy thường bị bỏ sót 1.3.2 Tình hình nghiên cứu nước Tại Việt Nam, nghiên cứu phát triển mơ hình học sâu phân tích ảnh y tế nhiều nhóm nghiên cứu quan tâm Một số nghiên cứu xây dựng mơ hình học sâu áp dụng để phân tích ảnh y tế đến từ trường đại học Đại học Bách khoa Hà Nội, Đại học Quốc gia Hà Nội, Đại học Quốc gia Thành phố Hồ Chí Minh, trung tâm nghiên cứu phát triển thuộc tập đồn FPT, Viettel … cơng bố kỷ yếu hội thảo tạp chí chun ngành Các cơng trình nghiên cứu theo hướng kể đến sau: - Nhóm Thanh Hai Nguyen, Edi Prifti, Nataliya Sokolovska JeanDaniel Zucker, nghiên cứu số kiến trúc mạng CNN dùng để phân tích ảnh tổng hợp biểu diễn liệu Gen người từ dự đốn bệnh liên quan đến gen người [51] - Nhóm Huynh Hieu Trung, and Vo Nguyen Nhat Anh, thuộc khoa Khoa học máy tính trường đại học Việt-Đức, thành phố Bình Dương, đề xuất mơ hình học sâu dùng để phân vùng ảnh phổi ảnh chụp X quang để hỗ trợ bác sỹ chuẩn đoán bệnh phổi [28] - Nhóm Anh-Cang PHAN, Thi-My-Nga NGUYEN Thuong-Cang PHAN thuộc khoa CNTT trường Đại học Công nghệ Vĩnh Long, sử dụng mạng CNN để phân tích ảnh chụp cộng hưởng từ (CT Scan) não kết hợp với thông tin độ hấp thụ tia X đo CT scan đơn vị Hounsfield để phát phân loại bệnh xuất huyết não [4] 36 - Viện nghiên cứu VinBigData thuộc tập đoàn VinGroup phát triển ứng dụng VinDr kỳ vọng giải pháp phân tích hình ảnh y tế tồn diện ứng dụng trí tuệ nhân tạo [83] Được cơng bố thử nghiệm từ 2020, với mơ-đun chẩn đốn X-quang phổi VinDr có khả phát 22 loại tổn thương khác tràn dịch, tràn khí, nốt khối, đơng đặc, thâm nhiễm ; độ xác 90% giúp chẩn đoán hầu hết bệnh lý nguy hiểm liên quan tới phổi Sử dụng học sâu để phân tích ảnh y tế hướng nghiên cứu quan tâm rộng rãi nước Tuy nhiên nghiên cứu xây dựng giải thuật học sâu áp dụng cho phân tích ảnh nội soi tiêu hóa cịn hạn chế - Tại hội nghị khoa học "Một số kỹ thuật chẩn đoán điều trị ứng dụng tiêu hóa", nhóm nghiên cứu Viện Nghiên cứu Đào tạo tiêu hóa, gan mật kết hợp với trường đại học Bách khoa Hà nội trình bày “Báo cáo kết đầu bước đầu xây dựng phần mềm ứng dụng ứng dụng trí tuệ nhân tạo nội soi phát polyp đại tràng Việt Nam” [72] Mục tiêu nghiên cứu xây dựng thuật toán học máy hiệu cho phát hiện, khoanh vùng polyp đại tràng qua hình ảnh nội soi; bước đầu đánh giá độ xác thuật tốn phát hiện, khoanh vùng polyp đại tràng Cụ thể, nhóm nghiên cứu thu thập liệu hình ảnh từ hệ thống nội soi có độ phân giải cao dây soi 600, dây LASEREO, dây 7000 hãng Fujifilm chế độ WLI FICE Số lượng ảnh tiến hành xử lý đưa vào chạy thuật toán Kết bước đầu cho thấy huấn luyện thành cơng thuật tốn với độ xác độ nhạy cao (lên tới 95%) Bên cạnh đó, nhóm tiến hành thử nghiệm hình ảnh tĩnh video nội soi, kết cho thấy giá trị dự đốn dương tính lên tới 94,6%, độ nhạy (khả thuật toán để xác định ảnh chứa polyp) 96,39% độ đặc hiệu (khả thuật tốn để xác định ảnh khơng chứa polyp) lên tới 99,84% Nhóm nghiên cứu kỳ vọng phát triển phần mềm giúp phát đúng, đủ tổn thương, rút ngắn thời gian tiến triển thành ung thư cho người bệnh đưa lộ trình sàng lọc hợp lý cho người bệnh - Nhóm Hung Nguyen Ba, Duc Nguyen Thanh, Chien Thai Van, Sang Dinh Viet thuộc trường Đại học Bách khoa Hà nội sử dụng mạng 37 ResUNet++ kết hợp với kỹ thuật Attention chế deep supervision để huấn luyện mạng [5] Kết đạt cao với liệu huấn luyện kiểm thử 94,23% điểm số Dice Tuy nhiên, công bố này, tác giả thử nghiệm huấn luyện đánh giá mơ hình hai liệu chuẩn Kvarsir-Seg CVC-ClinicDB Hơn mô hình chưa đánh giá liệu kiểm thử độc lập với liệu huấn luyện để đánh giá tính tổng qt mơ hình 1.3.3 Những vấn đề tồn Từ việc nghiên cứu tốn cứu tốn phân tích ảnh nội soi đại tràng khảo sát tình hình nghiên cứu tốn ngồi nước, số vấn đề cịn tồn sau: - Một là, công trình nghiên cứu thực kiểm tra tính tổng qt hóa mơ hình việc kiểm thử chéo liệu kiểm thử độc lập với liệu huấn luyện thường cho kết thấp Hầu hết cơng trình đề xuất mơ hình huấn luyện thử nghiệm tập liệu nhỏ, đơn lẻ, lựa chọn kỹ, dẫn tới mơ hình đưa vào áp dụng thực tế với liệu huấn luyện đa dạng khơng đạt kết mong muốn Trong đó, thực tế nội soi thực sở y tế với nhiều hệ thống nội soi khác chất lượng hình ảnh, tính đa dạng trường hợp bệnh nhiễu liệu đa dạng Do hỏi mơ hình học máy muốn đưa vào ứng dụng thực tế ngồi tính xác cần phải có tính tổng qt hóa (generalization) tức mơ hình huấn luyện liệu bệnh viện áp dụng cho bệnh viện khác - Hai là, cơng trình nghiên cứu cơng bố đến tại, có cơng trình đưa giải pháp cho vấn đề liệu không cân Một khó khăn việc huấn luyện mơ hình học máy cho phân tích ảnh nội soi đại tràng liệu huấn luyện không cân bằng, tức số lượng liệu thuộc lớp bị bệnh (dương tính) nhiều so với lớp bình thường khơng bị bệnh (âm tính) Mơ hình huấn luyện liệu khơng cân đưa dự đốn bị lệch phía lớp khơng bị bệnh, điều khơng mong muốn hậu dự đốn âm tính sai đặc biệt nghiêm trọng so với dự đốn dương tính giả Do đo việc đưa giải pháp giải vấn đề liệu ảnh nội soi không cân cần thiết 38 - Ba là, thách thức đáng kể lĩnh vực phân tích ảnh y tế nói chung, phân tích ảnh nội soi đại tràng nói riêng, thiếu liệu huấn luyện gán nhãn đủ lớn gán nhãn cho ảnh nội soi phải thực chuyên gia chẩn đốn ảnh nội soi lành nghề, việc địi hỏi nhiều thời gian công sức Các liệu huấn luyện chuẩn phổ biến có số lượng liệu gán nhãn phân vùng polyp bé, liệu mẫu liệu không đa dạng, ảnh cắt từ số lượng nhỏ video nội soi, video nội soi chứa loại polyp quay góc nhìn khác Do cần có giải pháp khắc phục vấn đề thiếu hụt liệu huấn luyện có gán nhãn phân vùng polyp đa dạng giảm thiểu chi phí gán nhãn liệu - Bốn là, cơng trình nghiên cứu cơng trình đưa giải pháp tận dụng liệu ảnh nội soi đại tràng không gán nhãn để nâng cao độ xác mơ hình phân tích ảnh nội soi đại tràng điều kiện có liệu gán nhãn Trong đó, hệ thống PACS sử dụng rộng rãi hệ thống y tế chúng lưu trữ lượng ảnh y tế lớn có ảnh nội soi đại tràng Có thể áp dụng phương pháp học bán giám sát để khai thác liệu không gán nhãn nhằm nâng cao độ xác mơ hình phân tích ảnh nội soi đại tràng 1.3.4 Những vấn đề luận án tập trung giải Qua phân tích tổng quan tốn phân tích ảnh nội soi đại tràng, tổng hợp tình hình nghiên cứu, phát triển thuật tốn, kỹ thuật thị giác máy tính để giải toán giới nước thời gian gần cho thấy nghiên cứu phát triển kỹ thuật học sâu áp dụng phân tích ảnh nội soi đại tràng hướng nghiên cứu tiềm năng, cịn khai thác nhiều khía cạnh Cụ thể cần có nghiên cứu đưa giải pháp khắc phục vấn đề khó khăn việc liệu huấn luyện khơng cân bằng, thiếu hụt liệu huấn luyện có gán nhãn cho hệ thống học sâu, khai thác kho liệu lớn ảnh nội soi đại tràng không gán nhãn thu thập từ hệ thống PACS Từ nâng cao độ xác tính tổng quát hóa hệ thống tự động phân vùng polyp ảnh nội soi, hỗ trợ bác sỹ chẩn đoán nội soi đại tràng Những vấn đề luận án tập trung giải bao gồm: 39 - Nghiên cứu, đề xuất mơ hình học sâu phân vùng polyp ảnh nội soi đại tràng có độ xác tính tổng qt hóa tốt liệu khác nhau, từ làm tảng cho ứng dụng triển khai thực tế với liệu đa dạng Mơ hình cần giải vấn đề không cân liệu ảnh huấn luyện phân vùng polyp từ nâng cao hiệu mơ hình, cải thiện dự đốn phân vùng polyp tốt - Nghiên cứu đề xuất phương pháp học bán giám sát nhằm khai thác kho liệu ảnh chưa gán nhãn hệ thống PACS nhằm nâng cao độ xác mơ hình học sâu phân vùng polyp ảnh nội soi đại tràng - Nghiên cứu giải pháp sinh liệu giả lập ảnh nội soi đại tràng có gán nhãn phân vùng polyp để khắc phục tình trạng thiếu hụt liệu có gán nhãn dùng cho huấn luyện mơ hình học sâu phân vùng polyp, tiết kiệm chi phí gán nhãn liệu 1.4 Kết luận Chương Chương luận án trình bày tổng quan vấn đề nghiên cứu luận án, bao gồm: Tổng quan tốn phân tích ảnh nội soi đại tràng, tình hình nghiên cứu tốn ngồi nước kiến thức sở có liên quan để giải toán Nội soi đại tràng thủ thuật hiệu để phát sàng lọc ung thư đại tràng, nhiên tỉ lệ sai sót lâm sàng cịn cao thủ thuật phụ thuộc nhiều vào bác sỹ nội soi, điều mở hướng phát triển tiềm cho ứng dụng trí tuệ nhân tạo sử dụng kỹ thuật thị giác máy tính tiến tự động phân tích ảnh nội soi đại tràng hỗ trợ bác sỹ chuẩn đoán nội soi, sàng lọc phát sớm ung thư đại tràng Tuy nhiên, nghiên cứu phát triển kỹ thuật thị giác máy tính tự động phân tích ảnh nội soi đại tràng có số khó khăn, địi hỏi có nghiên cứu chuyên sâu để tìm hướng giải toán khác Hiện phương pháp học sâu sử dụng rộng rãi khả tự động trích rút đặc trưng ảnh với độ xác cao Ngồi ra, liệu ảnh soi đại tràng chuẩn để dùng cho mơ hình học máy công bố rộng rãi tạo điều kiện 40 cho mơ hình học sâu phân tích ảnh nội soi đại tràng phát triển Chương luận án, tiến hành khảo sát số liệu ảnh nội soi chuẩn công bố công khai sử dụng rộng rãi nay, từ lựa chọn liệu phù hợp cho nghiên cứu Chương luận án đồng thời, khảo sát, phân tích tình hình nghiên cứu ngồi nước cho tốn phân tích ảnh nội soi đại tràng qua đưa vấn đề tồn cần giải tốn xác định nội dung mà luận án tập trung giải Luận án tập trung vào toán phân vùng polyp ảnh nọi soi đại tràng, toán quan trọng phân tích ảnh nội soi đại tràng nói chung Phần cuối Chương kiến thức lý thuyết sở có liên quan tới nội dung nghiên cứu luận án bao gồm: tổng quan kỹ thuật học sâu, khái niệm phương pháp học bán giám sát, không giám sát, học chuyển giao, mạng học sâu phân vùng đối tượng ảnh, độ đo đánh giá phương pháp phân vùng, phép tăng cường liệu cho hệ thống học sâu, tổng quan mạng sinh liệu có điều kiện phương pháp học tự giám sát đặc trưng thị giác ảnh 41 CHƯƠNG MƠ HÌNH PHÂN VÙNG POLYP ĐẠI TRÀNG DỰA TRÊN MẠNG UNET CẢI TIẾN VÀ HÀM MẤT MÁT BẤT ĐỐI XỨNG KẾT HỢP 2.1 Đặt vấn đề Phân vùng polyp ảnh nội soi đại tràng tác vụ phân vùng ngữ nghĩa ảnh, pixel ảnh phân lớp nhị phân, thành pixel thuộc lớp polyp pixel thuộc lớp polyp Phân vùng polyp cách xác tác vụ phức tạp polyp có hình dạng, kích thước, màu sắc kết cấu đa dạng Thêm vào đó, khó khăn ảnh bị mờ, ảnh bị chói chất lượng hình ảnh thấp nguyên nhân gây nên lỗi phân vùng polyp Trong năm qua, nhà nghiên cứu nỗ lực phát triển nhiều phương pháp phân vùng polyp tự động cho hệ thống CADx Tuy nhiên, hạn chế cơng trình nghiên cứu đến hầu hết cơng trình đề xuất thuật toán huấn luyện thử nghiệm tập liệu nhỏ, đơn lẻ, lựa chọn kỹ Khi kiểm thử mơ hình với liệu kiểm thử độc lập với liệu huấn luyện cho kết thấp Trong đó, thực tế hệ thống nội soi bệnh viện khác cho hình ảnh nội soi khác độ sáng, độ tương phản, chất lượng hình ảnh Ngồi thực tế nội soi có nhiều trường hợp polyp với hình dạng đa dạng khác sở y tế Hướng tới giải vấn đề cịn tồn khó khăn thách thức toán phân vùng polyp ảnh nội soi đại tràng, Chương luận án hướng tới phát triển thuật tốn đạt độ xác cao liệu kiểm thử khác liệu huấn luyện, từ làm tảng cho ứng dụng triển khai thực tế với liệu đa dạng 2.2 Phương pháp đề xuất 2.2.1 Kiến trúc mơ hình học sâu đề xuất cho phân vùng polyp ảnh nội soi đại tràng Từ nghiên cứu, phân tích tốn phân vùng polyp ảnh nội soi đại tràng luận án đề xuất mơ hình học sâu phân vùng polyp ảnh nội soi đại tràng Hình 2.1 minh họa kiến trúc chung mơ hình đề xuất 42 Hình 2.1 Tổng quan kiến trúc mơ hình phân vùng polyp ảnh nội soi đại tràng 43 Kiến trúc mạng UNet điều chỉnh với mã hóa mạng pretrained-CNN khác EfficientNet B7 lựa chọn làm kiến trúc mã hóa mơ hình phân vùng polyp đề xuất kiến trúc cho độ xác cao Kiến trúc mạng UNet điều chỉnh gọi EfficientUnet Tiếp theo mạng EfficientUnet mở rộng việc xếp chồng mơ hình xác suất trường ngẫu nhiên có điều kiện xấp xỉ mạng nơ ron hồi qui (gọi lớp CRF-RNN) [92] vào mạng Mơ hình thu gọi CRFEfficientUNet Bên cạnh đó, luận án đề xuất hàm mát bất đối xứng kết hợp AsymCE dùng cho huấn luyện mơ hình Hàm AsymCE kết hợp có trọng số hai thành phần hàm mát cross-entropy hàm mát bất đối xứng Ngoài ra, luận án đề xuất phương pháp học chuyển giao để huấn luyện mơ hình nhằm tăng độ xác mơ hình đề xuất CRF-EfficientUNet Mơ hình đề xuất huấn luyện theo qui trình sau: Đầu tiên, huấn luyện mơ hình EfficientUnet phương pháp học chuyển giao, tức sử dụng trọng số mạng pretrained huấn luyện Imagenet trọng số khởi tạo cho mã hóa huấn luyện lại tồn lớp mạng với liệu ảnh nội soi sử dụng phương pháp tăng cường liệu Kết thúc huấn luyện tham số học mơ hình EfficientUnet lưu lại Tiếp theo, trọng số mơ hình EfficientUnet chuyển giao cho mơ hình CRFEfficientUNet đóng băng Cuối mơ hình CRF-EfficientUNet huấn luyện để tinh lớp CRF-RNN, sử dụng liệu huấn luyện liệu dùng để huấn luyện mạng EfficientUnet 2.2.2 Mạng UNet điều chỉnh cho phân vùng polyp ảnh nội soi đại tràng Kiến trúc UNet phát triển Olaf Ronneberger cộng [59] dùng cho phân vùng đối tượng ảnh y sinh Mạng UNet gồm hai nhánh đối xứng Nhánh thứ nhất, gọi mã hóa, sử dụng để nắm bắt thông tin ngữ cảnh ảnh Bộ mã hóa mạng CNN bao gồm lớp tích chập (convolution layer) lớp tổng hợp (pooling layer) Nhánh thứ hai, gọi giải mã, sử dụng để xác định vị trí xác cách sử dụng lớp tích chập chuyển vị (transpose convolution layer) lớp giải tích chập (deconvolution layer) Ngồi ra, UNet có kết nối mã hóa giải mã để chuyển đặc trưng mức cao mà mã hóa 44 học (các đặc trưng bị trình giải mã giải mã) từ mã hóa sang giải mã Hình 2.2 Mạng UNet cho phân vùng polyp ảnh nội soi đại tràng Luận án sử dụng mạng UNet điều chỉnh cho phân vùng polyp ảnh nội soi đại tràng Hình 2.2 minh họa mạng UNet cho phân vùng polyp UNet điều chỉnh cách sử dụng mạng CNN dựng sẵn (pre-trained CNN) làm mã hóa Luận án thực cài đặt mạng UNet điều chỉnh với mã hóa khác dùng cho phân vùng polyp ảnh nội soi đại tràng, bao gồm: họ mạng EfficientNet [80] từ EfficientNet-B0 tới EfficientNetB7, ResNet-50; ResNet-101 [25]; MobileNetV2 [63] Các kết thử nghiệm cho thấy UNet với mã hóa EfficientNet-B7 cho độ xác cao nhất, mã hóa EfficientNet-B7 lựa chọn - Bộ mã hóa (Encoder): Bộ mã hóa sử dụng mạng Unet cải tiến cho phân vùng polyp đề xuất mạng pretrained-CNN phân loại ảnh bỏ lớp kết nối đầy đủ (layer fully connected) Hình 2.3 minh họa kiến trúc mã hóa EfficientNet-B7 với khối (Block1, Block 2, Block 3, Block 4, Block 5, Block 6, Block 7) Trong khối gồm Modul1 (Deepwise Conv2D, BatchNormalixe, Activate), Modul2 (Deepwise Conv2D, BatchNormalixe, Activate, Padding, Deepwise Conv2D, BatchNormalixe, 45 Activate), Modul3 (Global Average Pooling, recalling, Conv2D, Conv2D) lớp cộng (Add) modul Hình 2.3 Kiến trúc mã hóa EfficientB7 [82] - Bộ giải mã (decoder): Bộ giải mã mạng Unet phân vùng polyp ảnh nội soi đại tràng đề xuất có kiến trúc giống kiến trúc Unet nguyên Olaf Ronneberger cộng [59] đề xuất Bộ giải mã hóa gồm khối Upsample2D (UpConv2D, Concatenate, Conv2D, Activation, Conv2D, Activation) nối tiếp lớp Conv 1x1 tiếp nối hàm kích hoạt Sigmoid Hình 2.4 minh họa khối Upsample2D giải mã Hình 2.4 Khối Upsample2D giải mã 46 - Kết nối mã hóa giải mã (Skip conncection): Mạng UNet cải tiến cho phân vùng polyp áp dụng kết nối tắt lớp mã hóa giải mã Phép Concatenate Upsample2D giải mã thể điều này, đầu lớp Up-Conv2D giải mã kết hợp qua phép Concatenate với đầu lớp skip mã hóa Tùy theo kiến trúc mã hóa khác mà lớp skip xác định khác Luận án sử dụng lớp skip theo đề xuất Pavel Iakubovskii [88] Với mã hóa EfficientNet B7 lớp skip bao gồm: -Lớp activation Modul Block - Lớp activation Modul Block - Lớp activation Modul Block - Lớp activation Modul Block 2.2.3 Tích hợp lớp CRF-RNN vào mạng UNet Sử dụng mơ hình xác suất trường ngẫu nhiên có điều kiện (Conditional Random Field) [39], gọi tắt CRF, kết hợp với mơ hình học sâu phân vùng ngữ nghĩa ảnh cách tiếp cận phổ biến cho toán phân vùng đối tượng ảnh Ý tưởng chung phương pháp mơ hình phân vùng đóng vai trị cơng cụ trích rút đặc trưng tạo phân vùng đối tượng thơ ban đầu, sau CRF sử dụng để tinh chỉnh lại kết Đầu vào CRF bao gồm xác suất phân vùng mạng học sâu tạo ảnh đầu vào ban đầu Khơng giống lớp tích chập thực thi lọc cục bộ, với CRF kết nối đầy đủ (fully connected Conditional Random Field) cặp pixel có ảnh xem xét, trường tiếp nhận CRF kết nối đầy đủ toàn hình ảnh Trong mơ hình CRF, cặp pixel định nghĩa khoảng cách không gian khoảng cách màu pixel Điều làm cho phân vùng CRF tạo sắc nét nhiều so với phân vùng tạo mô hình phân vùng ban đầu Tuy nhiên, thơng thường sử dụng CRF để cải thiện chất lượng mô hình phân vùng, CRF phải thực riêng sau mơ hình phân vùng huấn luyện Khắc phục điều này, [92] tác giả đề xuất xấp xỉ mơ hình CRF mạng nơ-ron hồi qui, để tích hợp với mạng phân vùng huấn luyện toàn mạng từ đầu đến cuối (end to end) để thu kết tốt Trong mơ hình phân vùng ảnh CRF giải tốn tối ưu cực tiểu hóa hàm lượng sau [62]: 47 𝑢 𝑢 𝑣 𝐸(𝑌) = ∑𝑁 𝑖=1 Φ⁡(𝑦𝑖 ) + ⁡ ∑∀𝑖,𝑗,𝑖

Ngày đăng: 23/05/2023, 12:13