Bài toán nghiên cứu phát triển các thuật toán, kỹ thuật thị giác máy tính tự động phân tích ảnh nội soi đại tràng hỗ trợ các bác sỹ trong chẩn đoán nội soi đại tràng, sàng lọc phát hiện ung thư đại tràng sớm, là một trong những bài toán thu hút đông đảo các nhà nghiên cứu trên thế giới.
Hiệp hội tính toán phân tích ảnh y tế và can thiệp dựa trên hỗ trợ của máy
tính (MICCAI- Medical Image Computing and Computer Assisted Intervetion Society) hàng năm từ năm 2015 đến nay đã tổ chức các cuộc thi phân tích ảnh nội soi tiêu hóa, gọi tắt là GIANA (Gastrointestinal ImAge ANAlysis,
https://endovis.grand-challenge.org/). Mục tiêu của các cuộc thi là xây dựng
các thuật toán tự động nhận dạng, dò tìm, phân vùng, phân loại các polyp trong video nội soi tiêu hóa, nhằm hỗ trợ các bác sỹ trong quá trình nội soi tiêu hóa, chẩn đoán phát hiện sớm ưng thư ở đường tiêu hóa. Ban tổ chức cuộc thi đã đưa ra các bộ dữ liệu huấn luyện, và bộ dữ liệu kiểm thử chuẩn để đánh giá các phương pháp được đề xuất. Hàng năm đã có rất nhiều đội tham gia GIANA đến từ các nước trên thế giới trong đó nhiều nhất là Mỹ và Trung Quốc. Ngoài ra các bộ dữ liệu chuẩn được cung cấp trong các cuộc thi này cũng được cộng đồng nghiên cứu sử dụng thường xuyên để đánh giá các phương pháp đề xuất.
Đến thời điểm hiện tại, các hướng nghiên cứu chính được các nhóm nghiên cứu áp dụng để giải quyết bài toán phân tích ảnh nội soi đại tràng bao gồm:
- Hướng tiếp cận sử dụng học máy truyền thống và kỹ thuật xử lý ảnh cổ
điển để phát hiện và xác định biên của các polyp trên ảnh còn gọi là phương pháp trích rút các đặc trưng thủ công (hand-crafted). Các phương pháp trích rút các đặc trưng thủ công thường cho kết quả khá cao trên tập dữ liệu thí nghiệm, tuy nhiên do hình ảnh các polyp thường có mức độ biến thể rất lớn về hình
dạng, kích thước, kết cấu và màu sắc nên các phương pháp này không đạt được độ chính xác tốt khi áp dụng trên thực tế.
- Phương pháp tiếp cận dựa trên các mô hình học sâu (deep learning) để
phân tích ảnh nội soi đại tràng đã thu hút được nhiều sự chú ý, vì chúng có khả năng tự động trích rút các đặc trưng của ảnh nội soi sử dụng để phân vùng các polyp trên ảnh với độ chính xác vượt trội. Ngoài ra, các bộ dữ liệu ảnh soi đại tràng chuẩn được công bố dùng cho các mô hình học máy đã tạo điều kiện để các nghiên cứu sử dụng kỹ thuật học sâu phát triển hơn. Đã có nhiều công trình công bố mới đây theo hướng tiếp cận học sâu, trong đó có các công trình về phát hiện polyp (polyp detection), phân vùng polyp (polyp segmenentation), và phân loại polyp (polyp classification): Nhóm nghiên cứu của Sungheon Park và các cộng sự đã đưa ra một phương pháp phát hiện polyp trong ảnh nội soi đại tràng với điểm mấu chốt của phương pháp là học các đặc trưng phân cấp (hierarchical features) bằng cách sử dụng mạng nơ ron tích chập [52]. Các đặc trưng được học theo các tỷ lệ khác nhau để tìm ra các đặc trưng bất biến thông qua các CNN, và sau đó mỗi pixel trong ảnh nội soi được phân loại là pixel polyp hoặc pixel không polyp thông qua mạng kết nối đầy đủ. Đầu ra được tinh chỉnh thông qua bước smooth filtering và thresholding. Kết quả thử nghiệm cho thấy thuật toán CNN được đề xuất có thể phân loại vùng polyp và vùng không polyp với độ chính xác khoảng 90%; Nhóm nghiên cứu của Younghak Shin và các cộng sự đã sử dụng cách tiếp cận region-based CNN để tự động phát hiện các polyp trên ảnh nội soi [64]. Họ đã dùng phương pháp transfer learning với kiến trúc CNN có sẵn là Inception Resnet và sử dụng các kỹ thuật tăng cường dữ liệu làm tăng số lượng mẫu dữ liệu huấn luyện. Kết quả đạt được độ chính xác phát hiện polyp khoảng 91,4% với bộ số liệu “CVC-ClinicDB”; Nhóm nghiên cứu của Ruikai Zhang và các cộng sự đưa ra phương pháp phát hiện polyp từ các video nội soi dựa trên mạng CNN [90]. Phương pháp đề xuất gồm 2 bước: Một là học các đặc trưng không gian của các polyp dùng kiến trúc pre-train ResYOLO (ResYoLo detector). Hai là sử dụng bộ theo dõi đối tượng (object tracker) Efficient Convolution Operators (ECO) để xác định vị trí của polyp trong frame hiện tại dựa vào thông tin phát hiện ở frame trước đó (ECO Tracker), sau đó tích hợp kết quả của ResYoLo detector và Eco Tracker để tạo
30
ra kết quả cuối cùng. Thử nghiệm trên 17.574 khung hình từ 18 video của cở sở dữ liệu ASU-Mayo [7] kết quả cho thấy độ chính xác của dò tìm phát hiện polyp là 88,6% với tốc độ xử lý 6.5 frame/1 giây; Nhóm nghiên cứu của Qadir, Hemin Ali và các cộng sự đã đưa ra phương pháp phát hiện các polyp trên ảnh nội soi đại tràng sử dụng mạng F-CNN [58]. Trong đó họ đã đề xuất sử dụng mask Gaussian 2D thay vì mask nhị phân để cho phép các mô hình này phát hiện các loại polyp khác nhau một cách hiệu quả hơn và giảm số lượng dự đoán dương tính sai. Kết quả thử nghiệm cho thấy mask Gaussian 2D được đề xuất có hiệu quả trong việc phát hiện các polyp phẳng và nhỏ có ranh giới không rõ ràng giữa phần nền và phần polyp. Phương pháp được đề xuất đã đạt được kết quả rất cao trên hai bộ dữ liệu ETIS-LARIB và CVC-ColonDB. Trên bộ ETIS-LARIB họ đạt được 86,54% recall, 86,12% precision, and 86,33% F1-score, còn trên bộ CVC-ColonDB họ đạt 91% recall, 88,35% precision, and F1-score 89,65%; Taha và các cộng sự đề xuất công trình nghiên cứu về phát hiện và phân loại polyp trên ảnh nội soi đại tràng, các tác giả đã sử dụng một số kỹ thuật tiền xử lý ảnh để trích rút vùng chứa polyp và sử dụng mạng học sâu để phân loại polyp trên ảnh với độ chính xác cao nhất đạt khoảng 98,4% [76]. Các tác giả đã sử dụng bộ Clinic-DB để huấn luyện và đánh giá; Hsu và các cộng sự đề xuất công trình nghiên cứu về phát hiện và phân loại polyp trên ảnh nội soi đại tràng, các tác giả đã sử dụng kỹ thuật chuyển đổi ảnh nội soi màu về ảnh xám và sử dụng mạng học sâu để phát hiện và phân loại polyp trên ảnh với độ chính xác phân loại polyp cao nhất đạt khoảng 95,2% [27]. Các tác giả đã sử dụng bộ Clinic-DB gồm 612 ảnh và bộ dữ liệu gồm 1000 ảnh nội soi có chứa polyp của bệnh viên Linkou Chang Gung Medical Hospital để huấn luyện và đánh giá. Wang và các cộng sự đề xuất công trình nghiên cứu về phân loại polyp trên ảnh nội soi đại tràng với 4 loại polyp khác nhau sử dụng mạng học sâu và phương pháp transfer learning từ bộ dữ liệu ảnh tự nhiên ImageNet [85]. Họ đã sử dụng các bộ dữ liệu ảnh nội soi có chứa polyp được gán nhãn phân loại polyp là bộ CVC-Clinic DB chứa 612 ảnh và bộ Kvasir- Seg gồm 1000 ảnh để huấn luyện mô hình, và kiểm thử trên bộ dữ liệu tự thu thập với 430 ảnh, kết quả đạt độ chính xác phân loại polyp trung bình cao nhất là 86,4%.
Bảng 1.2 là tổng hợp các công trình mới công bố gần đây cho bài toán phân tích ảnh nội soi đại tràng trên thế giới
Bảng 1.2. Các công trình nghiên cứu phân tích ảnh nội soi đại tràng
Tên công trình
Towards automatic polyp detection with a polyp appearance model [3]
Toward embedded detection of polyps in wce images for early diagnosis of colorectal cancer [4]
Automatic segmentation of polyps in colonoscopic narrow-band imaging data [20]
Community
image segmentation [13] Automated
colonoscopy videos using shape and context information [78]
A classification-enhanced
accumulation colonic polyps [77]
Comparative validation of polyp detection methods in video colonoscopy: results from the MICCAI 2015 endoscopic vision challenge [9]
Automatic colon polyp detection using region based deep cnn and post learning approaches [64]
Automatic colorectal polyp detection in colonoscopy video frames [21]
Artificial intelligence-assisted polyp
detection for
experience [48]
Real-time gastric polyp detection using convolutional neural networks [91] A comprehensive study on colorectal polyp
32
conditional random field and test-time augmentation [32]
A-DenseUNet:
connected UNet for polyp segmentation in colonoscopy
convolution [61]
Selective feature aggregation network with area-boundary constraints for polyp segmentation [19]
PolypSegNet: A modified encoder- decoder architecture for automated polyp segmentation from
[44]
An improved framework for polyp image segmentation
architecture [1]
Resunet++: An advanced architecture for medical image segmentation[34]
Unet++: A nested u-net architecture for medical image segmentation[93]
Doubleu-net: A deep convolutional neural network for medical image segmentation [31]
Ensemble of instance segmentation models for polyp segmentation in colonoscopy images [37]
Automated Classification
Networks with Colonoscopy Images [76] Colorectal Polyp Image Detection and Classification through Grayscale Images and Deep Learning [27]
Multiclassification
colonoscopy images based on deep transfer learning [85]
Nhìn chung đã khá có nhiều nghiên cứu tập trung vào bài toán phân tích ảnh nội soi tuyến tiêu hóa nói chung và bài toán phân tích ảnh nội soi đại tràng nói riêng. Các nhà nghiên cứu đã và đang tiến hành nhiều nghiên cứu với các phương pháp khác nhau, tuy nhiên các kết quả đạt được còn hạn chế chưa được ứng dụng rộng rãi trong thực tế.
Trong những năm gần đây, phương pháp tiếp cận dựa trên các mô hình học sâu để phân vùng polyp đã thu hút được nhiều sự chú ý, vì chúng có khả năng tự động trích rút các đặc trưng của ảnh nội soi sử dụng để phân vùng các polyp trên ảnh với độ chính xác vượt trội. Ngoài ra, các bộ dữ liệu ảnh soi đại tràng chuẩn được công bố dùng cho các mô hình học máy đã tạo điều kiện để các nghiên cứu sử dụng kỹ thuật học sâu phân vùng polyp phát triển hơn.
Qadir và cộng sự đã đề xuất sử dụng mạng Maks R-CNN kết hợp với các bộ trích rút đặc trưng dựa trên mạng CNN truyền thống để dự đoán các vùng polyp trên ảnh nội soi [26]. Kang và cộng sự đã sử dụng Mask R-CNN, dựa trên ResNet50 và ResNet101, làm cấu trúc chính để tự động phát hiện và phân vùng polyp tự động [56]. Mạng nơ-ron tích chập đầy đủ (FCN- Fully Convolutional Neural Network) [43] cho phân vùng ngữ nghĩa của ảnh cũng đã được sử dụng trong một số nghiên cứu phân vùng polyp trên ảnh nội soi. Brandao và các cộng sự đã chỉ ra rằng kiến trúc FCN có thể được điều chỉnh cho nhận dạng các cấu trúc polyp [11]. Zhang và cộng sự đã sử dụng mạng FCN-8S để phân vùng các vùng ứng cử viên có thể chứa polyp [89]. Sau đó các đặc trưng về cấu trúc được tính toán từ mỗi vùng và đưa vào bộ phân loại sử dụng thuật toán rừng ngẫu nhiên để đưa ra dự đoán vùng chứa polyp. Fan và cộng sự đề xuất mạng PraNet cho phân vùng các đối tượng trên ảnh y tế, trong đó có phân vùng các polyp trên ảnh nội soi [18]. PraNet cải tiến mô hình FCN bằng cách sử dụng bộ giải mã song song từng phần và các mô-đun attention đảo chiều để phân vùng đối tượng trên ảnh y tế.
Thay vì dùng một bộ mã hóa như kiến trúc FCN, UNet [59] có kiến trúc gồm hai phần đối xứng bộ mã hóa (encoder) và bộ giải mã (decoder), ngoài ra còn có các kết nối giữa 2 phần để kết hợp các đặc trưng học được từ các lớp của bộ mã hóa vào các lớp của bộ giải mã. UNet có độ chính xác tốt hơn đáng kể so với FCN và đã trở thành một lựa chọn phổ biến cho phân vùng đối tượng
34
trên ảnh y tế. Từ sự thành công của UNet, một số biến thể của UNet đã được đề xuất để phân vùng polyp và mang lại kết quả khá tốt. Jha và cộng sự đã đưa ra mạng DoubleU-Net là kết hợp của hai mạng UNet: mạng UNet thứ nhất sử dụng mạng VGG-19 đã được huấn luyện sẵn làm backbone; mạng UNet thứ hai được thêm vào cuối UNet đầu để nắm bắt thông tin ngữ nghĩa hiệu quả hơn [31]. Bên cạnh đó, họ cũng áp dụng các bộ lọc Atrous xếp chồng hình kim tự tháp, viết tắt là ASSP (Atrous Spatial Pyramid Pooling) [15], để nắm bắt các thông tin ngữ cảnh. Zhou và cộng sự đã đề xuất mạng UNet ++, mạng này là sự liên kết của UNet thông qua các đường kết nối lồng nhau dày đặc [93]. UNet++ được các tác giả đề xuất để phân vùng các đối tượng trên ảnh y tế bao gồm phân vùng polyp trên ảnh nội soi đại tràng, phân vùng nhân tế bào trên ảnh kính hiển vi, phân vùng các khối u ở phổi trên ảnh chụp cộng hưởng từ. Jha và cộng sự cũng đề xuất mạng ResUNet ++ cho phân vùng các đối tượng tên ảnh y tế, trong đó đã sử dụng kết hợp các khối residual, squeeze và các cơ chế ASPP, Attention [32].
Tương tự như UNet, một mạng tích chập sâu dựa trên bộ mã hóa-giải mã khác là Segnet [6] cũng đã được sử dụng trong một số nghiên cứu phân vùng polyp trên ảnh nội soi. Wang và cộng sự đã sử dụng kiến trúc SegNet để phát hiện và phân vùng các polyp trong thời gian thực với độ nhạy (sensitivity) và độ đặc hiệu (specificity) rất cao [84]. Afify và cộng sự đã đưa ra phương pháp cải tiến để phân vùng polyp dựa trên tiền xử lý hình ảnh và sự kết hợp của hai mạng SegNet [1]. Mahmud và cộng sự đề xuất mô hình PolypSegNet, một kiến trúc SegNet được sửa đổi để phân vùng polyp ảnh nội soi đại tràng với một số khối DDI, DFSM và DRM [44].
Các nghiên cứu về phân vùng polyp trên ảnh nội soi đại tràng kể trên là những bước hữu ích để xây dựng một hệ thống tự động phân vùng polyp, nhằm hỗ trợ các bác sỹ giảm thiểu tỉ lệ bỏ sót polyp trong quá trình nội soi đại tràng tầm soát và phát hiện sớm ung thư đại tràng. Đến hiện tại, các công trình nghiên cứu về phân vùng polyp trên ảnh nội soi đại tràng đã khá phát triển và đang từng bước đi vào hoàn thiện. Các nhà nghiên cứu đã và đang tiến hành nhiều nghiên cứu với các phương pháp khác nhau nhằm mục tiêu phân vùng polyp
một cách chính xác nhất. Tuy nhiên, hạn chế chính của các công trình nghiên cứu hiện tại là rất ít công trình thực hiện kiểm tra tính tổng quát hóa của các mô hình bằng việc kiểm thử chéo trên các bộ dữ liệu kiểm thử độc lập với bộ dữ liệu huấn luyện. Hầu hết các công trình hiện tại đề xuất các thuật toán được huấn luyện và thử nghiệm trên các tập dữ liệu nhỏ, đơn lẻ, và được lựa chọn kỹ. Trong khi đó, với qui trình nội soi đại tràng hiện tại do các bác sỹ thực hiện, nhiều trường hợp polyp khó nhìn thấy thường bị bỏ sót.