Những vấn đề còn tồn tại

Từ việc nghiên cứu bài toán cứu bài toán phân tích ảnh nội soi đại tràng và khảo sát tình hình nghiên cứu bài toán trong và ngoài nước, một số vấn đề còn tồn tại như sau:

- Một là, trong các công trình nghiên cứu hiện tại khi thực hiện kiểm tra

tính tổng quát hóa của các mô hình bằng việc kiểm thử chéo trên các bộ dữ liệu kiểm thử độc lập với bộ dữ liệu huấn luyện thường cho kết quả thấp. Hầu hết các công trình hiện tại đề xuất các mô hình được huấn luyện và thử nghiệm trên các tập dữ liệu nhỏ, đơn lẻ, và được lựa chọn kỹ, dẫn tới mô hình khi đưa vào áp dụng trong thực tế với dữ liệu huấn luyện đa dạng có thể không đạt được kết quả mong muốn. Trong khi đó, thực tế nội soi được thực hiện ở các cơ sở y tế với rất nhiều hệ thống nội soi khác nhau về chất lượng hình ảnh, tính đa dạng của các trường hợp bệnh và các nhiễu dữ liệu rất đa dạng. Do đó hỏi mô hình học máy muốn đưa vào ứng dụng thực tế ngoài tính chính xác cần phải có tính tổng quát hóa (generalization) tức là mô hình được huấn luyện trên dữ liệu của một bệnh viện có thể áp dụng cho các bệnh viện khác.

- Hai là, các công trình nghiên cứu được công bố đến hiện tại, có ít công trình đưa ra các giải pháp cho vấn đề dữ liệu không cân bằng. Một trong những khó khăn trong việc huấn luyện các mô hình học máy cho phân tích ảnh nội soi đại tràng là dữ liệu huấn luyện không cân bằng, tức là số lượng dữ liệu thuộc lớp bị bệnh (dương tính) ít hơn nhiều so với lớp bình thường không bị bệnh (âm tính). Mô hình được huấn luyện bằng dữ liệu không cân bằng có thể đưa ra các dự đoán của bị lệch về phía lớp không bị bệnh, điều này là không mong muốn vì hậu quả của dự đoán âm tính sai sẽ đặc biệt nghiêm trọng hơn so với dự đoán dương tính giả. Do đo việc đưa ra các giải pháp giải quyết vấn đề dữ liệu ảnh nội soi không cân bằng là rất cần thiết.

- Ba là, một trong những thách thức đáng kể trong lĩnh vực phân tích ảnh y tế nói chung, phân tích ảnh nội soi đại tràng nói riêng, là thiếu bộ dữ liệu huấn luyện gán nhãn đủ lớn vì gán nhãn cho các ảnh nội soi phải được thực hiện bởi các chuyên gia chẩn đoán ảnh nội soi lành nghề, và việc này đòi hỏi rất nhiều thời gian và công sức. Các bộ dữ liệu huấn luyện chuẩn phổ biến hiện nay có số lượng dữ liệu được gán nhãn phân vùng polyp khá bé, hơn nữa trong mỗi bộ dữ liệu thì các mẫu dữ liệu không đa dạng, các ảnh trong mỗi bộ được cắt ra từ số lượng nhỏ video nội soi, mỗi video nội soi chỉ chứa một loại polyp được quay ở các góc nhìn khác nhau. Do đó cần có những giải pháp khắc phục vấn đề thiếu hụt dữ liệu huấn luyện có gán nhãn phân vùng polyp đa dạng và giảm thiểu chi phí gán nhãn dữ liệu.

- Bốn là, trong các công trình nghiên cứu hiện nay rất ít công trình đưa ra các giải pháp tận dụng các dữ liệu ảnh nội soi đại tràng không gán nhãn để nâng cao độ chính xác của mô hình phân tích ảnh nội soi đại tràng trong điều kiện có rất ít dữ liệu được gán nhãn. Trong khi đó, hệ thống PACS đã được sử dụng rộng rãi trong các hệ thống y tế và chúng đã lưu trữ một lượng ảnh y tế rất lớn trong đó có ảnh nội soi đại tràng. Có thể áp dụng các phương pháp học bán giám sát để khai thác các dữ liệu không gán nhãn nhằm nâng cao độ chính xác của mô hình phân tích ảnh nội soi đại tràng.

Kỹ thuật học chuyển giao

Mạng sinh dữ liệu có điều kiện CGAN