Chương 2 Kiến thức nền tảng 11 2.1. Mô hình học sâu trong phân đoạn hình ảnh
2.4. Các phương pháp đánh giá
2.4.4. Đo chỉ số IoU
IoU là một thước đo quan trọng trong phân đoạn ảnh, đo lường mức độ trùng khớp giữa vùng dự đoán và vùng nhãn thực tế và được tính theo công thức 2.16
IoU= Diện tích giao
Diện tích hợp (2.16)
Trong đó: Diện tích giao là số lượng điểm ảnh mà cả nhãn thực tế và nhãn dự đoán đều nhận dạng là dương tính.Diện tích hợp là tổng số lượng điểm ảnh được nhận dạng là dương tính trong cả nhãn thực tế và nhãn dự đoán. Độ đo này được biểu diễn bởi công thức 2.17
IoU= TP
TP+FP+FN (2.17)
Chương 3
Phương pháp phân vùng kết hợp phân loại phân cấp sử dụng mô hình học sâu U-Net
3.1. Tổng quan
Các nghiên cứu hiện đại có xu hướng hiện tại đang đẩy mạnh sự kết hợp giữa phân loại và phân vùng để tạo ra các mô hình mạnh mẽ hơn [22], điều này đặc biệt quan trọng trong các ứng dụng yêu cầu phân loại chính xác các vùng nhỏ trong ảnh, như trong phân tích hình ảnh mô bệnh học. Mặc dù việc áp dụng các mô hình học sâu phân vùng thường hoạt động tốt trên các ảnh tự nhiên, nhưng lại gặp nhiều khó khăn khi áp dụng vào ảnh y tế do độ phức tạp của cấu trúc và độ tương phản thấp của các ảnh này
• Thử thách đầu tiên là về độ phức tạp của dữ liệu khi ảnh mô bệnh học thường có cấu trúc phức tạp với nhiều chi tiết nhỏ và màu sắc gần giống nhau, gây khó khăn cho cả phân loại và phân vùng. Việc xác định ranh giới giữa các loại tế bào khác nhau hoặc giữa các vùng tổn thương và mô lành mạnh đòi hỏi độ chính xác cao, điều mà các mô hình thường gặp khó khăn khi thực hiện đồng thời cả phân loại và phân vùng [29].
• Tiếp theo vấn đề dữ liệu không cân bằng, đối với dữ liệu ảnh mô bệnh học, một số loại mô hoặc tế bào hiếm khi xuất hiện so với các loại khác dẫn tới việc làm giảm hiệu suất của mô hình khi cần phân loại và phân vùng chính xác những vùng này. Dữ liệu anh mô bệnh học cũng có sự biến thiên lớn về cấu trúc và màu sắc do nhiều yếu tố như kỹ thuật nhuộm mô, cách lấy mẫu và điều kiện ánh sáng khi chụp ảnh, những điều này làm cho việc tạo ra một mô hình có khả năng tổng quát hóa tốt là một thách thức lớn.
• Việc phân vùng độc lập [30] từng lớp đòi hỏi tài nguyên và thời gian tính toán lớn do mô hình phải thực hiện từng nhiệm vụ phức tạp lần lượt hoặc riêng biệt. Mô hình có thể gặp khó khăn trong việc nhận diện và phân loại các lớp với mức độ phức tạp cao hơn hoặc các lớp có kích thước hiếm gặp dẫn đến khả năng tổng quát hóa kém, mô hình có thể bỏ lỡ thông tin ngữ cảnh quan trọng, dẫn đến việc phân vùng và phân loại sai. Khi số lượng lớp phân loại lớn, việc không có phân loại phân cấp sẽ khiến mô hình gặp khó khăn trong việc phân loại chính xác, đặc biệt là khi các lớp này có sự tương đồng cao
• Trong lĩnh vực y tế, tính minh bạch và khả năng giải thích của mô hình là rất quan trọng. Tuy nhiên, các mô hình kết hợp phân loại và phân vùng thường phức tạp, khó giải thích, đặc biệt là khi mô hình mắc lỗi, do đặc trưng được chia sẻ giữa tất cả các nhánh nên rất khó phân biệt lỗi gây ra bởi nhánh nào.
Điều này có thể làm giảm sự tin tưởng của các bác sĩ vào kết quả do mô hình đưa ra.
Để giải quyết các thử thách trên, một số phương pháp hợp nhất đã được đề xuất.
Các phương pháp này cho thấy sự hiệu quả về tỷ lệ thành công trên một số tập dữ liệu có sẵn. Tuy nhiên, theo quan sát, các phương pháp này cần nhiều chi phí về thời gian và hiệu quả thường giảm đáng kể trên các tập dữ liệu đặc thù khác. Có hai lý do giải thích cho điều này, đó là chi phí thu thập dữ liệu ảnh mô bệnh học thường rất lớn và yêu cầu tài nguyên huấn luyện rất cao. Cụ thể như sau:
• Việc thu thập và gán nhãn dữ liệu ảnh mô bệnh học đòi hỏi nguồn lực lớn, cả
Không những vậy, số lượng dữ liệu cần thiết để huấn luyện một mô hình học sâu hiệu quả là rất lớn, làm tăng đáng kể chi phí. Điều này gây khó khăn trong việc áp dụng các mô hình đã được huấn luyện trên dữ liệu chung sang các dữ liệu đặc thù khác, nơi mà số lượng và chất lượng dữ liệu có thể không đủ cao.
• Các mô hình học sâu kết hợp phân loại và phân vùng [25], đặc biệt là trong các bài toán phức tạp như phân tích ảnh mô bệnh học, thường yêu cầu lượng tài nguyên tính toán lớn. Các mô hình này phải xử lý đồng thời nhiều nhiệm vụ phức tạp và dữ liệu có độ phân giải cao, dẫn đến thời gian huấn luyện kéo dài và chi phí vận hành cao. Điều này đặc biệt khó khăn khi áp dụng trong các môi trường hạn chế về tài nguyên hoặc khi cần triển khai trên diện rộng Luận văn đề xuất phương pháp kết hợp phân vùng và phân loại phân cấp, mô hình phân loại phân cấp giúp tạo ra một cấu trúc cho phép mô hình hiểu rõ hơn mối quan hệ giữa các lớp. Việc này giúp mô hình nhận biết tốt hơn các chi tiết nhỏ và các vùng khó phân biệt trong ảnh mô bệnh học. Bằng cách này, mô hình không chỉ học cách phân vùng mà còn phân loại các vùng đó theo cấp bậc, giúp tăng cường độ chính xác và khả năng tổng quát hóa. Để giải quyết vấn đề dữ liệu không cân bằng và biến thiên trong ảnh mô bệnh học, các phương pháp chia sẻ đặc trưng, tăng cường dữ liệu được áp dụng, những phương pháp này giúp mô hình học tốt hơn từ các lớp hiếm, từ đó cải thiện hiệu suất phân loại và phân vùng trên những vùng phức tạp và khó phân biệt. Học sâu kết hợp với dữ liệu phân cấp và tăng cường dữ liệu có thể giúp mô hình xử lý tốt hơn các biến thiên về màu sắc và cấu trúc trong ảnh. Mô hình đa nhiệm thực hiện đồng thời cả phân vùng và phân loại trong cùng một mạng nơ-ron. Điều này giúp giảm tài nguyên và thời gian tính toán, đồng thời cải thiện khả năng học của mô hình thông qua việc chia sẻ thông tin giữa các nhiệm vụ. Phương pháp gồm ba giai đoạn chính. Cụ thể là (i)Chuẩn bị (xem Mục 3.2.1.), (ii)Huấn luyện (xem Mục 3.2.2.), và(iii)Dự đoán (xem Mục 3.2.3.). Cuối cùng, đầu ra của phương pháp là một tập dữ liệu gồm các nhãn dự đoán.
Hình 3.1: Tổng quan phương pháp đề xuất. Phương pháp gồm ba giai đoạn, làGiai đoạn 1: Chuẩn bị,Giai đoạn 2: Huấn luyện, vàGiai đoạn 3: Dự đoán.