Về cơ bản, luận văn đãđạt được mục tiêu đề ra là phát triển một phương pháp phân vùng ảnh mô bệnhhọc sử dụng học sâu hiệu quả trong phát hiện ung thư phổi, đồng thời góp phầngiải quyết c
Các nghiên cứu liên quan
Nghiên cứu phân đoạn mô ung thư sử dụng phương pháp đa mô hình và mô hình đơn lẻ
đa mô hình và mô hình đơn lẻ
Một trong những hướng nghiên cứu tiêu biểu là phân đoạn mô ung thư sử dụng mô hình đa nhiệm Kết quả từ cuộc thi ACDC@LungHP chỉ ra rằng, việc kết hợp nhiều mô hình như DenseNet và U-Net giúp cải thiện hiệu suất phân vùng đáng kể so với chỉ sử dụng mô hình đơn lẻ Điều này cho thấy rằng mô hình đa nhiệm có thể tận dụng lợi thế của từng mô hình riêng lẻ để nâng cao độ chính xác trong nhận diện và phân đoạn các vùng nhỏ như ung thư phổi Phương pháp đa mô hình kết hợp nhiều mô hình khác nhau, cải thiện độ chính xác trong việc phân đoạn ung thư như kết hợp DenseNet và khối giãn nở với U-Net để tối ưu hóa việc phân đoạn, sử dụng nhiều GPU và hàm mất mát kết hợp giữa Dice và cross-entropy, sử dụng ResNet50 làm mạng mã hóa và DeepLab V3+ để tăng cường, áp dụng nhiều phương pháp tinh chỉnh mô hình, sử dụng mô hình U-Net đa tỷ lệ kết hợp với CRF, đào tạo mô hình trên các độ phân giải khác nhau để tăng cường độ chi tiết của tế bào ung thư, các phương pháp này có điểm Dice trung bình là 0.7966 ±0.0898, cao hơn phương pháp mô hình đơn (0.7544 ± 0.0991) chỉ sử dụng một mô hình duy nhất điển hình như sử dụng kết hợp CNN dựa trên DenseNet-121 và mạng tích chập đầy đủ với các khối DenseNet hoặc kết hợp module hợp nhấtAtrous với bộ trích xuất đặc trưng CNN để xây dựng mạng Nghiên cứu cho thấy việc tinh chỉnh nhãn và xử lý trước dữ liệu đóng vai trò quan trọng như dùng thuật toán Otsu để loại bỏ nền hoặc phương pháp đồng huấn luyện để làm sạch nhãn nhiễu Nghiên cứu đã chỉ ra tiềm năng của việc áp dụng học sâu trong chẩn đoán ung thư phổi và hướng tới giai đoạn tiếp theo tập trung vào phân loại các loại ung thư phổi chính từ các mẫu sinh thiết.
Nghiên cứu phân đoạn tuyến bằng cách sử dụng mạng nơ-ron sâu đa kênh
nơ-ron sâu đa kênh
Ngoài phân đoạn mô ung thư, các nghiên cứu về phân đoạn tuyến bằng mạng nơ- ron sâu đa kênh cũng chỉ ra tính khả thi khi sử dụng nhiều kênh thông tin từ hình
Phương pháp này đã cho thấy kết quả tốt hơn so với các phương pháp truyền thống, đặc biệt là trong việc nhận diện các vùng tuyến khó phân biệt Phân đoạn các tuyến riêng lẻ trong hình ảnh mô học đại tràng là một quá trình phức tạp vì cần phải tách các tuyến ra khỏi nền phức tạp và nhận diện riêng từng tuyến Ý tưởng chính của nhóm tác giả Yan Xu và cộng sự[3] là tận dụng dự đoán từ ảnh sang ảnh trong học sâu gần đây bằng cách thiết kế một thuật toán tự động khai thác và hợp nhất thông tin đa kênh phức tạp từ các dấu hiệu khu vực, vị trí và ranh giới trong các hình ảnh mô học tuyến Thuật toán đề xuất một khung làm việc đa kênh sâu, giảm thiểu việc thiết kế đặc trưng phức tạp nhờ việc sử dụng các mạng nơ-ron tích chập và có khả năng đáp ứng nhiều yêu cầu khác nhau bằng cách thay đổi các kênh Kết quả của nghiên cứu so với các phương pháp được báo cáo trong thử thách phân đoạn tuyến MICCAI năm 2015 và các phương pháp phân đoạn cá thể phổ biến hiện nay cho kết quả đạt mức tiên tiến dựa trên các chỉ số đánh giá và đây là một phương pháp hiệu quả để phân đoạn các cá thể tuyến với khả năng tổng quát hóa của mô hình Điều này không chỉ cho phép thuật toán giải quyết các vấn đề phân đoạn cá thể tuyến mà cũng có thể được thay thế để phù hợp với một nhiệm vụ cụ thể Tuy nhiên, thách thức của phương pháp này nằm ở việc yêu cầu bộ dữ liệu lớn và cần xử lý các ảnh có độ phân giải cao, điều mà không phải mọi ứng dụng đều có đủ tài nguyên để thực hiện.
Nghiên cứu về phân loại hình ảnh tế bào HEp-2 với mạng tích chập 5 1.2.4 Nghiên cứu nhận diện nhân tế bào trong một giai đoạn bằng phương pháp học từ điểm ảnh đến điểm ảnh với giám sát yếu
Một lĩnh vực quan trọng trong chẩn đoán bệnh tự miễn dịch là phân loại hình ảnh tế bào Tế bào HEp-2 được nhuộm bằng kỹ thuật huỳnh quang để xác định sự hiện diện của các kháng thể tự miễn, đóng vai trò quan trọng trong các xét nghiệm y tế.Trong nghiên cứu này này, tác giả Zhimin Gao và cộng sự[4] đề xuất một khung làm việc để phân loại các tế bào HEp-2 bằng cách sử dụng mạng nơ-ron tích chập sâu Với kiến trúc mạng được thiết kế cẩn thận và các tham số tối ưu, mạng CNN này trích xuất các đặc trưng từ các điểm ảnh thô của hình ảnh tế bào theo cách phân cấp và thực hiện việc phân loại đồng thời, tránh sử dụng các đặc trưng được tạo thủ công để đại diện cho hình ảnh tế bào HEp-2.
Phương pháp được đánh giá trên bộ dữ liệu huấn luyện của cuộc thi phân loại tế bào HEp-2 do ICPR 2014 tổ chức Kết quả là đã đạt được độ chính xác trung bình theo lớp là 96,7% trên bộ kiểm tra độc lập và cũng đạt được hiệu suất cạnh tranh trên bộ dữ liệu tế bào ICPR 2012 Mặc dù mạng nơ ron tích chập được sử dụng trong nghiên cứu có khả năng trích xuất đặc trưng tự động nhưng chất lượng của hình ảnh đầu vào vẫn đóng vai trò quan trọng trong kết quả phân loại Các hiện tượng như nhiễu, mờ, hoặc không đồng đều trong kỹ thuật nhuộm huỳnh quang có thể ảnh hưởng đến hiệu suất của CNN Điều này đòi hỏi các bước tiền xử lý dữ liệu cẩn thận trước khi đưa vào mô hình.
1.2.4 Nghiên cứu nhận diện nhân tế bào trong một giai đoạn bằng phương pháp học từ điểm ảnh đến điểm ảnh với giám sát yếu
Tiếp theo, cũng trong lĩnh vực phân loại ảnh tế bào, một trong những hướng tiếp cận tiên tiến trong lĩnh vực phân đoạn và nhận diện hình ảnh y tế, đặc biệt là đối với nhiệm vụ nhận diện các cấu trúc tế bào trong mô bệnh học Nghiên cứu này tập trung vào việc cải thiện hiệu quả nhận diện nhân tế bào, đặc biệt là trong các bối cảnh phức tạp và sử dụng dữ liệu được gán nhãn không hoàn chỉnh hoặc không đầy đủ, một mạng nơ-ron tích chập (CNN) đã được sử dụng thành công để trích xuất các đặc trưng tự động và thực hiện phân loại với độ chính xác cao Điều này giảm thiểu nhu cầu sử dụng các đặc trưng được thiết kế thủ công, giúp mô hình hoạt động hiệu quả trên các tập dữ liệu lớn Nhận diện nhân tế bào là một bước quan trọng nhưng đầy thách thức trong phân tích hình ảnh mô học, ví dụ như trong các hình ảnh nhuộm hóa mô miễn dịch Ki67 Mặc dù nhiều phương pháp tự động đã được đề xuất, hầu hết đều sử dụng quy trình xử lý nhiều giai đoạn để phân loại nhân tế bào, dẫn đến việc đánh giá phức tạp, tốn nhiều thời gian và dễ xảy ra sai sót Để giải quyết vấn đề này, tác giả và cộng sự [5] đề xuất một mạng nơ-ron tích chập hoàn toàn sâu mới cho nhận diện nhân tế bào trong một giai đoạn thay vì tiến hành phân loại từng điểm ảnh một cách trực tiếp, ý tưởng của tác giả là định hình việc nhận diện nhân tế bào như một mô hình hồi quy cấu trúc sâu. Đối với mỗi hình ảnh đầu vào, mô hình tạo ra nhiều bản đồ gần đúng, mỗi bản đồ tương ứng với một loại nhân tế bào và cho thấy phản hồi mạnh ở vùng trung tâm của các nhân Ngoài ra, bằng cách xem xét sự phân bố của các nhân trong hình ảnh mô học, nghiên cứu giới thiệu một nhiệm vụ phụ trợ nhằm trích xuất vùng quan tâm, hỗ trợ và nâng cao việc định lượng nhân tế bào với việc gán nhãn ROI yếu Đánh giá mạng lưới này trên bộ dữ liệu hình ảnh Ki67 của khối u nội tiết thần kinh tuyến tụy và các thí nghiệm cho thấy phương pháp trên vượt trội hơn so với các phương pháp tiên tiến gần đây, có thể mang lại lợi ích tiềm năng cho việc định lượng các đối tượng cá nhân trong hình ảnh toàn bộ mô Tuy nhiên, phương pháp này vẫn phụ thuộc vào chất lượng của quá trình tiền xử lý hình ảnh và độ nhất quán trong việc gán nhãn.
Nghiên cứu chiến lược hợp nhất phân đoạn
Để cải thiện độ chính xác của các mô hình học sâu khi phân đoạn hình ảnh y tế phức tạp, một nghiên cứu phát triển mạng HFS-Net nhằm phát hiện và phân đoạn ung thư gan trên ảnh cắt lớp của tác giả I-Cheng Lee và công sự [6] đã sử dụng nhiều biến thể của U-Net như mô hình U-Net dày đặc và mô hình U-Net siêu dày đặc ở các giai đoạn khác nhau, sau đó hợp nhất các kết quả phân đoạn để tạo ra một kết quả tổng thể Mô hình HFS-Net này áp dụng phân cấp dựa trên kích thước khối u để tăng cường độ chính xác của phân đoạn và phân loại Mạng này được thiết kế để cải thiện khả năng phân đoạn hình ảnh trong các bài toán xử lý ảnh y tế Mô hình này kết hợp kiến trúc U-Net truyền thống với các kết nối dày đặc giữa các lớp trong mạng Cụ thể, mỗi lớp trong mạng không chỉ nhận đầu vào từ lớp trước đó mà còn từ tất cả các lớp trước đó trong cùng khối, tạo ra một mạng lưới kết nối dày đặc Điều này giúp tăng khả năng tái sử dụng thông tin, cải thiện khả năng học tập của mô hình và giảm thiểu vấn đề mất mát thông tin qua các lớp mạng Mặc dù có nhiều ưu việt nhưng việc hợp nhất nhiều mô hình và dữ liệu từ nhiều nguồn khác nhau đặt ra câu hỏi về tính khả thi khi mở rộng Với các bài toán phân đoạn phức tạp khác hoặc khi chuyển đổi sang các loại bệnh khác, mô hình có thể cần được điều chỉnh và tinh chỉnh lại để đạt hiệu quả cao nhất Điều này đòi hỏi kiến thức chuyên sâu về mô hình hóa và điều chỉnh tham số để có thể mở rộng mô hình sang các lĩnh vực khác.
1.2.6 Nghiên cứu mạng nơ-ron tích chập nhuộm đa mức trong phân đoạn hình ảnh ung thư vú
Một nghiên cứu nổi bật trong lĩnh vực phân đoạn hình ảnh ung thư là việc ứng dụng mạng nơ-ron tích chập nhuộm đa mức để phân loại và phân vùng các cấu trúc trong ảnh mô bệnh học với mục tiêu chính là xác định ung thư và xác định các vùng trọng tâm có liên quan đến sự hiện diện của khối u, các mô hình phân đoạn vùng trọng tâm hiện nay thường bị giới hạn ở từng loại nhuộm cụ thể hoặc gặp khó khăn do sự khác biệt về quy trình nhuộm và máy quét giữa các phòng thí nghiệm khác nhau.
Bên cạnh đó, một số mô như ung thư biểu mô thường bị phân loại nhầm thành khối u do tương đồng về cấu trúc và màu sắc Tác giả Akash Modi và cộng sự [7] đề xuất một mô hình phân đoạn mô đa lớp mới dựa trên mạng nơ-ron tích chập dành cho các ảnh toàn bản của vú, giúp phân loại khối u và phân đoạn các vùng mô khác như ống dẫn, tuyến nang, biểu mô vảy, mạch máu, hoại tử, v.v thành các lớp riêng biệt Phương pháp hợp nhất phi tuyến tính căn chỉnh theo điểm ảnh trong nghiên cứu trên các độ phân giải không gian khác nhau cung cấp cho mô hình khả năng nhìn bao quát từ cả góc độ cục bộ và toàn cục, giúp phát hiện chính xác các lớp mô khác nhau Mô hình đề xuất của nghiên cứu này có thể phân biệt các vùng không đạt yêu cầu như nếp gấp, hiện vật, vùng mờ, và bọt khí khỏi các vùng mô, nhờ vào ngữ cảnh đa cấp từ các độ phân giải khác nhau của ảnh toàn bản Quá trình huấn luyện đa giai đoạn với tăng cường nhận thức ngữ cảnh và tăng dần độ nhiễu đã được áp dụng để huấn luyện một mô hình tổng quát Điểm đột phá trong nghiên cứu này là việc kết hợp ngữ cảnh đa cấp trong quá trình xử lý ảnh, nghĩa là mô hình không chỉ sử dụng thông tin ở một mức độ phóng đại mà còn kết hợp thông tin từ nhiều mức độ phóng đại khác nhau Hạn chế của nghiên cứu này là yêu cầu về tính toán và thời gian huấn luyện Việc xử lý ảnh ở nhiều mức độ phóng đại đồng nghĩa với việc tăng đáng kể khối lượng tính toán cần thiết, đòi hỏi hệ thống máy tính mạnh và thời gian huấn luyện dài hơn so với các phương pháp truyền thống Điều này có thể gây trở ngại khi áp dụng vào môi trường thực tế, đặc biệt là trong các bệnh viện hoặc cơ sở y tế có nguồn lực hạn chế.
Nghiên cứu về phân đoạn mô bệnh ung thư dựa trên mạng chú ý thị giác
Một bước tiến khác là việc sử dụng mạng chú ý thị giác trong phân đoạn mô bệnh ung thư [8] Mô hình này tập trung vào việc nắm bắt các đặc trưng cục bộ và toàn cục của ảnh, giúp cải thiện độ chính xác trong phân đoạn các vùng phức tạp như khối u, mô đệm và bạch huyết Trong quy trình chẩn đoán tiêu chuẩn, việc kiểm tra các mẫu mô ung thư được nhuộm bằng hematoxylin và eosin dưới kính hiển vi đóng vai trò quan trọng Nghiên cứu này đề xuất một mô hình phân đoạn mô ung thư dựa trên mạng lưới chú ý thị giác Mô hình này tích hợp một mô-đun cơ chế chú ý nhằm nắm bắt các đặc trưng toàn cục và cục bộ, đồng thời kết hợp với mạng lưới kim tự tháp đặc trưng và mô-đun tổ hợp kim tự tháp để nâng cao khả năng nhận diện đặc trưng Phương pháp được đề xuất có khả năng phân đoạn chính xác các vùng mô trong hình ảnh bệnh lý ung thư vú và phổi, bao gồm các cấu trúc như khối u, mô đệm, bạch huyết và hoại tử Kết quả thực nghiệm đã chứng minh tính hiệu quả của mô hình với sự cải thiện đáng kể về độ chính xác so với các mô hình cơ sở tốt nhất trên các bộ dữ liệu BCSS và WSSS4LUAD Thách thức của phương pháo trên là việc triển khai mô hình này trong môi trường thực tế có thể gặp khó khăn do yêu cầu tính toán cao và khó khăn trong việc tối ưu hóa thời gian thực.
Đóng góp chính của luận văn
Luận văn đề xuất một phương pháp mới kết hợp giữa phân đoạn và phân loại phân cấp nhằm nâng cao độ chính xác trong việc phát hiện các vùng phổi bị ung thư.Đồng thời góp phần cải tiến kiến trúc mô hình học sâu hiện có và bổ sung các kỹ thuật mới để nâng cao hiệu suất của mô hình khi xử lý dữ liệu phức tạp, bao gồm việc xử lý các chi tiết rất nhỏ trong ảnh mô bệnh học và giải quyết thách thức về mất cân bằng số lượng nhãn Mặc dù các mô hình truyền thống có thể hoạt động tốt trên các bộ dữ liệu chuẩn và công khai nhưng chúng lại chưa hiệu quả khi kiểm thử trên dữ liệu thu thập từ thực tế, phương pháp được đề xuất nhằm vượt qua hạn chế của các mô hình học sâu phân đoạn truyền thống, vốn hoạt động kém hiệu quả khi kiểm thử trên dữ liệu thu thập từ thực tế.
Bằng cách kết hợp phân đoạn với phân loại phân cấp, phương pháp này giúp mô hình không chỉ xác định chính xác vị trí các cấu trúc trong ảnh mà còn phân loại đúng loại mô hoặc tế bào dựa trên cấp độ phân cấp, cải thiện khả năng áp dụng trong môi trường lâm sàng Thực nghiệm trên tập dữ liệu được thu thập từ Bệnh viện Bạch Mai, với sự giám sát và gán nhãn của đội ngũ y bác sĩ, giúp đánh giá hiệu quả của phương pháp đề xuất trong môi trường thực tế thay vì chỉ trên các bộ dữ liệu chuẩn và công khai, từ cơ sở đó, luận văn cung cấp một phương pháp phân vùng ảnh mô bệnh học có tính khả thi và hiệu quả cao, góp phần hỗ trợ các bác sĩ và nhân viên y tế trong việc chẩn đoán và ra quyết định điều trị ung thư phổi trong thực tiễn lâm sàng.
Kiến thức nền tảng 11 2.1 Mô hình học sâu trong phân đoạn hình ảnh
Mạng nơ-ron tích chập
Mạng nơ-ron tích chập (CNN) [2] là một công cụ mạnh mẽ trong việc trích xuất đặc trưng từ dữ liệu hình ảnh, nhờ vào các phép toán tích chập trên không gian điểm ảnh.
Mạng CNN đã được ứng dụng rộng rãi và đạt được nhiều thành công trong các nhiệm vụ xử lý và phân tích hình ảnh, bao gồm phân đoạn hình ảnh - một nhiệm vụ quan trọng trong lĩnh vực thị giác máy tính Trong bài toán phân đoạn hình ảnh,CNN đóng vai trò cốt lõi trong việc xác định và phân loại các vùng khác nhau của một bức ảnh ở cấp độ điểm ảnh Các phép tích chập được thực hiện trên các lớp của mạng giúp học và trích xuất những đặc trưng quan trọng từ hình ảnh, từ những đặc trưng cơ bản như cạnh và góc đến những đặc trưng phức tạp hơn ở các lớp sâu
Việc kết hợp các đặc trưng này cho phép mô hình nơ ron tích chập xác định chính xác các vùng có ý nghĩa khác nhau trong một bức ảnh [12] Tuy nhiên, để nâng cao hiệu quả phân đoạn, CNN thường được tích hợp thêm các kỹ thuật khác như chuẩn hóa, bộ gộp, và các phép biến đổi phi tuyến nhằm cải thiện khả năng phân biệt các đặc trưng và giảm thiểu sự mất mát thông tin Mặc dù CNN đã chứng tỏ hiệu quả vượt trội trong phân đoạn hình ảnh, các kiến trúc mạng tiên tiến như U-Net và các biến thể của nó đã được phát triển nhằm cải thiện độ chính xác và khả năng tổng quát hóa, đặc biệt trong những ứng dụng đòi hỏi độ phân giải cao và khả năng phân đoạn chính xác đến từng điểm ảnh.
Mạng nơ-ron sâu (DNN)
Để mô hình hóa các quan hệ phức tạp giữa đầu vào và đầu ra, mạng nơ-ron sâu
[13] nhân tạo được sử dụng rộng rãi trong học sâu với nhiều lớp ẩn giữa lớp đầu vào và lớp đầu ra Mạng này bao gồm các khái niệm cơ bản như lan truyền tiến, lan truyền ngược và cập nhật trọng số thông qua tối ưu hóa.
Khi lan truyền tiến, mạng nơ-ron sâu bao gồm nhiều lớp, mỗi lớp chứa một tập hợp các nơ-ron Trong lan truyền tiến, một mạng vớiLlớp, mỗi lớpl có: Đầu vào x (l) ∈R n l , trong đó n l là số nơ-ron trong lớp đó Trọng số W (l) ∈R n l ×n l−1 và độ lệch (bias)b (l) ∈R n l Đầu raa (l) ∈R n l là kết quả sau khi áp dụng hàm kích hoạt, đầu ra của lớpl trước khi áp dụng hàm kích hoạt được tính bằng công thức 2.1 z (l ) =W (l) a (l−1) +b (l ) (2.1)
Trong đó, z (l) là đầu vào tuyến tính của lớpl W (l) là ma trận trọng số kết nối từ lớpl−1 đến lớp l.b (l) là độ lệch véc tơ của lớp l.a (l−1) là đầu ra từ lớp trước đó l−1(hoặc là đầu vào nếul =1) Đầu ra của lớpl sau khi áp dụng hàm kích hoạt a (l) =g(z (l) )
Trong đú,g(ã)là hàm kớch hoạt phi tuyến Quỏ trỡnh trờn được lặp lại cho đến lớp đầu ra, nơi mà kết quả đầu ra của mạng,a (L) , sẽ được tính toán Hàm mất mát đo lường sự khác biệt giữa đầu ra dự đoán của mạng (output) và giá trị thực tế.
Với một tập huấn luyện có m mẫu, hàm mất mát tổng quát được biểu diễn như công thức 2.2
Trong đó, ℓ(y,y)ˆ là hàm mất mát cho một mẫu, trong luận văn sử dụng Cross- Entropy Loss cho phân loại và Mean Squared Error (MSE) cho hồi quy y (i) là nhãn thật của mẫu thứi.yˆ (i) =a (L) là dự đoán của mạng cho mẫu thứi Trong quá trình lan truyền ngược, đạo hàm của hàm mất mát chỉ ra mức độ thay đổi của hàm mất mát khi một trong các tham số thay đổi một lượng nhỏ, được tính toán đối với các trọng số của mạng giúp cập nhật trọng số để giảm thiểu mất mát Đạo hàm bậc nhất của hàm mất mát đối với đầu ra của lớp cuối cùngL được biểu diễn như công thức 2.3
∂a (L) ⊙g ′ (z (L) ) (2.3) Trong đó,⊙ là phép nhân từng phần tử,g ′ (z (L) ) là đạo hàm của hàm kích hoạt tại lớp cuối cùng Từ lớp L đến lớp 1, đạo hàm bậc nhất được lan truyền ngược qua mỗi lớp 2.4
⊙g ′ (z (l) ) (2.4) Đạo hàm của hàm mất mát đối với trọng số và độ lệch của mỗi lớp được tính như công thức 2.5
∂z (l) Để giải thích rõ hơn, các thành phần trong công thức tính đạo hàm này như sau:
∂z (l) : Đạo hàm bậc nhất của hàm mất mátL với đầu vào tuyến tínhz (l) của lớpl Đây là giá trị cần tính toán.
∂z (l+1) : Đạo hàm bậc nhất của hàm mất mátL với đầu vào tuyến tínhz (l+1) của lớp tiếp theo (l+1) Đây là giá trị đã được tính toán từ lớp tiếp theo trong quá trình lan truyền ngược.
Hình 2.2: Kiến trúc của mạng nơ ron sâu [14].
- g ′ (z (l) ): Đạo hàm của hàm kớch hoạt g(ã) tại lớp l, tớnh tại giỏ trị đầu vào z (l) Đây là đạo hàm của hàm phi tuyến (như ReLU, Sigmoid, Tanh) áp dụng trên đầu vào của lớpl.
- ⊙: Phép nhân từng phần tử có nghĩa là nhân hai véc tơ hoặc ma trận với nhau theo từng phần tử tương ứng.
Cuối cùng, các trọng số được cập nhật để nhằm giảm thiểu hàm mất mát theo công thức 2.6 và 2.7
Vớiη là tốc độ học (LR- Learning Rate).
Mạng nơ ron đa nhiệm [1]
Trong các bài toán thực tế, một loại mô hình học sâu [15] được thiết kế để thực hiện đồng thời nhiều nhiệm vụ khác nhau thay vì huấn luyện các mô hình riêng lẻ cho từng nhiệm vụ, một mạng nơ ron đa nhiệm học cách thực hiện nhiều nhiệm vụ liên quan đến nhau bằng cách chia sẻ kiến thức giữa các nhiệm vụ, giúp cải thiện hiệu suất và giảm thiểu việc quá khớp Giả sử ta có một đầu vào chung [16]x, và mô hình phải thực hiệnT nhiệm vụ khác nhau.
Hình 2.3: Kiến trúc của một mạng nơ ron đa nhiệm [17].
Mỗi nhiệm vụt có đầu ra tương ứng lày (t) đầu ra của nhiệm vụ thứt lày(tˆ ).
Về cấu trúc, mạng nơ-ron đa nhiệm [18] được chia thành hai phần chính đó là lớp chia sẻ gồm các lớp đầu tiên thực hiện việc trích xuất đặc trưng từ đầu vào x và được chia sẻ giữa tất cả các nhiệm vụ như công thức 2.8
• hlà đặc trưng được chia sẻ.
• f shared là hàm biểu diễn các lớp chia sẻ.
• θ shared là tập hợp các tham số của các lớp chia sẻ.
Sau khi đặc trưng được chia sẻhđã được tính toán xong, nó được chuyển qua các lớp đặc thù chuyên biệt cho từng nhiệm vụ 2.9 ˆ y (t) = f task (t ) (h;θ task (t) ) (2.9) Trong đó:
• f task (t) là hàm biểu diễn các lớp chuyên biệt cho nhiệm vụt.
• θ task (t ) là tập hợp các tham số của các lớp chuyên biệt cho nhiệm vụt.
• ˆy (t) là đầu ra dự đoán cho nhiệm vụt.
Hàm mất mát tổng hợp Mỗi nhiệm vụt có một hàm mất mát L (t) riêng Hàm mất mát tổng hợp cho toàn bộ mạng là tổng có trọng số của các hàm mất mát 2.10
Tối ưu hóa quá trình huấn luyện mạng nơ-ron đa nhiệm [19] là tìm các tham số θshared vàθ task (t) sao cho hàm mất mát tổng hợpL được tối thiểu hóa như biểu diễn 2.11 min θ shared ,{θ task (t) } T t=1
• L (t ) (y (t ) ,yˆ (t) ) là hàm mất mát cho nhiệm vụ t, đo lường sự khác biệt giữa đầu ra thực tếy (t ) và đầu ra dự đoányˆ (t)
• λ (t) là trọng số cho nhiệm vụ t, xác định tầm quan trọng của nhiệm vụ này trong hàm mất mát tổng hợp. quá trình tối ưu hóa thường được thực hiện bằng các phương pháp như hạ dốc hoặc các biến thể của nó (Adam, RMSprop, v.v.).
Phương pháp phân loại phân cấp
Một phương pháp phân loại được áp dụng trong đó các lớp được tổ chức theo một cấu trúc phân cấp phân tầng thay vì phân loại đối tượng vào một lớp phẳng như trong phân loại truyền thống, phương pháp này phân loại theo nhiều cấp độ của một cây phân cấp, bắt đầu từ các lớp tổng quát hơn ở cấp cao và tiếp tục phân chia đến các lớp cụ thể hơn ở cấp thấp hơn các lớp được sắp xếp theo dạng cây Mỗi nút trong cây đại diện cho một lớp, và các lớp con nằm dưới lớp cha theo một mối quan hệ phân cấp rõ ràng [20] Ví dụ Cấp 1: Mô bệnh hay mô bình thường Cấp 2:
5 loại bệnh chính Cấp 3: 15 loại bệnh chi tiết hơn
Việc phân loại theo cấu trúc phân cấp có thể tăng độ chính xác vì các lớp con thường chia sẻ thông tin đặc trưng với lớp cha Các lớp C được tổ chức thành một cây phân cấp T = (V,E) với V là tập hợp các nút trong cây, mỗi nút đại diện cho một lớp, E là tập hợp các cạnh trong cây, mỗi cạnh biểu thị mối quan hệ phân cấp giữa các lớp, mỗi lớp c thuộc C đều có một vị trí cụ thể trong cây phân cấp Mỗi đối tượngx được phân loại qua nhiều cấp độ và ở mỗi cấp độ, mô hình sẽ dự đoán lớpy k tương ứng là lớp dự đoán ở cấp độk vớik=1,2, ,d vàd là độ sâu tối đa của cây, tập hợp các nhãn dự đoán cho đối tượngx lày = (y 1 ,y 2 , ,y d )Mô hình hóa xác suất có điều kiện để dự đoán lớpy k tại cấp độ k dựa trên các cấp độ trước đóy= (y 1 ,y 2 , ,y d ) P(y k |x,y 1 ,y 2 , ,y k−1 )vớix là đầu vào và y 1 ,y 2 , ,y k−1 là các lớp dự đoán tại các cấp độ trước đó được biểu diễn như công thức 2.12
• L(x,y,y)ˆ là hàm mất mát tổng quát.
• ℓ(y k ,yˆ k )là hàm mất mát giữa nhãn đúngy k và nhãn dự đoán yˆ k
• λ là hệ số điều chỉnh tầm quan trọng của khoảng cách.
Bằng cách tận dụng thông tin từ các cấp độ khác nhau, phương pháp này có thể cải thiện độ chính xác và hiệu quả của mô hình.
Xử lý ảnh y tế
2.3.1 Khái niệm về ảnh toàn bản mô bệnh học
Công nghệ hình ảnh kỹ thuật số tiên tiến được sử dụng để số hóa toàn bộ tiêu bản mô bệnh học [21], cho phép lưu trữ và phân tích hình ảnh ở độ phân giải rất cao. Điều này cung cấp một cách tiếp cận toàn diện để chẩn đoán và nghiên cứu các bệnh lý, ảnh kỹ thuật này số có độ phân giải cao, có thể lên đến hàng tỷ điểm ảnh. Mỗi ảnh có thể bao quát toàn bộ tiêu bản, bao gồm tất cả các chi tiết của mẫu mô, do độ phân giải cao, các ảnh kỹ thuật số toàn bản thường có dung lượng rất lớn, có thể từ vài trăm MB đến vài GB cho mỗi slide, điều này đòi hỏi nhiều tài nguyên lưu trữ và xử lý, hình ảnh có thể được xem ở nhiều mức độ phóng đại khác nhau từ 5x, 10x, 20x, có thể đến 40x, cho phép bác sĩ hoặc nhà nghiên cứu phóng to và thu nhỏ để xem chi tiết từ cấp độ tế bào đến toàn bộ mẫu mô.
2.3.2 Xử lý ảnh toàn bản theo các mảng
Do kích thước lớn, ảnh mô bệnh học thường được chia thành các ô nhỏ hơn như 128x128, 256x256 hoặc 512x512 điểm ảnh để dễ dàng xử lý và phân tích Các ô nhỏ được xử lý riêng biệt và sau đó kết hợp kết quả lại để tái tạo toàn bộ hình ảnh
[22] Điều này giúp giảm yêu cầu về bộ nhớ và tài nguyên tính toán.
2.3.3 Học sâu dựa trên các mảng
Sử dụng mạng nơ ron để phân tích các mảng nhỏ của ảnh: Một bức ảnh lớn được chia thành nhiều mảng nhỏ và mỗi mảng được đưa vào mạng nơ ron để phân loại hoặc phân đoạn [19] Sau đó, kết quả của các mảng được kết hợp lại để tạo ra kết quả cuối cùng Để cải thiện độ chính xác, các mảng có thể được lấy mẫu chồng lấn để giữ ngữ cảnh, đảm bảo rằng các ranh giới giữa các mảng được xử lý chính xác.
Hình 2.4: Tổng quan kiến trúc của mô hình U-Net [23].
2.3.4 Mô hình học sâu U-Net trong phân đoạn hình ảnh
Mô hình U-Net [24] là một kiến trúc mạng nơ-ron được sử dụng phổ biến trong các bài toán phân đoạn ảnh, đặc biệt là trong lĩnh vực y tế như phân đoạn hình ảnh sinh thiết (mô bệnh học) hoặc ảnh y tế khác Mô hình này được phát triển bởi Olaf Ronneberg, Philipp Fischer, và Thomas Brox và được giới thiệu lần đầu vào năm
2015 mô hình U-Net được chia thành hai phần chính: đường thu hẹp và đường mở rộng Mô hình này có hình dáng giống chữ "U"được mô tả như Hình 2.4, từ đó xuất phát tên gọi "U-Net" Đường thu hẹp bao gồm các lớp chập và các lớp thu nhỏ kích thước để giảm dần kích thước không gian của ảnh và trích xuất các đặc trưng quan trọng bao gồm:
• Lớp tích chập Mỗi bước trong phần contracting thường bao gồm hai lớp chập liên tiếp với các bộ lọc nhỏ (3x3) và bước nhảy bằng 1, nhằm giữ nguyên kích thước của ảnh sau khi chập Sau mỗi lớp chập là một lớp kích hoạt thường sử dụng hàm kích hoạt phi tuyến. Đồng thời tăng số lượng các bản đồ đặc trưng Điều này giúp mô hình có thể học được các đặc trưng ở các cấp độ trừu tượng khác nhau.
• Số lượng chọn lọcbắt đầu từ một giá trị nhỏ (chẳng hạn 64) và tăng dần sau mỗi bước pooling (128, 256, 512, v.v.).
Nút cổ chai là phần chuyển tiếp giữa đường thu hẹp và đường mở rộng, chứa các lớp chập có độ sâu cao nhất nhưng không thực hiện giảm kích thước Nó nhằm trích xuất các đặc trưng trừu tượng nhất từ ảnh Còn đường mở rộng là quá trình ngược lại với đường thu hẹp với mục tiêu là tái tạo kích thước không gian của ảnh gốc từ các đặc trưng đã trích xuất.
• Phục hồi kích thước/Giải tích chập Thay vì sử dụng lớp thu nhỏ để giảm kích thước, quá trình này sử dụng các lớp phục hồi, thường là tích chập chuyển vị để tăng kích thước không gian của ảnh lên.
• Kết nối bỏ qua Ở mỗi bước tái tạo không gian, mô hình sẽ kết hợp các bản đồ đặc trưng từ bước tương ứng ở đường thu hẹp với các bản đồ đặc trưng hiện tại Điều này giúp giữ lại thông tin không gian chi tiết từ các lớp trước đó, giúp cải thiện quá trình phân đoạn.
• Các lớp tích chập Giống như phần thu hẹp, mỗi bước trong đường mở rộng cũng bao gồm hai lớp chập liên tiếp với các nhân tích chập kích thước 3x3 và bước nhảy bằng 1, theo sau là các lớp kích hoạt phi tuyến.
• Các bộ lọc Số lượng bộ lọc giảm dần (ngược lại với đường thu hẹp) sau mỗi bước phục hồi kích thước (512, 256, 128, 64, v.v.).
Lớp đầu ra bao gồm:
• Lớp cuối cùng của mô hình là một lớp chập với bộ lọc kích thước 1x1 Điều này giúp chuyển đổi các bản đồ đặc trưng cuối cùng thành số lượng kênh mong muốn ở đầu ra, thường là 1 kênh cho phân đoạn nhị phân hoặc nhiều kênh hơn cho phân đoạn đa lớp.
Mô hình U-Net [25] đặc biệt hiệu quả trong các bài toán phân đoạn hình ảnh vì khả năng kết hợp thông tin từ cả cấp độ thấp và cao nhờ vào các kết nối bỏ qua. Điều này giúp U-Net có thể thực hiện phân đoạn chính xác ngay cả với những dữ liệu đầu vào có kích thước nhỏ Phần thu hẹp giúp nắm bắt các đặc trưng chi tiết, trong khi phần mở rộng giúp khôi phục lại hình ảnh và tạo ra mặt nạ phân đoạn chính xác.
2.3.5 Mô hình U-Net lồng trong phân đoạn hình ảnh
U-Net lồng hay còn gọi là U-Net++ là một biến thể nâng cấp của mô hình U-Net
[26], được thiết kế để cải thiện khả năng phân đoạn ảnh trong các bài toán như y học hoặc thị giác máy tính Mô hình U-Net lồng bổ sung thêm các yếu tố giúp cải thiện độ chính xác và khả năng học của mô hình so với U-Net truyền thống Mô hình UNet++ [27] sử dụng các đường nối dày đặc và phân lớp giữa các tầng tương ứng trong phần mã hóa/ thu nhỏ kích thước và giải mã/ phục hồi kích thước Điều này giúp các tầng giải mã có thêm thông tin chi tiết từ các tầng mã hóa, giúp mô hình học được nhiều đặc trưng hơn Thay vì sử dụng một phần giải mã cố định, U-Net lồng có các phần giải mã phân đoạn giúp giảm độ phức tạp tính toán và cho phép mô hình dễ dàng điều chỉnh các tham số trong quá trình huấn luyện Các kết nối bỏ qua được tinh chỉnh và thiết kế lại để sâu hơn, giúp cải thiện khả năng truyền dẫn và học các đặc trưng chi tiết, U-Net lồng kết hợp thông tin từ nhiều tầng mã hóa khác nhau, giúp cải thiện khả năng nắm bắt đặc trưng ở các mức độ khác nhau thay vì truyền thông tin từ các tầng mã hóa thẳng đến tầng giải mã tương ứng Hình 2.5 mô tả kiến trúc U-Net lồng trong phương pháp kết hợp với bộ phân loại ảnh.
Các phương pháp đánh giá
2.4.1 Độ chính xác Độ chính xác (accuracy) đo lường tỷ lệ phần trăm của các dự đoán đúng trên tổng số các dự đoán Trong trường hợp phân đoạn ảnh, độ đo này được tính dựa trên các điểm ảnh trong ảnh.
Hình 2.5: Kiến trúc của mô hình U-Net lồng với mạng phân loại [28].
• N là tổng số điểm ảnh trong toàn bộ tập dữ liệu.
• y i là nhãn thực tế của điểm ảnh thứi(vớii=1,2, ,N).
• ˆy i là nhãn dự đoán của điểm ảnh thứ i(vớii=1,2, ,N).
Khi đó, độ chính xác được tính như công thức 2.13
Trong đó:1(yˆ i =y i )là một hàm chỉ thị bằng 1 nếu dự đoányˆ i đúng với nhãn thực tếyi, và bằng 0 nếu sai.N là tổng số điểm ảnh trong tập dữ liệu.
2.4.2 Độ nhạy Độ nhạy đo lường khả năng của mô hình trong việc dự đoán đúng các điểm ảnh thuộc lớp dương tính, được tính theo công thức 2.14
Trong đó: TP (Dương tính thật):Số lượng điểm ảnh được dự đoán là lớp dương tính và thực sự là lớp dương tính.FN (Âm tính giả): Số lượng điểm ảnh được dự đoán là không thuộc lớp dương tính nhưng thực tế lại là lớp dương tính.
2.4.3 Độ đặc hiệu trên điểm ảnh Độ đặc hiệu đo lường khả năng của mô hình trong việc dự đoán đúng các điểm ảnh thuộc lớp âm tính, được tính theo công thức 2.15
Trong đó:TN (Âm tính thật):Số lượng điểm ảnh được dự đoán là lớp âm tính và thực sự là lớp âm tính.FP (Dương tính giả): Số lượng điểm ảnh được dự đoán là thuộc lớp dương tính nhưng thực tế là lớp âm tính.
IoU là một thước đo quan trọng trong phân đoạn ảnh, đo lường mức độ trùng khớp giữa vùng dự đoán và vùng nhãn thực tế và được tính theo công thức 2.16
Trong đó: Diện tích giao là số lượng điểm ảnh mà cả nhãn thực tế và nhãn dự đoán đều nhận dạng là dương tính.Diện tích hợp là tổng số lượng điểm ảnh được nhận dạng là dương tính trong cả nhãn thực tế và nhãn dự đoán Độ đo này được biểu diễn bởi công thức 2.17
Phương pháp phân vùng kết hợp phân loại phân cấp sử dụng mô hình học sâu U-Net
Các nghiên cứu hiện đại có xu hướng hiện tại đang đẩy mạnh sự kết hợp giữa phân loại và phân vùng để tạo ra các mô hình mạnh mẽ hơn [22], điều này đặc biệt quan trọng trong các ứng dụng yêu cầu phân loại chính xác các vùng nhỏ trong ảnh, như trong phân tích hình ảnh mô bệnh học Mặc dù việc áp dụng các mô hình học sâu phân vùng thường hoạt động tốt trên các ảnh tự nhiên, nhưng lại gặp nhiều khó khăn khi áp dụng vào ảnh y tế do độ phức tạp của cấu trúc và độ tương phản thấp của các ảnh này
• Thử thách đầu tiên là về độ phức tạp của dữ liệu khi ảnh mô bệnh học thường có cấu trúc phức tạp với nhiều chi tiết nhỏ và màu sắc gần giống nhau, gây khó khăn cho cả phân loại và phân vùng Việc xác định ranh giới giữa các loại tế bào khác nhau hoặc giữa các vùng tổn thương và mô lành mạnh đòi hỏi độ chính xác cao, điều mà các mô hình thường gặp khó khăn khi thực hiện đồng thời cả phân loại và phân vùng [29].
• Tiếp theo vấn đề dữ liệu không cân bằng, đối với dữ liệu ảnh mô bệnh học, một số loại mô hoặc tế bào hiếm khi xuất hiện so với các loại khác dẫn tới việc làm giảm hiệu suất của mô hình khi cần phân loại và phân vùng chính xác những vùng này Dữ liệu anh mô bệnh học cũng có sự biến thiên lớn về cấu trúc và màu sắc do nhiều yếu tố như kỹ thuật nhuộm mô, cách lấy mẫu và điều kiện ánh sáng khi chụp ảnh, những điều này làm cho việc tạo ra một mô hình có khả năng tổng quát hóa tốt là một thách thức lớn.
• Việc phân vùng độc lập [30] từng lớp đòi hỏi tài nguyên và thời gian tính toán lớn do mô hình phải thực hiện từng nhiệm vụ phức tạp lần lượt hoặc riêng biệt Mô hình có thể gặp khó khăn trong việc nhận diện và phân loại các lớp với mức độ phức tạp cao hơn hoặc các lớp có kích thước hiếm gặp dẫn đến khả năng tổng quát hóa kém, mô hình có thể bỏ lỡ thông tin ngữ cảnh quan trọng, dẫn đến việc phân vùng và phân loại sai Khi số lượng lớp phân loại lớn, việc không có phân loại phân cấp sẽ khiến mô hình gặp khó khăn trong việc phân loại chính xác, đặc biệt là khi các lớp này có sự tương đồng cao
• Trong lĩnh vực y tế, tính minh bạch và khả năng giải thích của mô hình là rất quan trọng Tuy nhiên, các mô hình kết hợp phân loại và phân vùng thường phức tạp, khó giải thích, đặc biệt là khi mô hình mắc lỗi, do đặc trưng được chia sẻ giữa tất cả các nhánh nên rất khó phân biệt lỗi gây ra bởi nhánh nào. Điều này có thể làm giảm sự tin tưởng của các bác sĩ vào kết quả do mô hình đưa ra. Để giải quyết các thử thách trên, một số phương pháp hợp nhất đã được đề xuất. Các phương pháp này cho thấy sự hiệu quả về tỷ lệ thành công trên một số tập dữ liệu có sẵn Tuy nhiên, theo quan sát, các phương pháp này cần nhiều chi phí về thời gian và hiệu quả thường giảm đáng kể trên các tập dữ liệu đặc thù khác Có hai lý do giải thích cho điều này, đó là chi phí thu thập dữ liệu ảnh mô bệnh học thường rất lớn và yêu cầu tài nguyên huấn luyện rất cao Cụ thể như sau:
• Việc thu thập và gán nhãn dữ liệu ảnh mô bệnh học đòi hỏi nguồn lực lớn, cả
Không những vậy, số lượng dữ liệu cần thiết để huấn luyện một mô hình học sâu hiệu quả là rất lớn, làm tăng đáng kể chi phí Điều này gây khó khăn trong việc áp dụng các mô hình đã được huấn luyện trên dữ liệu chung sang các dữ liệu đặc thù khác, nơi mà số lượng và chất lượng dữ liệu có thể không đủ cao.
• Các mô hình học sâu kết hợp phân loại và phân vùng [25], đặc biệt là trong các bài toán phức tạp như phân tích ảnh mô bệnh học, thường yêu cầu lượng tài nguyên tính toán lớn Các mô hình này phải xử lý đồng thời nhiều nhiệm vụ phức tạp và dữ liệu có độ phân giải cao, dẫn đến thời gian huấn luyện kéo dài và chi phí vận hành cao Điều này đặc biệt khó khăn khi áp dụng trong các môi trường hạn chế về tài nguyên hoặc khi cần triển khai trên diện rộng
Luận văn đề xuất phương pháp kết hợp phân vùng và phân loại phân cấp, mô hình phân loại phân cấp giúp tạo ra một cấu trúc cho phép mô hình hiểu rõ hơn mối quan hệ giữa các lớp Việc này giúp mô hình nhận biết tốt hơn các chi tiết nhỏ và các vùng khó phân biệt trong ảnh mô bệnh học Bằng cách này, mô hình không chỉ học cách phân vùng mà còn phân loại các vùng đó theo cấp bậc, giúp tăng cường độ chính xác và khả năng tổng quát hóa Để giải quyết vấn đề dữ liệu không cân bằng và biến thiên trong ảnh mô bệnh học, các phương pháp chia sẻ đặc trưng, tăng cường dữ liệu được áp dụng, những phương pháp này giúp mô hình học tốt hơn từ các lớp hiếm, từ đó cải thiện hiệu suất phân loại và phân vùng trên những vùng phức tạp và khó phân biệt Học sâu kết hợp với dữ liệu phân cấp và tăng cường dữ liệu có thể giúp mô hình xử lý tốt hơn các biến thiên về màu sắc và cấu trúc trong ảnh Mô hình đa nhiệm thực hiện đồng thời cả phân vùng và phân loại trong cùng một mạng nơ-ron Điều này giúp giảm tài nguyên và thời gian tính toán, đồng thời cải thiện khả năng học của mô hình thông qua việc chia sẻ thông tin giữa các nhiệm vụ Phương pháp gồm ba giai đoạn chính Cụ thể là
(i)Chuẩn bị (xem Mục 3.2.1.), (ii)Huấn luyện (xem Mục 3.2.2.), và(iii)Dự đoán(xem Mục 3.2.3.) Cuối cùng, đầu ra của phương pháp là một tập dữ liệu gồm các nhãn dự đoán.
Hình 3.1: Tổng quan phương pháp đề xuất Phương pháp gồm ba giai đoạn, làGiai đoạn 1: Chuẩn bị,Giai đoạn 2: Huấn luyện, vàGiai đoạn 3: Dự đoán.
Thực nghiệm 40 4.1 Thiết lập thực nghiệm
Kết quả thực nghiệm
Tổng hợp kết quả thực nghiệm trên bảng 4.3 cho thấy đối với bài toán phân vùng nhị phân, U-Net có kết quả vượt trội hơn cả với IoU là 0.6766, thể hiện khả năng phân vùng tốt hơn so với HC U-Net và U-Net++ Điều này cho thấy U-Net thực hiện tốt hơn trong việc xác định đúng các vùng mục tiêu so với các mô hình khác. Mặc dù U-Net++ có sự cải thiện nhỏ so với HC U-Net, U-Net vẫn vượt trội hơn với giá trị IoU cao hơn (0.6391) Điều này cho thấy rằng U-Net có khả năng phân vùng chính xác hơn trong trường hợp phân loại đa lớp hơn Ở nhánh 17 lớp, cả ba mô hình đều có kết quả thấp hơn, điều này phản ánh rằng khi số lớp phân loại tăng lên, việc xác định đúng vùng phân loại trở nên khó khăn hơn Đây là chỉ số quan trọng trong việc đánh giá khả năng dự đoán đúng vùng mục tiêu so với vùng thực tế U-Net hoạt động tốt nhất do kiến trúc đơn giản và hiệu quả trong các bài toán phân vùng ảnh nhị phân HC U-Net tuy có cấu trúc phức tạp hơn nhưng kém hiệu quả hơn trong việc phân vùng nhị phân, có thể do việc phân chia đặc trưng giữa các nhánh làm giảm khả năng tập trung vào nhánh đơn lẻ Khi số lớp tăng lên, IoU của tất cả các mô hình giảm, đặc biệt là HC U-Net (0.5160) Mô hình U-Net vẫn giữ được hiệu suất tốt hơn với IoU là 0.6391 Điều này cho thấy khả năng phân vùng của U-Net khi đối mặt với các lớp phức tạp hơn vẫn ổn định HC U-Net gặp khó khăn trong việc chia sẻ đặc trưng giữa các lớp, khiến mô hình không tập trung tốt vào từng lớp cụ thể.
U-Net đạt độ chính xác cao nhất (0.9833), cho thấy khả năng dự đoán đúng cao HC U-Net mặc dù có độ chính xác cao (0.9405) nhưng không thể vượt qua U-Net Nguyên nhân có thể do HC U-Net có cấu trúc phức tạp với nhiều nhánh, dẫn đến việc chia sẻ tài nguyên làm giảm khả năng dự đoán chính xác Việc phân loại các lớp phức tạp hơn có thể làm giảm hiệu suất của các mô hình phức tạp như
HC U-Net, đặc biệt khi nó phải chia sẻ đặc trưng giữa các nhánh Kết quả về độ nhạy đo lường khả năng phát hiện đúng các vùng thuộc lớp mục tiêu U-Net có độ nhạy cao nhất (0.9530), có khả năng phát hiện vùng ung thư hiệu quả hơn so với HC U-Net (0.8564) Độ nhạy thấp hơn ở HC U-Net có thể do việc phân chia nhánh khiến mô hình bỏ sót một số đặc trưng quan trọng trong việc phát hiện lớp mục tiêu.
Bảng 4.3: Bảng tổng hợp kết quả thực nghiệm trên từng nhánh dữ liệu Độ đo Nhánh dữ liệu HC U-Net U-Net++ U-Net
IoU Nhánh 17 lớp 0.5007 0.4899 0.5450 Độ chính xác Nhánh nhị phân 0.9405 0.9365 0.9833 Độ chính xác Nhánh 5 lớp 0.8983 0.8942 0.9819 Độ chính xác Nhánh 17 lớp 0.8982 0.8738 0.9633 Độ nhạy Nhánh nhị phân 0.7584 0.7427 0.8751 Độ nhạy Nhánh 5 lớp 0.7266 0.7025 0.8559 Độ nhạy Nhánh 17 lớp 0.6285 0.6118 0.7709 Độ đặc hiệu Nhánh nhị phân 0.9382 0.9708 0.9830 Độ đặc hiệu Nhánh 5 lớp 0.9233 0.8542 0.9819 Độ đặc hiệu Nhánh 17 lớp 0.8963 0.8152 0.9803
Với nhánh 17 lớp, độ nhạy giảm mạnh ở cả ba mô hình HC U-Net có độ nhạy thấp hơn (0.5082), cho thấy mô hình này gặp khó khăn trong việc phát hiện các lớp nhỏ và phức tạp như Hình 4.7 Độ đặc hiệu đo lường khả năng phát hiện đúng các vùng không thuộc lớp mục tiêu U-Net có độ đặc hiệu cao nhất (0.9705), cho thấy khả năng xác định chính xác các vùng không phải ung thư HC U-Net đạt 0.9310, cho thấy mô hình này vẫn hoạt động tốt nhưng không thể vượt qua U-Net do sự phân chia tài nguyên trong kiến trúc HC U-Net và U-Net++ có độ đặc hiệu thấp hơn không nhiều cho thấy sự duy trì khả năng nhận diện chính xác các lớp không mục tiêu trong nhánh 5 lớp Với nhánh 17 lớp, độ đặc hiệu giảm ở cả ba mô hình U-Net vẫn có độ đặc hiệu cao nhất (0.7305), điều này cho thấy U-Net có khả năng duy trì độ chính xác trong việc nhận diện các vùng không thuộc lớp mục tiêu, dù số lượng lớp tăng lên.
Hình 4.7: Biểu đồ so sánh trực quan các mô hình theo độ đo đề xuất.
Nguyên nhân dẫn đến kết quả khác biệt giữa các mô hình đó là U-Net có kiến trúc đơn giản và mạnh mẽ trong phân vùng ảnh y tế, cho phép nó tập trung tốt vào các đặc trưng quan trọng mà không bị chia sẻ tài nguyên giữa các nhánh khác nhau Điều này giúp U-Net có khả năng phân vùng và phân loại tốt hơn, đặc biệt trong các trường hợp nhị phân và nhiều lớp phức tạp HC U-Net tuy có khả năng giảm thời gian huấn luyện và xử lý nhanh hơn, nhưng kiến trúc đa nhiệm của nó đòi hỏi chia sẻ đặc trưng giữa các nhánh, dẫn đến việc giảm hiệu suất trong một số nhánh phân loại hoặc phân vùng phức tạp hơn Việc chia sẻ tài nguyên giữa các nhánh có thể làm giảm khả năng tập trung vào các nhiệm vụ phân loại phức tạp. U-Net++ mặc dù có cải tiến về kết nối giữa các lớp, nhưng kết quả cho thấy không có nhiều lợi thế vượt trội so với U-Net và hiệu suất giảm khi số lớp tăng lên.
4.2.1 Trả lời câu hỏi RQ1: Kết quả quá trình huấn luyện các mô hình của phương pháp đề xuất như thế nào?
Bảng 4.4 thể hiện độ chính xác, độ nhạy, độ đặc hiệu điểm ảnh và chỉ số IoU đo độ trùng khớp trên tập dữ liệu huấn luyện Kết quả trên tập huấn luyện cho thấy tại nhánh nhị phân cho kết quả với độ chính xác rất cao, cho thấy mô hình phân loại nhị phân hoạt động tốt trong việc xác định hai lớp cơ bản Độ nhạy tương đối cao, nghĩa là mô hình có khả năng phát hiện tốt các mẫu thuộc về lớp dương Độ đặc hiệu cao cho thấy mô hình ít khi phân loại nhầm mẫu thuộc về lớp âm, chỉ số IoU ở mức trung bình, cho thấy mô hình phân đoạn không hoàn toàn tối ưu nhưng vẫn khá tốt với nhiệm vụ phân loại nhị phân Ở nhánh 5 lớp Độ chính xác cũng rất cao nhưng thấp hơn so với phân loại nhị phân, điều này hợp lý vì việc phân loại
5 lớp phức tạp hơn Độ nhạy giảm khá nhiều so với nhánh nhị phân, cho thấy mô hình gặp khó khăn hơn trong việc phát hiện đầy đủ tất cả các mẫu của mỗi lớp. Ngoài ra mô hình có khả năng xác định đúng các mẫu thuộc về lớp âm với độ đặc hiệu vẫn duy trì ở mức độ cao nhưng chỉ số IoU lại giảm xuống, cho thấy mô hình gặp khó khăn trong việc phân đoạn chính xác các vùng khi số lượng lớp tăng lên. Đối với nhánh 17 lớp, độ chính xác cho ra kết quả vẫn ở mức cao nhưng thấp hơn đáng kể so với các nhánh phân loại ít lớp hơn, điều này hợp lý vì số lượng lớp lớn hơn làm tăng độ khó của bài toán Độ nhạy giảm đáng kể, chỉ ra rằng mô hình gặp nhiều khó khăn trong việc nhận diện đầy đủ các mẫu thuộc tất cả các lớp Độ đặc hiệu vẫn cao, cho thấy mô hình có thể tránh các lỗi dương tính giả, nhưng không đủ mạnh trong việc phát hiện đúng tất cả các mẫu thuộc lớp dương Chỉ số IoU khá thấp, điều này thể hiện rằng khi số lượng lớp tăng lên, mô hình có xu hướng gặp nhiều khó khăn hơn trong việc phân đoạn chính xác các vùng tương ứng với các lớp.
Xét tổng quát, mô hình hoạt động tốt nhất ở nhánh phân loại nhị phân, điều này dễ hiểu vì nhiệm vụ này đơn giản nhất với ít lớp cần phân loại Khi số lượng lớp tăng lên, hiệu suất của mô hình giảm đi, thể hiện qua việc giảm độ chính xác, độ nhạy và chỉ số IoU Điều này chỉ ra rằng mô hình gặp nhiều thách thức hơn khi xử Độ đặc hiệu duy trì ở mức cao trên cả ba nhánh cho thấy mô hình ít mắc lỗi phân loại nhầm các mẫu thuộc lớp âm, điều này là một điểm tích cực Nhìn chung, mô hình hoạt động tốt trong việc phát hiện và phân đoạn các vùng mục tiêu, nhưng có thể cần cải thiện hơn về khả năng loại bỏ các vùng không liên quan Dựa trên kết quả kiểm thử và mục tiêu mong muốn của luận văn này là độ chính xác trên 95% thì nhà phát triển cần có chiến lược phù hợp để điều chỉnh mô hình.
Bảng 4.4: Các độ đo đánh giá các nhánh đầu ra của mô hình đề xuất
Mô hình Nhị phân 5 lớp 17 lớp Độ chính xác 0.9772 0.9618 0.9304 Độ nhạy 0.8693 0.6636 0.5082 Độ đặc hiệu 0.9766 0.9429 0.9272 Chỉ số IoU 0.6102 0.363 0.3552
4.2.2 Trả lời câu hỏi RQ2: So sánh độ chính xác, độ nhạy, độ đặc hiệu, chỉ số IoU của các phương pháp sử dụng các mô hình U-Net, U-Net lồng và mô hình đề xuất (HC U- Net) Đầu vào dữ liệu gốc của các phương pháp là tập dữ liệuSgồm 1200 ảnh mô bệnh học Bên cạnh đó, ba mô hình mục tiêu có độ chính xác trên 90% trên tập dữ liệu này Kết quả so sánh về các độ đo trên tập S lần lượt được thể hiện tại Bảng 4.5 thể hiện so sánh độ đo giữa ba mô hình được lựa chọn trong thực nghiệm.
Mô hình HC U-Net Nested U-Net U-Net Chỉ số IoU 0.5630 0.5132 0.6202 Độ chính xác 0.9123 0.9016 0.9761 Độ nhạy 0.7046 0.6857 0.8339 Độ đặc hiệu 0.9192 0.8800 0.9817
Bảng 4.5: So sánh các mô hình U-Net, U-Net lồng, và HC U-Net theo các chỉ sốIoU, độ chính xác, độ nhạy và độ đặc hiệu trung bình trên cả 3 nhánh dữ liệu.
U-Net là mô hình mạnh nhất trong ba mô hình khi thực hiện nhiệm vụ phân vùng từng lớp độc lập với các chỉ số IoU, độ chính xác, độ nhạy và độ đặc hiệu đều vượt trội HC U-Net mặc dù không đạt được các chỉ số cao như U-Net, nhưng vẫn có những kết quả khả quan, đặc biệt là trong độ nhạy, phù hợp cho các bài toán yêu cầu phát hiện nhiều lớp khác nhau, đáng lưu ý là mô hình này đang thực hiện đồng thời các nhiệm vụ trên cả ba nhánh Mô hình U-Net++ không thể hiện tốt như mong đợi với các chỉ số thấp hơn so với cả U-Net và HC U-Net, điều này cho thấy việc tăng cường kiến trúc không luôn đảm bảo hiệu suất tốt hơn.
4.2.3 Trả lời câu hỏi RQ3: Thời gian phân vùng ảnh của phương pháp đề xuất được giảm thiểu như thế nào so với các phương pháp phân vùng các lớp độc lập thông thường?
Chi phí tính toán nhằm đánh giá lượng tài nguyên mà các phương pháp sử dụng để kiểm thử các mô hình mục tiêu Tiêu chí này có thể được đo bằng nhiều cách khác nhau, như thời gian xử lý dữ liệu, lượng bộ nhớ sử dụng, v.v Trong đó, độ đo thường dùng là thời gian huấn luyện và thời gian suy luận HC U-Net thường sẽ có thời gian huấn luyện dài hơn gấp trung bình 2,5 lần một mô hình U-Net đơn lẻ do tính phức tạp cao hơn và nhiều nhiệm vụ hơn nhưng ngắn gấp trung bình 3,3 lần so với việc huấn luyện nhiều mô hình độc lập cho từng nhiệm vụ Thời gian suy luận của HC U-Net ngắn hơn 5 lần so với việc chạy nhiều mô hình độc lập nối tiếp nhau, sự khác biệt về kết quả này là do phương pháp đề xuất chỉ cần một lần lan truyền qua mạng nơ ron.
4.2.4 Trả lời câu hỏi RQ4: Các điểm hạn chế của phương pháp đề xuất là gì?
Mô hình U-Net kết hợp phân loại phân cấp có cấu trúc phức tạp hơn so với U-Net truyền thống do phải xử lý nhiều nhiệm vụ phân loại cùng lúc Điều này dẫn đến việc tăng số lượng tham số trong mô hình, từ đó yêu cầu nhiều tài nguyên tính toán hơn và có thể kéo dài thời gian huấn luyện Với nhiều nhánh phân loại và các
Tổng quan phương pháp đề xuất
Các nghiên cứu hiện đại có xu hướng hiện tại đang đẩy mạnh sự kết hợp giữa phân loại và phân vùng để tạo ra các mô hình mạnh mẽ hơn [22], điều này đặc biệt quan trọng trong các ứng dụng yêu cầu phân loại chính xác các vùng nhỏ trong ảnh, như trong phân tích hình ảnh mô bệnh học Mặc dù việc áp dụng các mô hình học sâu phân vùng thường hoạt động tốt trên các ảnh tự nhiên, nhưng lại gặp nhiều khó khăn khi áp dụng vào ảnh y tế do độ phức tạp của cấu trúc và độ tương phản thấp của các ảnh này
• Thử thách đầu tiên là về độ phức tạp của dữ liệu khi ảnh mô bệnh học thường có cấu trúc phức tạp với nhiều chi tiết nhỏ và màu sắc gần giống nhau, gây khó khăn cho cả phân loại và phân vùng Việc xác định ranh giới giữa các loại tế bào khác nhau hoặc giữa các vùng tổn thương và mô lành mạnh đòi hỏi độ chính xác cao, điều mà các mô hình thường gặp khó khăn khi thực hiện đồng thời cả phân loại và phân vùng [29].
• Tiếp theo vấn đề dữ liệu không cân bằng, đối với dữ liệu ảnh mô bệnh học, một số loại mô hoặc tế bào hiếm khi xuất hiện so với các loại khác dẫn tới việc làm giảm hiệu suất của mô hình khi cần phân loại và phân vùng chính xác những vùng này Dữ liệu anh mô bệnh học cũng có sự biến thiên lớn về cấu trúc và màu sắc do nhiều yếu tố như kỹ thuật nhuộm mô, cách lấy mẫu và điều kiện ánh sáng khi chụp ảnh, những điều này làm cho việc tạo ra một mô hình có khả năng tổng quát hóa tốt là một thách thức lớn.
• Việc phân vùng độc lập [30] từng lớp đòi hỏi tài nguyên và thời gian tính toán lớn do mô hình phải thực hiện từng nhiệm vụ phức tạp lần lượt hoặc riêng biệt Mô hình có thể gặp khó khăn trong việc nhận diện và phân loại các lớp với mức độ phức tạp cao hơn hoặc các lớp có kích thước hiếm gặp dẫn đến khả năng tổng quát hóa kém, mô hình có thể bỏ lỡ thông tin ngữ cảnh quan trọng, dẫn đến việc phân vùng và phân loại sai Khi số lượng lớp phân loại lớn, việc không có phân loại phân cấp sẽ khiến mô hình gặp khó khăn trong việc phân loại chính xác, đặc biệt là khi các lớp này có sự tương đồng cao
• Trong lĩnh vực y tế, tính minh bạch và khả năng giải thích của mô hình là rất quan trọng Tuy nhiên, các mô hình kết hợp phân loại và phân vùng thường phức tạp, khó giải thích, đặc biệt là khi mô hình mắc lỗi, do đặc trưng được chia sẻ giữa tất cả các nhánh nên rất khó phân biệt lỗi gây ra bởi nhánh nào. Điều này có thể làm giảm sự tin tưởng của các bác sĩ vào kết quả do mô hình đưa ra. Để giải quyết các thử thách trên, một số phương pháp hợp nhất đã được đề xuất. Các phương pháp này cho thấy sự hiệu quả về tỷ lệ thành công trên một số tập dữ liệu có sẵn Tuy nhiên, theo quan sát, các phương pháp này cần nhiều chi phí về thời gian và hiệu quả thường giảm đáng kể trên các tập dữ liệu đặc thù khác Có hai lý do giải thích cho điều này, đó là chi phí thu thập dữ liệu ảnh mô bệnh học thường rất lớn và yêu cầu tài nguyên huấn luyện rất cao Cụ thể như sau:
• Việc thu thập và gán nhãn dữ liệu ảnh mô bệnh học đòi hỏi nguồn lực lớn, cả
Không những vậy, số lượng dữ liệu cần thiết để huấn luyện một mô hình học sâu hiệu quả là rất lớn, làm tăng đáng kể chi phí Điều này gây khó khăn trong việc áp dụng các mô hình đã được huấn luyện trên dữ liệu chung sang các dữ liệu đặc thù khác, nơi mà số lượng và chất lượng dữ liệu có thể không đủ cao.
• Các mô hình học sâu kết hợp phân loại và phân vùng [25], đặc biệt là trong các bài toán phức tạp như phân tích ảnh mô bệnh học, thường yêu cầu lượng tài nguyên tính toán lớn Các mô hình này phải xử lý đồng thời nhiều nhiệm vụ phức tạp và dữ liệu có độ phân giải cao, dẫn đến thời gian huấn luyện kéo dài và chi phí vận hành cao Điều này đặc biệt khó khăn khi áp dụng trong các môi trường hạn chế về tài nguyên hoặc khi cần triển khai trên diện rộng
Luận văn đề xuất phương pháp kết hợp phân vùng và phân loại phân cấp, mô hình phân loại phân cấp giúp tạo ra một cấu trúc cho phép mô hình hiểu rõ hơn mối quan hệ giữa các lớp Việc này giúp mô hình nhận biết tốt hơn các chi tiết nhỏ và các vùng khó phân biệt trong ảnh mô bệnh học Bằng cách này, mô hình không chỉ học cách phân vùng mà còn phân loại các vùng đó theo cấp bậc, giúp tăng cường độ chính xác và khả năng tổng quát hóa Để giải quyết vấn đề dữ liệu không cân bằng và biến thiên trong ảnh mô bệnh học, các phương pháp chia sẻ đặc trưng, tăng cường dữ liệu được áp dụng, những phương pháp này giúp mô hình học tốt hơn từ các lớp hiếm, từ đó cải thiện hiệu suất phân loại và phân vùng trên những vùng phức tạp và khó phân biệt Học sâu kết hợp với dữ liệu phân cấp và tăng cường dữ liệu có thể giúp mô hình xử lý tốt hơn các biến thiên về màu sắc và cấu trúc trong ảnh Mô hình đa nhiệm thực hiện đồng thời cả phân vùng và phân loại trong cùng một mạng nơ-ron Điều này giúp giảm tài nguyên và thời gian tính toán, đồng thời cải thiện khả năng học của mô hình thông qua việc chia sẻ thông tin giữa các nhiệm vụ Phương pháp gồm ba giai đoạn chính Cụ thể là
(i)Chuẩn bị (xem Mục 3.2.1.), (ii)Huấn luyện (xem Mục 3.2.2.), và(iii)Dự đoán(xem Mục 3.2.3.) Cuối cùng, đầu ra của phương pháp là một tập dữ liệu gồm các nhãn dự đoán.
Hình 3.1: Tổng quan phương pháp đề xuất Phương pháp gồm ba giai đoạn, làGiai đoạn 1: Chuẩn bị,Giai đoạn 2: Huấn luyện, vàGiai đoạn 3: Dự đoán.
3.2 Quá trình phân vùng ảnh mô bệnh học kết hợp phân loại phân cấp
TạiGiai đoạn 1: Chuẩn bị, phương pháp kết hợp đề xuất có ba bước nhỏ làBước 1.1: Chuẩn bị dữ liệu,Bước 1.2: Biến đổi dữ liệu ảnhvà Bước 1.3: Biến đổi nhãn.
• Bước 1.1: Chuẩn bị dữ liệu Đầu tiên, Ba tập dữ liệu được chuẩn bị để huấn luyện các mô hình tại Giai đoạn 2 Huấn luyện Từ ba tập dữ liệu gốc ban đầu này, phương pháp chia dữ liệu được tiến hành đối với từng tập dữ liệu ban đầu D có tổng số lượng mẫu N Mỗi tập dữ liệu này được chia thành ba tập con: tập huấn luyện D train , tập kiểm tra D test , và tập xác thựcD val với các tỷ lệ chia tách khác nhau.
Cụ thể như các phương pháp tính 3.1, 3.2, 3.3
Trong đó, v là tỷ lệ của tập xác thực, dùng để đánh giá mô hình trong quá trình huấn luyện vàt là tỷ lệ của tập kiểm tra, được sử dụng để đánh giá hiệu suất cuối cùng của mô hình Kết quả thu được là 3 tập dữ liệu con: tập kiểm tra, tập huấn luyện và tập xác thực của ba bộ dữ liệu gốc với số lượng mẫu được chia tương ứng.
• Bước 1.2 Biến đổi dữ liệu Tại bước này, ảnh đầu vào với kích thước ban đầu (H 0 ,W 0 ), phép biến đổi chuyển nó thành một ảnh mới với kích thước(H,W), thường là(512,512) Phép biến đổi này có thể được biểu diễn dưới dạng nội suy tuyến tính 3.4
Trong đó,I(x,y) là giá trị điểm ảnh ban đầu tại tọa độ(x,y) và I ′ (x,y) là giá trị điểm ảnh mới sau khi thay đổi kích thước 3.5 Sau đó, một vùng con có kích thước(Hc,W c )được cắt ra từ ngẫu nhiên từ ảnh ban đầu, mục đích chính là để thay đổi kích thước ảnh phù hợp với đầu vào mô hình
Vị trí góc trên bên trái của vùng cắt được chọn ngẫu nhiên trong phạm vi
Với (x 0 ,y 0 ) là tọa độ góc trên bên trái của vùng cắt ngẫu nhiên Cuối cùng là chuẩn hóa giá trị điểm ảnh về phạm vi [0,1] bằng cách trừ đi giá trị trung bình và chia cho độ lệch chuẩn 3.6
Trong đú à và σ lần lượt là giỏ trị trung bỡnh và độ lệch chuẩn của tập dữ liệu, đóng vai trò chuẩn hóa ảnh giúp làm giảm sự ảnh hưởng của các yếu tố không quan trọng (như độ sáng) và cải thiện hiệu suất huấn luyện mô hình