Ứng dụng phương pháp học sâu trong mô hình chẩn Đoán hình Ảnh x quang phổi

Trong đề tài này mô hình phân loại đa nhãn Multilabel Classification phân loại ra 14 nhãn bệnh phổi và 1 nhãn không có bệnh và tập trung phát triển giải quyết hai vấn đề: vấn đề trích xu

TỔNG QUAN

ĐẶT VẤN ĐỀ

Trong y học hiện đại, phân đoạn chẩn đoán giữ vai trò quan trọng, là bước đầu tiên trong quá trình điều trị bệnh Chẩn đoán càng chính xác và tiết kiệm chi phí sẽ giúp phát hiện bệnh sớm hơn và điều trị kịp thời, từ đó ngăn ngừa biến chứng nghiêm trọng Chẩn đoán hình ảnh là một phương pháp quan trọng trong lĩnh vực này, liên quan đến nhiều bộ phận trong cơ thể Tuy nhiên, hiện nay, nguồn nhân lực y tế, đặc biệt là các bác sĩ chuyên gia, đang phân bố không đều và thiếu hụt ở tuyến dưới.

Hình 1 1: Hình mô tả cho sự phân bổ nhân lực y tế

Nhóm đã nghiên cứu lĩnh vực này dựa trên các đề tài trước đây từ các anh chị trong ngành KTYS tại trường đại học SPKT thành phố Hồ Chí Minh, bao gồm ba đề tài: “Ứng dụng mô hình Vision Transformer trong phân loại dữ liệu bệnh phổi” (2022), “Thiết kế ứng dụng chẩn đoán hình ảnh X quang phổi sử dụng deep learning” (đầu năm 2023), và “Xây dựng hệ thống phân loại bệnh phổi dùng phương pháp học chuyển giao” (cuối năm 2023) Dưới đây là bảng so sánh các đề tài này.

Sau đây là bảng 1.1 chỉ ra các vấn đề đó

Bảng 1.1 Bảng so sánh các đề tài đi trước

Tên đề tài Bài toán giải quyết

Kết quả chẩn đoán Diễn giải hình ảnh

Có phản hồi đánh giá từ bác sĩ

Có các kỹ thuật nâng cao độ chính xác

1 Đa nhãn 14 bệnh và 1 không bệnh

Gradcam Trên web Có Không Có thể phân loại đa nhãn nhưng chỉ hiện thị được một loại bệnh trên grad cam

2 Đa nhãn 14 bệnh và 1 không bệnh

Grad-CAM trên web cho phép phân loại đa nhãn và hiển thị các vùng bệnh khác nhau trên một bức ảnh Tuy nhiên, nó không cung cấp những hình ảnh bệnh thành phần chi tiết khi có đa nhãn và các vùng tổn thương.

BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP - Y SINH 2 khác nhau không thể hiện rõ

Không có Trên web Không Không Không có ảnh diễn giải sau chuẩn đoán kết quả chỉ có 4 bệnh

Sau khi nghiên cứu những thành tựu của các thế hệ trước, nhóm quyết tâm nâng cao hiệu suất của mô hình phân loại bệnh Để thực hiện mục tiêu này, nhóm cần giải quyết hai vấn đề chính: đầu tiên, việc phát hiện nhiều loại bệnh đồng thời ở một bệnh nhân, đặc biệt là khi các bệnh này có thể xuất hiện cùng một khu vực của phổi.

“local” hay các khu vực khác nhau có một khoảng cách nhất định không lân cận

Vấn đề thứ hai liên quan đến sự khác biệt trong đầu vào ảnh X-quang phổi của bệnh nhân do các hệ thống máy chụp X-quang khác nhau tại các cơ sở y tế và người chụp khác nhau Điều này dẫn đến dữ liệu huấn luyện và dữ liệu kiểm tra có thể chứa sai số, làm giảm hiệu quả phân loại Nhóm nghiên cứu mong muốn phát triển một mô hình có khả năng trích xuất các đặc trưng tốt hơn để giảm thiểu sai sót và cung cấp các ảnh bệnh thành phần chi tiết.

MỤC TIÊU

Đề tài ỨNG DỤNG PHƯƠNG PHÁP HỌC SÂU TRONG MÔ HÌNH CHẨN ĐOÁN HÌNH ẢNH X QUANG PHỔI với mục tiêu như sau:

− Ứng dụng đề tài của mô hình này phân biệt được 14 nhãn loại hội chứng bệnh phổi và 1 trường hợp không có dấu hiệu bệnh

− Hệ thống giao diện trên web hiển thị nhiều ảnh bệnh thành phần

− Mục tiêu chính là cải thiện hiệu suất mô hình từ việc giải quyết 2 vấn đề:

• Vấn đề 1: Một bệnh nhân bị ảnh hưởng của nhiều bệnh, khai thác mối quan hệ giữ các bệnh tiến tới cải thiện hiệu suất

Để cải thiện khả năng tổng quát của mô hình, cần tránh tình trạng học quá khớp trên bộ dữ liệu huấn luyện Điều này giúp giảm thiểu ảnh hưởng của các khác biệt nhỏ đến hiệu suất phân loại, từ đó nâng cao độ chính xác và tính ổn định của mô hình trong các tình huống thực tế.

Kết quả cuối cùng từ việc chẩn đoán qua ứng dụng bao gồm một bức ảnh tổng hợp các vùng bệnh cùng với các bức ảnh chi tiết riêng lẻ tương ứng với từng loại bệnh.

NỘI DUNG NGHIÊN CỨU

Khoảng thời gian thực hiện và hoàn thành Đồ án tốt nghiệp ngành kỹ thuật y sinh với đề tài “ỨNG DỤNG PHƯƠNG PHÁP HỌC SÂU TRONG MÔ HÌNH

Nhóm nghiên cứu đã tập trung vào việc chẩn đoán hình ảnh X-quang phổi, giải quyết các vấn đề và yêu cầu do chính nhóm và giáo viên hướng dẫn đặt ra Qua quá trình nghiên cứu, nhóm đã hoàn thành những nội dung quan trọng liên quan đến chẩn đoán chính xác và hiệu quả trong lĩnh vực y tế này.

− NỘI DUNG 1: Tham khảo phát triển tìm hiểu nội dung, hướng đi của đề tài

− NỘI DUNG 2: Khảo sát bộ dữ liệu đã cho NIH Chest X-ray Dataset và chexpert

BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP - Y SINH 3

− NỘI DUNG 3: Lựa chọn được phương pháp học sâu xây dựng mô hình AI và hệ thống như mong muốn

− NỘI DUNG 4: Lập trình BE và FE cho hệ thống web để xây dựng cơ bản hệ thống web

− NỘI DUNG 5: Lập trình API để đưa ra dự đoán từ phương pháp huấn

− luyện của mô hình đã huấn luyện và gửi các yêu cầu xử lý frontend cho backend

− NỘI DUNG 6: Cho chạy mô hình thử nghiệm để đánh giá, kiểm tra, đánh giá và hiệu chỉnh toàn bộ hệ thống cho phù hợp

− NỘI DUNG 7: Viết báo cáo đồ án tốt nghiệp

− NỘI DUNG 8: Bảo vệ đồ án tốt nghiệp.

GIỚI HẠN

− Đề tài này của nhóm chỉ sử dụng 2 bộ dữ liệu " ChestX-Ray14 " và “chexpert” để huấn luyện kiểm tra mô hình

− Số lượng các nhãn bệnh lý của hội chứng ở phổi được phân loại là 14 nhãn và 1 nhãn không bệnh

− Mô hình huấn luyện dựa trên mô hình cơ sở MLRFNet và áp dụng kỹ thuật VIB

− Giao diện web của ứng dụng mô hình AI

Ứng dụng này hiện chỉ hỗ trợ giao diện web và chưa có địa chỉ IP để tạo tên miền riêng, do đó chỉ có thể triển khai dưới dạng localhost và chưa được phát hành như một sản phẩm chính thức.

− Chưa có chế độ sản phẩm cũng như môi trường ngoài đời thực để chạy kiểm định toàn bộ mô hình, ứng dụng web của hệ thống.

BỐ CỤC

− Chương này trình bày đặt vấn đề dẫn đến lý do chọn đề tài, mục tiêu, nội dung nghiên cứu, các giới hạn và bố cục của đồ án.

CƠ SỞ LÝ THUYẾT

Các vấn đề và thách thức của bài toán phân loại đa nhãn

Phân loại đa nhãn (Multilabel classification) là một bài toán trong học máy, trong đó mỗi mẫu dữ liệu có thể được gán nhiều nhãn cùng lúc, phù hợp với sự xuất hiện của nhiều đối tượng Điều này khác biệt với phân loại đơn nhãn (single-label classification), nơi mỗi mẫu chỉ nhận một nhãn duy nhất, như trong phân loại nhị phân (Binary classification) và phân loại đa lớp (Multiclass classification).

Bào toán phân loại đa nhãn là một bài toán phức tạp, trong đó mỗi mẫu có thể mang nhiều nhãn, tạo ra không gian nhãn rất lớn với tất cả các tập hợp con có thể có của n nhãn (2^n) Các nhãn thường có mối quan hệ phụ thuộc, ví dụ như trong gán thẻ ảnh, sự hiện diện của nhãn “Xe” có thể liên quan đến nhãn “Đường” và nhãn “Người” Hơn nữa, sự xuất hiện ít ỏi của một số nhãn gây khó khăn cho quá trình huấn luyện mô hình.

Hình 2 1 Khác biệt giữa các bài toán trong vấn đề phân loại

Non local neural Network và cơ chế attention

Phép toán non-local được đề xuất nhằm nâng cao khả năng tính toán trong các mạng neural sâu, cho phép mạng học sâu tương tác và học hỏi từ các vấn đề ở nhiều vùng khác nhau, dù chúng ở xa nhau Điều này giúp tìm ra các đặc trưng tương quan đa vùng, được gọi là đặc trưng non-local, trong khi các mạng CNN chỉ có khả năng học các đặc trưng local.

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

Hình 2 2 Ví dụ về non-local

Non-local hoạt động bằng cách tính toán tổng trọng số của tất cả các vị trí trong dữ liệu, trong đó mỗi điểm dữ liệu, như pixel trong hình ảnh hay từ trong câu, sẽ xác định mối quan hệ với tất cả các điểm dữ liệu khác Mối quan hệ này thường được diễn đạt qua một hàm tương đồng, chẳng hạn như Gaussian Sau khi tính toán mối quan hệ trọng số giữa các điểm dữ liệu, các phép toán non-local tổng hợp thông tin từ tất cả các điểm để tính giá trị đầu ra tại mỗi vị trí Quá trình tổng trọng số được thực hiện bằng cách nhân các trọng số tương đồng với các đặc trưng đầu vào tại mỗi vị trí và sau đó tổng hợp lại Hình 2.3 minh họa cách thức hoạt động của phép toán non-local trong mạng neural.

Hình 2.3 minh họa một khối non-local không gian-thời gian, trong đó các bản đồ đặc trưng được trình bày dưới dạng hình dạng của các tensor, ví dụ: T×H×W×1024.

Trong bài viết này, chúng ta khám phá việc sử dụng 1024 kênh để định hình lại dữ liệu một cách hiệu quả Các phép tích chập 1×1×1 được áp dụng để tạo ra các vector query θ, key ϕ, và giá trị g Ký hiệu “⊗” đại diện cho phép nhân ma trận, được sử dụng để tính toán dot-product giữa query và key, từ đó tạo ra các điểm số attention Ngoài ra, ký hiệu “⊕” biểu thị tổng phần tử, cho phép tính tổng trọng số của các giá trị g.

Bộ môn Điện tử Công nghiệp - Y sinh 7 thực hiện tính toán và bổ sung vào bản đồ đặc trưng đầu vào nhằm tạo ra đầu ra cuối cùng Phép toán softmax được áp dụng trên từng hàng của ma trận kết quả để chuẩn hóa giá trị và tạo ra xác suất Các hộp màu xanh đại diện cho phép tích chập 1×1×1, giúp giảm số lượng kênh mà không làm mất đi nhiều thông tin, từ đó giảm thiểu tính toán và tạo ra các phiên bản nhúng của dữ liệu đầu vào.

T là số khung thời gian, W là hiều rộng, H là chiều cao Các bước tiến hành như sau:

− Tạo các vector: Mỗi đầu vào X được biến đổi thành các vector Qery, Key, G

− Tính toán điểm số tương tự (similarity scores) giữa các cặp vị trí được tính bằng cách nhân ma trận θ với ma trận ϕ và áp dụng hàm softmax

− Tính toán trọng số tổng hợp bằng cách nhân điểm số tương tự với ma trận G

Giá trị đầu ra được xác định bằng cách cộng giá trị đầu vào với kết quả tổng hợp, theo cơ chế kết nối dư thừa (residual connection).

Cơ chế attention tổng quát là một kỹ thuật quan trọng trong học sâu, cho phép mô hình tập trung vào các phần quan trọng của đầu vào trong các tác vụ như dịch máy và tóm tắt văn bản Đặc biệt, self-attention trong các mô hình Transformer hoạt động bằng cách tính toán trọng số giữa các thành phần khác nhau của đầu vào, từ đó tổng hợp thông tin hiệu quả Trong self-attention, mỗi từ trong câu chú ý đến các từ khác bằng cách xác định trọng số cho từng cặp từ, giúp cải thiện khả năng hiểu ngữ nghĩa của mô hình.

− Mỗi đầu vào X được biến đổi thành các vector Query (Q), Key (K), và Value (V) thông qua các phép biến đổi tuyến tính

Điểm số tương tự giữa các cặp từ được tính bằng cách nhân ma trận truy vấn (query) với ma trận khóa (key), sau đó chia cho căn bậc hai của kích thước chiều của ma trận khóa.

− Áp dụng hàm softmax: Điểm số được chuẩn hóa bằng hàm softmax để tạo ra các trọng số attention

− Tổng hợp thông tin: Trọng số attention sau đó được sử dụng để tổng hợp các giá trị (V)

Sau khi non-local neural network được giới thiệu, ý tưởng này được nhận ra là rất giống với cơ chế self-attention:

Cả hai kỹ thuật áp dụng phép tính trọng số dựa trên sự tương đồng giữa các điểm dữ liệu nhằm xác định ảnh hưởng lẫn nhau của chúng.

− Cả hai đều tìm cách tổng hợp thông tin từ toàn bộ đầu vào để cải thiện khả năng nắm bắt các mối quan hệ dài hạn

Sau khi mạng nơ-ron phi địa phương được giới thiệu, ý tưởng này đã được nhận diện tương đồng với cơ chế attention Điều này đã thúc đẩy việc áp dụng và phát triển cơ chế attention trong các mô hình thị giác máy tính.

Hình 2 4 Cấu trúc của một lớp self-attention

Cấu trúc của một lớp self-attention:

Bản đồ đặc trưng từ lớp tích chập trước đó giúp nắm bắt thông tin cục bộ, tương tự như cách hoạt động của các lớp tích chập truyền thống.

Bản đồ self-attention cung cấp thông tin non-local, cho phép truy cập thông tin từ các vị trí khác nhau trong không gian hoặc thời gian, không chỉ giới hạn ở các vùng lân cận trực tiếp.

Tham số này điều chỉnh sự cân bằng giữa thông tin cục bộ từ lớp tích chập và thông tin non-local từ self-attention Việc điều chỉnh này rất quan trọng để kết hợp hợp lý cả hai loại thông tin trong quá trình tính toán phản hồi cuối cùng.

Hàm s được sử dụng để tính toán giá trị vô hướng (scalar), thể hiện mức độ liên quan giữa cường độ tín hiệu tại vị trí hiện tại i và bất kỳ vị trí j nào Việc này giúp xác định ảnh hưởng của các vị trí khác nhau đến vị trí hiện tại.

Hàm h tính toán biểu diễn tín hiệu đầu vào tại vị trí j, từ đó tạo ra phản hồi cuối cùng bằng cách kết hợp thông tin từ nhiều vị trí khác nhau.

Module VIB

Module VIB (Variational Information Bottleneck) nhằm nâng cao hiệu suất của mạng neural bằng cách tối ưu hóa việc trích xuất và lựa chọn các đặc trưng quan trọng từ dữ liệu đầu vào, chẳng hạn như ảnh X-quang ngực.

Module VIB hoạt động dựa trên nguyên lý cân bằng giữa hai mục tiêu:

− Giữ lại thông tin quan trọng: Bảo đảm rằng các đặc trưng được giữ lại có đủ thông tin để phân loại chính xác

Để giảm thiểu thông tin không cần thiết, cần loại bỏ các đặc trưng không liên quan hoặc nhiễu, giúp tránh làm cho mô hình trở nên phức tạp và dễ bị quá khớp (overfitting).

Hình 2 5 Mô hình sử dụng nút cổ chai thông tin

Quy trình học của mô hình sử dụng VIB, như mô tả trong Hình 2.5, bao gồm việc truyền dữ liệu từ ảnh đầu vào qua các lớp mạng neural, tiếp theo là module VIB và cuối cùng là các lớp fully connected (FC) hoặc softmax để dự đoán và phân loại bệnh VIB được áp dụng sau khi trích xuất các đặc trưng từ ảnh, nhằm nén và tối ưu hóa thông tin quan trọng, giúp giảm thiểu thông tin không cần thiết và giữ lại các đặc trưng thiết yếu cho quá trình phân loại bệnh.

Các khối trong VIB Module:

Khối tái tạo (Reconstruction Block) đóng vai trò quan trọng trong việc giữ lại thông tin cần thiết cho phân loại Các đặc trưng từ lớp gộp được sử dụng để phục hồi hình ảnh gốc, giúp mô hình học tập nhận diện các đặc trưng quan trọng.

Khối hạn chế thông tin (Information Bottleneck Block) là thành phần cốt lõi của mô-đun VIB, có chức năng giảm thiểu độ phức tạp của đặc trưng và chỉ giữ lại những thông tin quan trọng nhất cho việc phân loại bệnh Các kỹ thuật biến thể thông tin được áp dụng để đảm bảo rằng chỉ những đặc trưng thiết yếu nhất được duy trì.

Xấp xỉ biến thể (Variational Approximation) được áp dụng để ước lượng phân phối của các đặc trưng trong không gian đặc trưng, từ đó nâng cao tính linh hoạt và khả năng áp dụng của mô hình Phương pháp này cũng giúp giảm thiểu hiện tượng overfitting, mang lại hiệu quả cao hơn trong việc phân tích dữ liệu.

Hệ thống MLRFNet

Hình 2 6 Mạng hợp nhất đặc trưng hồi quy đa tầng

MLRFNet (Mạng hợp nhất đặc trưng hồi quy đa tầng) là một mô hình phân loại hình ảnh dựa trên mạng nơ-ron tích chập (CNN), được phát triển nhằm giải quyết hiệu quả bài toán phân loại hình ảnh X-quang lồng ngực nhiều nhãn Mô hình này tối ưu hóa việc kết hợp các đặc trưng từ nhiều tầng khác nhau, giúp cải thiện độ chính xác trong việc nhận diện và phân loại các đặc điểm trong hình ảnh y tế.

Bộ trích xuất đặc trưng (Feature Extractor) là yếu tố chính của MLRFNet, sử dụng Res2Net50 để trích xuất các đặc trưng từ hình ảnh X-quang Res2Net50, được cải tiến từ ResNet, cho phép thu thập các đặc trưng với nhiều mức độ chi tiết khác nhau.

Hình 2 7 So sánh block ResNet và block Res2Net

Block ResNet và block Res2Net có cấu trúc khác nhau trong việc xử lý dữ liệu đầu vào Block ResNet bao gồm một lớp convolution 3×3 nằm giữa hai lớp convolution 1×1, giúp giảm và khôi phục chiều đặc trưng, từ đó tối ưu hóa tính toán Ngược lại, block Res2Net chia nhỏ đầu vào thành nhiều nhóm con và xử lý chúng qua các lớp convolution 3×3 riêng biệt theo kiểu phân cấp Sự kết hợp của các đặc trưng từ các lớp này cho phép mạng trích xuất thông tin đa tỷ lệ hiệu quả hơn.

Res2Net cho phép trích xuất đặc trưng đa tỷ lệ, nâng cao khả năng nhận diện đặc điểm ở cả mức toàn cục và cục bộ Điều này tăng cường khả năng học của mạng trong việc nhận diện các đặc điểm phức tạp trong hình ảnh, đặc biệt là trong các tổn thương hình ảnh X-quang Việc sử dụng Res2Net thay cho block ResNet giúp MLRFNet trích xuất thông tin đa tỷ lệ chi tiết hơn, từ đó cải thiện hiệu quả trong nhiệm vụ phân loại hình ảnh X-quang lồng ngực nhiều nhãn.

Trong quá trình huấn luyện mạng nơ-ron, việc ưu tiên các đặc trưng liên quan của đầu vào là rất quan trọng, đặc biệt trong xử lý dữ liệu phức tạp như hình ảnh y tế, nơi các tổn thương có thể nhỏ và khó phát hiện Mô-đun ECA (ECA Attention Module) được phát triển nhằm cải thiện khả năng của mạng trong việc tập trung vào các đặc trưng kênh quan trọng một cách hiệu quả và tiết kiệm chi phí tính toán.

Module ECA tập trung vào việc nâng cao khả năng trích xuất thông tin thông qua việc áp dụng cơ chế attention vào các kênh đặc trưng của mạng Nhờ đó, mạng có thể chú ý đến những đặc điểm quan trọng liên quan đến tổn thương.

ECA sử dụng một mạng nơ-ron nhỏ để tạo ra vector trọng số, xác định mức độ quan trọng của từng kênh đặc trưng, từ đó điều chỉnh các đặc trưng đầu ra từ các lớp trước trong mạng.

Mô-đun ECA có khả năng tích hợp vào các tầng khác nhau của MLRFNet, giúp điều chỉnh trọng số các kênh đặc trưng sau mỗi bước xử lý Sau khi trích xuất và kết hợp các đặc trưng qua nhiều mức độ trong MLRFNet, ECA Attention sẽ được áp dụng để tối ưu hóa hiệu suất.

Mỗi bản đồ từ MLRFNet được nâng cao nhờ mô-đun ECA Attention, giúp mạng tập trung vào các đặc trưng quan trọng Mô-đun này học mối quan hệ giữa các kênh dữ liệu và điều chỉnh trọng số của chúng, từ đó cải thiện hiệu quả phân loại.

Cơ chế hoạt động của ECA attention:

• Mục đích: Tóm gọn các chiều không gian của bản đồ đặc trưng và thu thập thông tin ngữ cảnh toàn cục

GAP tính toán giá trị trung bình cho mỗi kênh trên toàn bộ các chiều không gian, bao gồm chiều cao và chiều rộng Kết quả là một giá trị duy nhất cho mỗi kênh, tạo thành một vector với kích thước tương ứng với số lượng kênh.

− Học phụ thuộc giữa các kênh:

• Cơ chế: ECA sử dụng một phép tích chập 1D (1D convolution) để học các phụ thuộc giữa các kênh

Sử dụng nhân tích chập 1D với kích thước k (ví dụ như 3) cho phép các kênh chia sẻ các tham số học, từ đó giúp học được các mối quan hệ giữa các kênh một cách hiệu quả.

• Mục đích: Tạo ra các hệ số trọng lượng (weighting factors) cho mỗi kênh

• Hoạt động: Sau khi tích chập 1D, hàm sigmoid được sử dụng để chuẩn hóa các giá trị đầu ra thành các trọng số từ 0 đến 1

2.4.3 MRFC (Multi-Level Residual Feature Classifier)

Các ảnh chụp X-quang ngực thường chứa nhiều vùng tổn thương, dẫn đến việc một bức ảnh có thể phản ánh nhiều loại bệnh khác nhau Mô hình đề xuất không chỉ chú trọng vào thông tin tổng thể của bức ảnh mà còn vào vị trí không gian của các tổn thương trên bản đồ đặc trưng Trong quá trình trích xuất đặc trưng từ ảnh bằng mạng neural convolution, MRFC giúp mạng tập trung vào các vị trí quan trọng của bệnh và giảm thiểu sự chú ý đến các phần không liên quan.

MRFC, một thành phần của MLRFNet, tập trung vào việc cải thiện sự chú ý đối với các vị trí không gian quan trọng của bệnh lý trong hình ảnh CXR Hệ thống này bao gồm ba module CSRA với các tham số λ khác nhau, sử dụng phép gom không gian để tạo ra bản đồ điểm chú ý không gian Qua đó, nó tối đa hóa giá trị giữa tất cả các vị trí không gian cho các bệnh lý cụ thể.

Sử dụng các module CSRA giúp xác định các vị trí quan trọng của tổn thương trong hình ảnh MRFC tích hợp thông tin từ nhiều mức độ khác nhau nhằm nâng cao độ chính xác trong dự đoán.

Giới thiệu về giao diện hiển thị lên hệ thống Web

Trong một hệ thống web hoàn chỉnh, yêu cầu cơ bản bao gồm Frontend (FE) và Backend (BE) FE là phần giao diện người dùng, hiển thị hình ảnh bệnh lý về phổi và cung cấp ảnh Gradcam, trong khi BE chịu trách nhiệm phân phối tài nguyên dữ liệu, lưu trữ và xử lý logic theo yêu cầu từ FE Đề tài này còn sử dụng FlaskAPI để tạo chuỗi JSON, cho phép frontend gửi yêu cầu và nhận phản hồi từ backend thông qua các phương thức HTTP như POST, PUT, DELETE, và GET Hệ thống quản lý cơ sở dữ liệu được thực hiện bằng MongoDB Atlas.

React JS là một framework mạnh mẽ của JavaScript, chuyên tập trung vào phát triển giao diện người dùng (UI) Nó đóng vai trò quan trọng trong việc xây dựng phần Frontend của ứng dụng web, cho phép tạo ra giao diện linh hoạt, quản lý trạng thái ứng dụng, tương tác hiệu quả với dữ liệu và API, cũng như quản lý định tuyến trong ứng dụng.

React cho phép phát triển ứng dụng bằng cách chia giao diện thành các thành phần độc lập, tái sử dụng Mỗi thành phần quản lý trạng thái riêng và có thể kết hợp với nhau để tạo giao diện phức tạp Với luồng dữ liệu một chiều, dữ liệu chỉ chảy từ cha xuống con, giúp dễ dàng kiểm soát và debug ứng dụng, đồng thời duy trì tính nhất quán của dữ liệu Khi trạng thái của một thành phần thay đổi, ReactJS chỉ cập nhật những phần cần thiết, tránh render lại toàn bộ trang và nâng cao hiệu suất ứng dụng.

Nội dung chính của một trang web được xây dựng từ các tập tin HTML, ngôn ngữ đánh dấu dùng để cấu trúc và sắp xếp thông tin Khi người dùng truy cập trang web, trình duyệt sẽ tải các tập tin HTML từ máy chủ và hiển thị nội dung lên màn hình Trong quá trình này, trình duyệt tạo ra một cấu trúc dữ liệu gọi là Document Object Model (DOM), một cây các đối tượng phản ánh cách trang web được trình bày Lập trình viên có thể sử dụng JavaScript để thêm nội dung động, thay đổi hoặc loại bỏ các phần tử, từ đó tạo ra hiệu ứng tương tác và cập nhật dữ liệu mà không cần tải lại trang.

Hình 2 9 Mô hình đối tượng tài liệu 2.5.2 Express JS

Express JS là một framework được ưa chuộng cho việc phát triển ứng dụng web backend bằng JavaScript, hoạt động trên nền tảng Node.js Nó mang lại sự tiện lợi và sức mạnh trong việc xây dựng các ứng dụng web và API.

Dưới đây là một số điểm quan trọng về Express JS:

Express cung cấp một phương pháp đơn giản nhưng hiệu quả để định tuyến, cho phép bạn xác định các route nhằm xử lý các phương thức HTTP và URL khác nhau Các route này có thể bao gồm tham số và hỗ trợ lồng nhau, giúp xử lý những tình huống phức tạp một cách dễ dàng.

Middleware trong Express là các hàm cho phép truy cập vào đối tượng yêu cầu ('req'), đối tượng phản hồi ('res') và hàm 'next' trong chu kỳ yêu cầu phản hồi Chúng thực hiện nhiều nhiệm vụ quan trọng như ghi nhật ký, xác thực, phân tích cú pháp yêu cầu, xử lý lỗi, nén dữ liệu và tối ưu hóa hiệu suất ứng dụng.

API (Giao diện lập trình ứng dụng) là một công cụ quan trọng trong môi trường mạng, cho phép các ứng dụng và dịch vụ tương tác và giao tiếp với nhau Nó cung cấp các bộ lệnh, giao thức và công cụ cần thiết để các ứng dụng có thể truy cập vào dịch vụ và tài nguyên trên mạng một cách hiệu quả.

Việc Frontend truy cập trực tiếp vào cơ sở dữ liệu cho phép thực hiện các thao tác như thêm, xóa và sửa dữ liệu mà không có sự kiểm soát từ Backend Tuy nhiên, điều này tiềm ẩn nguy cơ bảo mật, khiến cơ sở dữ liệu dễ bị tấn công và thay đổi một cách không kiểm soát.

Sử dụng API trong ứng dụng giúp bảo mật cơ sở dữ liệu bằng cách hạn chế truy cập trực tiếp Các API được định nghĩa ở phía Backend thực hiện các tác vụ cụ thể như lấy, thêm, cập nhật hoặc xóa dữ liệu Khi Frontend cần thực hiện những thao tác này, nó sẽ gọi đến các API đã được thiết lập, từ đó nâng cao khả năng quản lý ứng dụng một cách hiệu quả.

API RESTful là một kiểu thiết kế API, trong đó các hoạt động của hệ thống được biểu diễn dưới dạng tài nguyên Các thao tác trên tài nguyên này được thực hiện thông qua các phương thức HTTP như GET, POST, PUT và DELETE Đây là một trong những phương pháp phổ biến nhất trong phát triển web.

Hình 2 10 Minh họa cách thức làm việc của 1 restful API 2.5.4 Xác thực an toàn bằng JWT

Xác thực an toàn bằng JWT (JSON Web Token) là phương pháp truyền dữ liệu an toàn giữa các thành phần trong mạng truy cập hoặc mạng dịch vụ Một JWT bao gồm ba phần chính: tiêu đề (header), phần thân (payload) và chữ ký số.

Giới thiệu các nhãn bệnh và dấu hiệu trên X-Quang

Bảng 2.1: Dấu hiệu nhận biết bệnh phổi trên ảnh X Quang

Nhãnbệnh phổi Đặc điểm nhận thấy trên X quang Tên

Emphysema Túi khí bị giãn, phổi bị biến dạng, không khí trong phổi tang cao

Hernia Dị vật hoặc mô thoát ra qua một khu vực dễ bị tổn thương trên ảnh X-quang

Nodule hình mờ khu trú trên phim X quang ngực có đường bờ rõ ràng, thường có dạng hình cầu và đường kính bằng hoặc nhỏ hơn 3 cm Ít nhất một phần của nodule này được bao bọc bởi nhu mô phổi và có thể ở dạng đặc.

Effusion Vùng tràn dịch sẽ có mật độ mờ đều, không có cấu trúc phế quản hoặc mạch máu thấy rõ

Thickening Độ dày bất thường của màng phổi trên ảnh X- quang

Pneumonia Tình trạng các phế nang trong phổi bị viêm vùng màu trắng đục hoặc mờ trên ảnh X-quang

Cardiomegaly Cấu trúc tim to bất thường tim giãn rộng Tim to

Infiltration thâm nhiễm phổi là hiện tượng chất bất thường tích tụ hoặc lan rộng qua các kẽ và phế nang trong phổi, tạo ra sự hiện diện của các chất lạ đối với cơ quan này.

Consolidation mô tả tình trạng đậm độ phổi tăng lên đủ để che khuất thành phế quản và mạch máu trên ảnh X quang Đông đặc phổi

Atelectasis Vùng đen nhỏ bên trong phổi trên ảnh X-quang Xẹp phổi

Pneumothorax là tình trạng phổi bị xẹp xảy ra khi không khí rò rỉ vào không gian giữa phổi và thành ngực Hiện tượng này có thể được phát hiện qua hình ảnh X-quang, cho thấy sự trong suốt ở phía trên ngực.

Mass Vùng trắng đục do khối u phổi là những nốt phổi

(pulmonary nodules) có đường kính khoảng từ 3cm trở lên

Edema Phần phổi có hiện tượng phù sẽ xuất hiện các vùng mờ tăng đậm độ, có thể lan tỏa hoặc khu trú

Fibrosis Các vùng mờ ở ngoại vi phổi, đặc biệt là ở các vùng dưới của phổi

Mô tả hai bộ dữ liệu chest xray 14 và chexpert

Nhóm huấn luyện mô hình dự đoán kết quả sử dụng hai bộ dữ liệu chính là Chest X-ray 14 và CheXpert Bảng 2.2 dưới đây mô tả chi tiết các đặc điểm nổi bật của hai bộ dữ liệu này.

Bảng 2.2 mô tả một số đặc điểm của hai bộ dữ liệu

Bảng32.2 Mô tả một số đặc điểm của hai bộ dữ liệu

Nguồn gốc Quy mô Kích thước

Chest xray 14 Được phát hành bởi NIH (National Institutes of Health) vào năm 2017

Hơn 100 ngàn hình ảnh X- quang ngực từ hơn 30 ngàn bệnh nhân

Có kích thước cố định là

Chexpert Được phát hành bởi Đại học Stanford vào năm 2019

Bao gồm 224,316 hình ảnh X- quang ngực từ 65,240 bệnh nhân

Không có kích thước cố định

Hai bộ dữ liệu đáp ứng một số tiêu chí để xây dựng mô hình như

• Số lượng dữ liệu lớn đáp ứng cho việc học đa dạng các đặc trưng

• Đều biểu thị 14 loại bệnh lý ở phổi phù hợp cho việc kiểm tra đánh giá hiệu suất của mô hình mà nhóm áp dụng bao gồm

Tập dữ liệu Chest X-ray 14 và CheXpert đều chứa 5 loại bệnh phổ biến liên quan đến phổi, bao gồm Xẹp phổi, Tim to, Đông đặc phổi, Phù phổi và Tràn dịch Những tập dữ liệu này có thể mô phỏng các vấn đề khác biệt miền (domain gap) trong thực tế.

PHƯƠNG PHÁP

Tổng quát về phương pháp

Hình 3 2 Tổng quan mô hình

Hình 3.2 trình bày tổng quan về phương pháp giáo dục, trong đó giáo viên hướng dẫn nhóm thực nghiệm và giải quyết vấn đề đã được đặt ra Đề tài này dựa trên một hệ thống cụ thể để phát triển khả năng giải quyết vấn đề cho học sinh.

BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP - Y SINH 21 giới thiệu MLRFNet, một hệ thống hiện đại (state-of-the-art - SotA) với cấu trúc nền tảng cho việc trích xuất đặc trưng ở nhiều cấp độ khác nhau Hệ thống sử dụng mạng Res2Net làm xương sống, kết hợp với các module ECA (Efficient Channel Attention) để tăng cường chú ý vào các kênh quan trọng và CSRA cho phân loại đa nhãn Res2Net đã được huấn luyện trước trên tập dữ liệu lớn như ImageNet, giúp tận dụng các đặc trưng đã học MLRFNet áp dụng hàm tổn thất Focal Bias để tối ưu hóa quá trình huấn luyện, tập trung vào các mẫu khó và giảm ảnh hưởng của các mẫu dễ.

Res2Net là một mạng học sâu nhằm cải thiện khả năng trích xuất đặc trưng ở nhiều tỷ lệ khác nhau, giúp mô hình nhận diện chi tiết trong ảnh hiệu quả hơn Trong mô hình MLRFNet, các đặc trưng được trích xuất từ backbone Res2Net tại ba mức tỷ lệ khác nhau, P2, P3 và P4, tương ứng với các độ phân giải khác nhau của ảnh đầu vào.

− P2: Đặc trưng trích xuất từ một tầng tích chập nông hơn, chứa thông tin chi tiết hơn nhưng có độ phân giải cao hơn

− P3: Đặc trưng trích xuất từ một tầng tích chập trung bình, cân bằng giữa thông tin chi tiết và ngữ cảnh rộng hơn

− P4: Đặc trưng trích xuất từ một tầng tích chập sâu hơn, chứa thông tin ngữ cảnh rộng hơn nhưng có độ phân giải thấp hơn

Các đặc trưng trích xuất từ Res2Net[10] ở các mức P2, P3, và P4 sau đó được đưa qua các module chú ý như ECA[11] để tập trung vào các kênh quan trọng

Mô-đun P-VIB (Position-based Variational Information Bottleneck) kết hợp mạng Res2Net và mô-đun cổ ECA nhằm chọn lọc các tính năng quan trọng và loại bỏ tính năng không cần thiết, từ đó cải thiện độ chính xác trong nhận diện và phân loại Cơ chế hoạt động của P-VIB sử dụng hai khối tích chập song song để trích xuất giá trị trung bình (mean, 𝜇) và phương sai (variance, 𝜎) từ bản đồ đặc trưng, đồng thời áp dụng tổn thất KL (Kullback-Leibler divergence loss) để đo lường sự khác biệt giữa phân phối xác suất của các đặc trưng Hàm loss này giúp P-VIB chọn lọc các đặc trưng quan trọng, nâng cao độ chính xác và khả năng tổng quát hóa của hệ thống Phương pháp P-VIB được áp dụng ở cấp độ cục bộ của hình ảnh, cho phép mô hình tập trung vào các vùng nhỏ chứa thông tin quan trọng.

Bộ môn Điện tử Công nghiệp - Y sinh 22 đã cải thiện hiệu suất mô hình bằng cách chọn lọc tính năng cục bộ, giúp nó hoạt động hiệu quả hơn trên các bộ dữ liệu đa dạng và trong các tình huống thực tế khác nhau.

Cho hai phân phối xác suất P và Q, hàm loss KL được tính bằng:

ECA nâng cao khả năng biểu diễn không gian của mạng, cải thiện độ chính xác và khả năng tổng quát của hệ thống nhận diện hình ảnh Đặc biệt, phương pháp này giúp tăng cường sự chú ý vào các đặc trưng quan trọng, đồng thời giảm thiểu các đặc trưng không cần thiết.

CSRA là một mô-đun đặc biệt giúp cải thiện độ chính xác trong phân loại đa nhãn và định vị không gian trong hệ thống nhận diện hình ảnh Nó xác định và tập trung vào các vùng cụ thể cho từng lớp, cho phép tính toán mất mát phân loại tại đầu phân loại (CSRA head) Để giải quyết vấn đề tương quan giữa các đặc trưng ở các vùng khác nhau, CSRA kết hợp các mô-đun trích xuất và tăng cường đặc trưng (Mô-đun ECA) với mô-đun chọn lọc đặc trưng (Mô-đun P-VIB) dựa trên lý thuyết thắt cổ chai thông tin, giúp mô hình phân loại chính xác các bệnh lý trong ảnh X-quang ngực.

Lựa chon đặc trưng trong bài toán phân loại đa nhãn

Bài toán phân loại đa nhãn gặp khó khăn do mỗi ảnh đầu vào có thể chứa nhiều đối tượng thuộc nhiều lớp khác nhau, làm cho việc chọn đặc trưng phù hợp trở nên rất quan trọng Mô hình dự đoán các giá trị cho mỗi lớp tại các thang đo khác nhau (P2, P3, P4), được ký hiệu là điểm tin cậy dự đoán (𝑃̂ 𝑙), và được chuẩn hóa bằng hàm sigmoid để nằm trong khoảng (0,1) Hàm mất mát huấn luyện cho phân loại đa nhãn được thể hiện qua phương trình (3.2), trong đó hàm mất mát tổng cho ba thang đo là 𝑙𝑜𝑠𝑠 𝑐𝑙𝑠 (y,𝑃̂ 𝑙).

Hàm mất mát phân loại đa nhãn (loss cls) là công cụ quan trọng để đánh giá hiệu suất phân loại của mô hình Hàm này thực hiện việc so sánh giữa nhãn dự đoán (P̂ l) và nhãn thực tế (y), từ đó giúp cải thiện độ chính xác của mô hình trong việc phân loại.

• 𝛼 :Siêu tham số điều chỉnh độ lệch giữa tổn thất dương và tổn thất âm

• 𝜆 𝑙 : Siêu tham số để nhấn mạnh các mẫu thử thách

• C: Giá trị cho biết số lớp

• 𝑦 𝑐 : Nhãn thực tế cho lớp C, 𝑦 𝑐 bằng 1 nếu ảnh chứa lớp C, và bằng 0 nếu không

• 𝑃̂ 𝑙,𝑐 : Xác suất dự đoán của mô hình cho lớp C tại thang đo 𝑙

𝜙 là tập hợp các tham số của mô-đun P-VIB, bao gồm trọng số và bias trong các lớp convolution Những tham số này được sử dụng để trích xuất giá trị trung bình μl và phương sai σl tại thang đo lth bởi P-VIB, như minh họa trong hình 3.2.

Mất mát lựa chọn đặc trưng ở thang đo l-th được định nghĩa trong phương trình (3.3):

Loss fee (μₗ, σₗ) = KL[N(zₗ, μₗ, σₗ) || q(zₗ)] (3.3) Trong đó, N(zₗ, μₗ, σₗ) là kỹ thuật tái tham số hóa như được minh họa trong hình 3.1 Kỹ thuật này cho phép lấy mẫu từ một phân phối Gaussian với giá trị trung bình và độ lệch chuẩn Thay vì lấy mẫu trực tiếp từ hai giá trị này, kỹ thuật tái tham số hóa sử dụng công thức 3.4 Sự phân kỳ Kullback–Leibler (KL divergence) là một thước đo để so sánh hai phân phối xác suất; ở đây, KL divergence được dùng để đo lường sự khác biệt giữa phân phối xấp xỉ q(zₗ) và phân phối thực sự của biến tiềm ẩn p(zₗ).

Công thức tổng quát của kỹ thuật tái tham số hóa (re-parameterization):

Với ϵ là nhiễu ngẫu nhiên lấy mẫu từ phân phối chuẩn N(0,1)

Hàm mất mát lựa chọn đặc trưng (Lossfea) đánh giá việc chọn lọc các đặc trưng tiềm năng (z) từ ảnh đầu vào (x), nhằm đảm bảo rằng những đặc trưng này chứa thông tin cần thiết cho phân loại mà không bị dư thừa Lossfea áp dụng phân kỳ Kullback–Leibler (KL) để đo lường sự khác biệt giữa hai phân phối xác suất.

Phân phối đầu ra của mô hình N(𝑧 𝑙 , μ 𝑙 , 𝜎 𝑙 ) đại diện cho các đặc trưng tiềm năng (latent features) Zl, được trích xuất từ ảnh đầu vào thông qua mô-đun P-VIB.

− Phân phối chuẩn xác định trước q(𝑧 𝑙 ): Đây là phân phối chuẩn mà chúng ta mong muốn các đặc trưng tiềm năng Zl tuân theo

Cuối cùng, mất mát lựa chọn đặc trưng tổng được ước tính theo phương trình:

Hàm tổn thất tổng hợp kết hợp hai hàm tổn thất để huấn luyện mô hình một cách toàn diện, giúp mô hình không chỉ phân loại chính xác mà còn lựa chọn các đặc trưng phù hợp Việc tối ưu hóa cả hai khía cạnh này đồng thời là rất quan trọng.

𝐿(y, 𝑃̂ 𝑙 , 𝜇,𝜎) = 𝑙𝑜𝑠𝑠 𝑐𝑙𝑠 (y,𝑃̂ 𝑙 ) +β𝑙𝑜𝑠𝑠 𝑓𝑒𝑎 (𝜇,𝜎) (3.6) β là hệ số điều chỉnh mức độ quan trọng giữa hàm mất mát phân loại và hàm mất mát lựa chọn đặc trưng

Quan hệ giữa ba hàm tổn thất :

Hàm mất mát phân loại (Losscls) và hàm mất mát lựa chọn đặc trưng (Lossfea) đóng vai trò quan trọng trong việc huấn luyện mô hình Losscls giúp mô hình phân loại dữ liệu đầu vào một cách hiệu quả, trong khi Lossfea đảm bảo rằng các đặc trưng được chọn là quan trọng và không dư thừa Điều này cho phép mô hình học được những đặc trưng tiềm năng (latent features) quan trọng từ dữ liệu đầu vào mà không bị nhiễu bởi các đặc trưng không cần thiết.

Hàm tổn thất tổng hợp kết hợp hai hàm tổn thất khác nhau, sử dụng hệ số β để điều chỉnh tầm quan trọng của từng thành phần Phương pháp này giúp mô hình đạt được sự cân bằng tối ưu giữa độ chính xác trong dự đoán (phân loại) và hiệu quả trong việc lựa chọn đặc trưng, từ đó loại bỏ các đặc trưng dư thừa và nhiễu.

Lựa chọn đặc trưng ở mức độ cục bộ

Phương pháp Variational Information Bottleneck (VIB) đã chứng tỏ hiệu quả đáng kể trong lĩnh vực chẩn đoán hình ảnh y tế, với những thành công ban đầu trong việc trích xuất đặc trưng cho các nhiệm vụ phân loại Nghiên cứu và ứng dụng cụ thể đã chỉ ra rằng VIB có thể cải thiện độ chính xác trong chẩn đoán hình ảnh y tế, mở ra triển vọng mới cho việc phát triển các công cụ hỗ trợ chẩn đoán.

Trong phương pháp VIB truyền thống, các đặc trưng không gian được chuyển đổi thành một vectơ duy nhất, dẫn đến việc các thông tin từ các vị trí khác nhau trong ảnh bị gom lại và mất đi cấu trúc không gian ban đầu.

Một bức ảnh được chia thành nhiều pixel, với các giá trị tại mỗi pixel được làm phẳng thành một vectơ duy nhất Tuy nhiên, điều này có thể gây khó khăn khi kết hợp với các mô-đun CNN khác, vì CNN thường hoạt động hiệu quả hơn với dữ liệu không gian, nơi các kênh và vị trí không gian được giữ nguyên.

Nhiều mô-đun đã được phát triển nhằm nâng cao độ chính xác của mạng CNN, trong đó các mô-đun chú ý như SE và ECA nổi bật với khả năng nắm bắt các đặc trưng phi cục bộ hiệu quả Tuy nhiên, phương pháp VIB truyền thống lại làm phẳng các đặc trưng không gian thành một vectơ duy nhất, dẫn đến việc mất đi cấu trúc không gian ban đầu của hình ảnh.

Bộ môn điện tử công nghiệp - y sinh 25 cho thấy rằng các đặc trưng làm phẳng khó có thể kết hợp với các mô-đun dựa trên CNN khác Điều này là do CNN hoạt động hiệu quả nhất với dữ liệu có cấu trúc không gian.

P-VIB (Parallel VIB) được đề xuất vấn đề này:

P-VIB sử dụng các khối convolution song song 3x3 để trích xuất hai giá trị đặc trưng, bao gồm trung bình và độ lệch chuẩn, trong khi vẫn giữ nguyên cấu trúc không gian của đầu vào Khác với toán tử làm phẳng, convolution bảo toàn hình dạng ban đầu của ảnh, giúp duy trì cấu trúc không gian một cách hiệu quả.

P-VIB có khả năng tích hợp dễ dàng với các mô-đun CNN khác, bao gồm cả mô-đun chú ý như SE và ECA, nhờ vào việc giữ nguyên cấu trúc không gian Điều này cho phép tận dụng hiệu quả các mô-đun chú ý để nắm bắt các đặc trưng non-local.

P-VIB cải thiện khả năng trích xuất đặc trưng bằng cách sử dụng các convolution để lấy giá trị trung bình μ và phương sai σ tại mọi vị trí trong ảnh, thay vì làm phẳng chúng Phương pháp này cho phép mô hình khai thác các đặc trưng từ các điểm ảnh lân cận, nâng cao hiệu quả phân tích hình ảnh.

Mô-đun này sử dụng hai khối tích chập 3x3 song song để giữ nguyên kích thước đầu ra của convolution so với đầu vào, nhằm trích xuất hai giá trị (μ𝑙, σ𝑙) đại diện cho các thông số của phân phối Gaussian tại từng vị trí không gian của đặc trưng 𝐹𝑙 Việc này giúp duy trì cấu trúc không gian của đặc trưng, từ đó bảo tồn thông tin không gian từ ảnh gốc.

Cách tính toán hàm mất mát lựa chọn đặc trưng (Lossfea) được thực hiện thông qua hàm mất mát KL, nhằm đo lường độ khác biệt giữa hai phân phối xác suất: phân phối đặc trưng đã được trích xuất và một phân phối chuẩn hóa trước đó tại mỗi thang đo l-th (theo phương trình 3.3) Phương trình (3.5) tổng hợp mất mát lựa chọn đặc trưng ở tất cả các thang đo l-th Để cụ thể hóa việc tính toán mất mát KL tại mỗi thang đo l-th, ta áp dụng phương trình (3.7).

𝐶 𝑙 𝑊 𝑙 𝐻 𝑙 ∑ 𝑊 𝑗=1 𝑙 𝐻 𝑙 ∑ 𝐶 𝑘=1 𝑙 (𝜇 𝑗,𝑘 2 +𝜎 𝑗,𝑘 2 − 2 log(𝜎 𝑗,𝑘 ) − 1) (3.7) Với Chỉ số j đại diện cho mỗi kênh và k đại diện cho mỗi vị trí không gian (pixel) trong đặc trưng.

THI CÔNG HỆ THỐNG

Thi công hiển thị lên phía người dùng frontend

Việc thi công hiển thị mô hình huấn luyện trên web là lựa chọn hợp lý, giúp người dùng dễ dàng trực quan hóa thông tin.

Trong đề tài này, hệ thống web được triển khai với ba phần chính: giao diện người dùng (FE), máy chủ xử lý logic (BE) và thiết lập API từ ảnh X quang gốc để tạo ra các ảnh Gradcam tương ứng với từng nhãn bệnh Nếu ứng dụng đưa ra nhiều nhãn bệnh, sẽ có một ảnh Gradcam thể hiện tất cả các vùng bệnh và các ảnh bệnh thành phần Đặc biệt, người dùng được cấp quyền professor có thể đánh nhãn ảnh gốc theo phân tích của họ, góp phần nâng cao chất lượng nguồn ảnh từ các bác sĩ và chuyên gia y tế trong tương lai.

Khi người dùng truy cập ứng dụng, trang chủ sẽ là giao diện đầu tiên họ thấy, cung cấp cái nhìn tổng quan và biểu tượng của ứng dụng Sau khi đăng nhập, người dùng có thể sử dụng trang chủ để thực hiện các chức năng chẩn đoán, phân tích và lưu trữ kết quả.

Hình 4 1 Hình ảnh trang giao diện khi người dùng bắt đầu đăng nhập tài khoản

Khi người dùng bắt đầu quá trình chẩn đoán, hệ thống web sẽ gửi yêu cầu API đến backend để gọi model huấn luyện, từ đó nhận về kết quả chẩn đoán bệnh lý dưới dạng chuỗi json base64 Kết quả này bao gồm thông tin chẩn đoán và hình ảnh diễn giải gradientcam, được hiển thị như trong hình 4.2 và 4.3.

CHƯƠNG 4 THI CÔNG HỆ THỐNG

Hình 4 2 Mô hình khi chỉ phát hiện một bệnh khi người dùng tiến hành dự đoán

Hình 4 3 Mô hình khi phát hiện có nhiều hơn 1 nhãn bệnh

Trang này cho phép bác sĩ và người dùng lưu trữ kết quả chẩn đoán cùng với thông tin bệnh nhân và kết luận của bác sĩ Khi người dùng nhập đầy đủ thông tin và nhấn nút “Save your prediction”, hệ thống sẽ gửi yêu cầu lưu trữ qua API bên trong backend để lưu dữ liệu của người sử dụng.

Hình 4 4 Lưu lại kết quả bệnh nhân vào hệ thống web

Giao diện trang đánh nhãn dữ liệu cho phép các tài khoản có quyền gán nhãn cho hình ảnh CXR, được tải lên bởi các chuyên gia y tế và bác sĩ chuyên môn về X quang Hệ thống được thiết kế với 14 nhãn bệnh lý, tương ứng với 14 nút nhẫn để lựa chọn, giúp thu thập dữ liệu cho mô hình và báo cáo từ cộng đồng Điều này sẽ hỗ trợ việc xem xét và phát triển mô hình trong tương lai.

Hình 4 5 Giao diện của phân quyền “professor” cho phép các bác sĩ chuyên gia đánh nhãn bệnh cho ảnh x quang gốc

Giao diện người dùng đã được thiết kế với thanh tìm kiếm theo từng bộ lọc, giúp người dùng dễ dàng tìm kiếm thông tin Danh sách kết quả được lưu trữ trước, như thể hiện trong hình 4.6.

Hình 4 6 Hình ảnh kho lưu trữ các kết quả của bệnh nhân đã lưu trữ từ trước

Hình 4 7 Hình ảnh chi tiết kết quả thông tin bệnh lý đã được lưu trữ trong bộ sưu tập

Thi công máy chủ Backend

Máy chủ BE đóng vai trò quan trọng trong việc phát triển ứng dụng web Bài báo cáo này trình bày việc sử dụng framework Express JS với ngôn ngữ lập trình JavaScript để xây dựng hệ thống web, cùng với các công cụ như JWT để quản lý xác thực Dưới đây là các bước chính trong quá trình lập trình Backend.

− Khởi tạo các công cụ quản lý và cài đặt chúng trong dự án:

• Sử dụng npm để cài đặt như một công cụ quản lý các thư viện cần thiết trong

• Khởi tạo và cấu hình cho các tệp quản lý máy chủ BE như ‘package.json’ và tập ‘.env.’

− Sơ đồ ứng dụng theo mô hình MVC (Model-View-Controller):

Mô hình MVC giúp tách biệt các thành phần trong ứng dụng, bao gồm xử lý yêu cầu quyền điều khiển (Controller), giao diện hiển thị (View) và yêu cầu dữ liệu, từ đó nâng cao khả năng quản lý và bảo trì hệ thống.

Trong phần máy chủ BE của dự án, nhóm sẽ tổ chức thành ba thư mục chính nhằm quản lý các API được lưu trữ, cũng như thực hiện việc xử lý và tính toán logic của chúng.

Cài đặt và khởi tạo cơ sở dữ liệu là bước quan trọng trong dự án này, với việc lựa chọn Cloudinary để lưu trữ hình ảnh gốc và ảnh chẩn đoán bệnh thông qua phương pháp gradientcam, cùng với MongoDB Atlas để quản lý cơ sở dữ liệu hiệu quả.

Hình 4 8 Hình ảnh thiết lập cấu trúc của dữ liệu trên trang quản trị MongoDB Atlas

Hình 4 9 Hình ảnh các routes cho API được định nghĩa trong Backend

Tạo Model API từ mô hình huấn luyện

Model API là một loại API chuyên dụng, phục vụ cho việc tương tác với các mô hình trí tuệ nhân tạo Nó cho phép người dùng gửi dữ liệu đầu vào, thực hiện các tác vụ như dự đoán hoặc phân loại, và nhận kết quả đầu ra từ mô hình một cách hiệu quả.

Hệ thống Model API được lập trình bằng thư viện Flask của Python, với mục tiêu tạo và duy trì một API endpoint như “/savepredict” API này luôn sẵn sàng nhận yêu cầu và dữ liệu từ backend (BE), trong đó dữ liệu đầu vào là hình ảnh X quang được mã hóa dưới dạng chuỗi json base64 Các API sẽ giải mã chuỗi base64 thành hình ảnh gốc, đồng thời thực hiện tiền xử lý hình ảnh như thay đổi kích thước và chuẩn hóa dữ liệu Sau đó, hệ thống gửi yêu cầu đến mô hình đã được huấn luyện (tệp ".pth") để tiến hành dự đoán và tạo hình ảnh Gradcam Cuối cùng, Model API mã hóa hình ảnh Gradcam thành chuỗi base64 và gửi kết quả dự đoán cùng với hình ảnh đã mã hóa cho BE thông qua API.

Sơ đồ cấu trúc đặc tả hoạt động quy trình chuẩn đoán của ứng dụng hệ thống giữa FE-

BE và model API được thể hiện trên hình 4.10

Hình 4 10 Hình ảnh sơ đồ quy trình chẩn đoán từ mô hình huấn luyện model API, đến Frontend - Backend

Lập trình hệ thống

4.4.1 Lưu đồ giải thuật quy trình đăng ký đăng nhập

Hình 4 11 Lưu đồ quy trình đăng ký đăng nhập

Để sử dụng hệ thống, người dùng cần có tài khoản Nếu chưa có tài khoản, họ phải tiến hành đăng ký hoặc đăng nhập để bắt đầu sử dụng dịch vụ.

Để sử dụng hệ thống của BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP - Y SINH 33, người dùng cần đăng ký tài khoản Nếu đã có tài khoản, chỉ cần nhập thông tin và đăng nhập để truy cập các tính năng Trong trường hợp chưa có tài khoản, người dùng phải tiến hành đăng ký, cung cấp thông tin theo yêu cầu của hệ thống Sau khi hoàn tất, hệ thống sẽ gửi thông báo xác minh tài khoản qua email, và người dùng sẽ nhận được tài khoản để bắt đầu sử dụng.

4.4.2 Lưu đồ giải thuật quy trình chẩn đoán và lưu kết quả vào hệ thống

Hình 4 12 Lưu đồ quy trình chẩn đoán và lưu kết quả vào hệ thống

Sau khi đăng nhập, người dùng có thể sử dụng chức năng chẩn đoán và lưu kết quả bệnh nhân vào hệ thống Để tải ảnh X-quang phổi từ máy tính, người dùng nhấn “upload image” Hệ thống sẽ cung cấp tên các triệu chứng bệnh mà mô hình dự đoán, đồng thời hiển thị ảnh Grad-CAM thể hiện tất cả triệu chứng của các bệnh được dự đoán, cũng như các ảnh Grad-CAM riêng biệt cho từng bệnh thành phần Cuối cùng, người dùng tiến hành lưu kết quả vào hệ thống.

4.4.3 Lưu đồ giải thuật quy trình gửi kết quả cho bệnh nhân

Hình 4 13 Lưu đồ quy trình gửi kết quả cho bệnh nhân

Sau khi đăng nhập, người dùng có thể gửi kết quả cho bệnh nhân thông qua hệ thống Kho lưu trữ của hệ thống chứa tất cả các kết quả đã lưu của bệnh nhân Để gửi kết quả đến một bệnh nhân cụ thể, người dùng chỉ cần nhập địa chỉ email của họ Hệ thống sẽ tự động gửi kết quả, bao gồm tên, tuổi, giới tính, lời nhắn của bác sĩ và ảnh X-quang đến email của bệnh nhân.

KẾT QUẢ

lựa chọn tham số điều khiển

Để đảm bảo tính công bằng và chính xác trong việc so sánh kết quả thí nghiệm với các nghiên cứu khác trong lĩnh vực xử lý hình ảnh X-quang ngực, việc sử dụng tập dữ liệu ChestX-Ray14 cho quá trình đào tạo mô hình sẽ tuân thủ nghiêm ngặt các tiêu chuẩn xây dựng, sử dụng và đánh giá như đã được đề cập trong bài báo của Wang et al.

Chọn lọc dữ liệu là bước quan trọng trong việc sử dụng hình ảnh X-quang từ tập dữ liệu ChestX-ray14, một bộ dữ liệu lớn chứa các bệnh lý thường gặp trong hình ảnh X-quang ngực, được thu thập từ nhiều bệnh viện khác nhau.

Phân chia dữ liệu là quá trình chia tập dữ liệu thành các phần huấn luyện, thử nghiệm và đánh giá với tỉ lệ hợp lý, nhằm đảm bảo rằng mô hình được đào tạo và đánh giá một cách khách quan Việc này giúp mô hình có khả năng tổng quát hóa tốt hơn trong các tình huống thực tế.

Thí nghiệm được xây dựng theo phương pháp của Wang et al[8], sử dụng các kỹ thuật phân loại và định vị dựa trên dữ liệu yếu (weakly-supervised) Mục tiêu là so sánh hiệu quả của các phương pháp khác nhau trong nghiên cứu.

Để đánh giá khả năng của phương pháp đề xuất, cần sử dụng các tiêu chuẩn đánh giá chuẩn mực, bao gồm việc so sánh với các phương pháp tiên tiến (SotA) đã được công bố.

Mục tiêu của thí nghiệm là xác định giá trị siêu tham số 𝛽 tối ưu nhằm nâng cao hiệu suất phân loại hình ảnh X-quang Siêu tham số 𝛽 đóng vai trò quan trọng trong việc điều chỉnh mức độ ảnh hưởng của mất mát lựa chọn đặc trưng so với mất mát phân loại, từ đó cải thiện kết quả của mô hình.

Trong phương trình (3.6), mất mát lựa chọn đặc trưng được kết hợp với mất mát phân loại để huấn luyện, với tham số 𝛽 điều khiển mức độ ảnh hưởng của mất mát lựa chọn đặc trưng Nếu 𝛽 quá lớn, mô hình sẽ loại bỏ nhiều đặc trưng, dẫn đến giảm độ chính xác do thiếu thông tin cần thiết Ngược lại, nếu 𝛽 quá nhỏ, mô hình có thể học các đặc trưng nhiễu, gây ra hiện tượng overfitting Do đó, việc chọn giá trị 𝛽 phù hợp là rất quan trọng, và chúng tôi đã thử nghiệm với nhiều giá trị 𝛽 [0.01, 0.05, 0.1, 0.15] Hiệu suất của mô hình với các giá trị 𝛽 khác nhau được trình bày trong Hình 5.1.

Hình 5 1 Điều chỉnh các tham số 𝛽 để đạt AUC cao hơn

Kết quả nghiên cứu cho thấy, với nhiều tham số beta, P-VIB sử dụng hàm mất mát KL đã cải thiện hiệu suất phân loại một cách ổn định Cụ thể, UAC trung bình của phương pháp cơ sở là 86.0% [9] (đường kẻ xanh trong hình 5.1), trong khi UAC trung bình cao nhất của phương pháp đề xuất với 𝛽 = 0.1 đạt 86.4% Đáng chú ý, tất cả các trường hợp đều vượt qua hiệu suất của baseline Các thí nghiệm với nhiều thông số 𝛽 đều cho thấy AUC cao hơn baseline, chứng tỏ rằng mất mát phụ trợ từ VIB rất ổn định và hiệu quả trong việc nâng cao hiệu suất Do AUC tối ưu được ghi nhận với 𝛽 = 0.1, nên tham số này sẽ được chọn cho các thí nghiệm tiếp theo.

Trực quan hóa hai hàm mất mát trong quá trình huấn luyện mô hình giúp theo dõi tiến trình học trên dữ liệu huấn luyện Qua đó, người dùng có thể đánh giá hiệu quả của từng hàm mất mát đối với việc huấn luyện mô hình, từ đó cải thiện hiệu suất học tập của mô hình.

Hình 5 2 Mất mát trong quá trình huấn luyện

Hình 5.2 minh họa quá trình hoạt động của hai hàm loss, trong đó bên trái là mất mát phân loại và bên phải là mất mát lựa chọn đặc trưng trên tập huấn luyện Sự giảm dần và hội tụ của cả hai loại mất mát về một giá trị nhất định cho thấy quá trình huấn luyện của mô hình diễn ra ổn định Điều này cho thấy mô hình đang học được các đặc trưng và cải thiện khả năng phân loại theo thời gian.

BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP - Y SINH 35 cho thấy rằng việc hội tụ của feature selection loss chứng tỏ mô hình không chỉ phân loại tốt mà còn tối ưu hóa việc chọn lọc các đặc trưng quan trọng Phương pháp P-VIB tập trung vào việc giữ lại những đặc trưng quan trọng nhất và loại bỏ những đặc trưng không cần thiết Nếu chỉ có classification loss hội tụ mà feature selection loss không hội tụ, mô hình có thể đang học quá mức các chi tiết của dữ liệu huấn luyện và không tổng quát hóa tốt.

Mất mát phân loại giảm chậm do việc phân loại chính xác các bệnh lý từ ảnh X-quang ngực là một nhiệm vụ khó khăn Mô hình cần nhiều thời gian và dữ liệu hơn để học các mẫu phức tạp, từ đó đạt được độ chính xác cao.

Mất mát lựa chọn đặc trưng giảm đáng kể trong epoch đầu tiên cho thấy mô hình nhanh chóng học các đặc trưng quan trọng từ dữ liệu, cho thấy quá trình lựa chọn đặc trưng hiệu quả Điều này giúp mô hình tập trung vào thông tin hữu ích ngay từ đầu P-VIB hoạt động tốt trong việc nén thông tin và giữ lại thông tin quan trọng, không bị ảnh hưởng nhiều bởi trạng thái ban đầu của mô hình Hình 5.2b chỉ ra rằng khi mất mát KL rất cao ở giai đoạn đầu của quá trình huấn luyện, nó vẫn có thể hội tụ tương tự như các trường hợp khác.

Trong nghiên cứu này, chúng tôi nhận thấy rằng AUC cho các giá trị 𝛽 = 0.01 và 𝛽 = 0.05 tương tự nhau, cùng với các mất mát phân loại cũng có sự tương đồng Tuy nhiên, các mất mát lựa chọn đặc trưng lại hội tụ theo những cách khác nhau, cho thấy rằng chúng hoạt động tương đối độc lập Mặc dù mất mát lựa chọn đặc trưng cải thiện hiệu suất một cách ổn định, nhưng vẫn tồn tại nhiều yếu tố ngẫu nhiên trong quá trình huấn luyện, do đó không thể khẳng định rằng 𝛽 = 0.1 là lựa chọn tốt nhất So sánh với baseline trong Hình 5.1 cho thấy rằng phương pháp P-VIB có thể mang lại lợi ích trong mọi trường hợp 𝛽 Điều này chỉ ra rằng việc chọn 𝛽 có thể chưa tối ưu, nhưng việc áp dụng phương pháp VIB giúp cải thiện hiệu suất mô hình một cách hiệu quả và ổn định mà không gây ra hiện tượng overfitting.

Trong hình 5.1, phương pháp dừng sớm được áp dụng để lựa chọn mô hình tốt nhất cho từng thí nghiệm Các giá trị AUC trong hình này thể hiện hiệu suất của các mô hình tốt, cho thấy rằng việc chọn mô hình dựa trên hiệu suất trên tập xác thực giúp tránh hiện tượng overfitting.

So sánh với các phương pháp tiên tiến khác

Năm yếu tố để so sánh được thể hiện như sau:

Phương pháp mô hình hóa tương quan (Correlation Modeling - CM) giúp hiểu rõ mối quan hệ giữa các bệnh bằng cách sử dụng mô hình tương quan, trong khi phương pháp chú ý (Attention - ATT) sử dụng các module chú ý để trích xuất đặc trưng mối quan hệ Cả hai phương pháp đều sử dụng neck, một module hợp nhất dựa trên đồ thị, để tối ưu hóa việc trích xuất và phân tích các đặc trưng liên quan.

Rúc trích đặc trưng: Mô hình tiền huấn luyện được sử dụng

Output for multi-label classification involves several key components: FC stands for fully connected layers, CNN refers to convolutional neural networks, CSRA denotes class-specific residual attention, and MB represents multi-branch classifiers.

Hàm mất mát huấn luyện mô hình bao gồm các loại như W-CE (weighted cross-entropy loss) để điều chỉnh trọng số cho các lớp nhằm xử lý dữ liệu không cân bằng, BCE (binary cross-entropy loss) dùng cho phân loại nhị phân, FL (focal loss) hỗ trợ phân loại với dữ liệu không cân bằng và nhiều mẫu dễ dự đoán, KL (feature selection loss) và BFL (bias focal loss).

Phương pháp sử dụng các đặc trưng đơn tỷ lệ hoặc đa tỷ lệ cho phân loại

Bảng45.1 Bảng so sánh về phương pháp

Phương Pháp Rúc trích đặc trưng

Học mối quan hệ giữa các bệnh Đầu phân loại

Hàm mất mát huấn luện mô hình

ConsultNet DenseNet121 Cơ chế chú ý Fully connected

KL + BCE Đơn tỷ lệ

PCSANet ResNet-50 Cơ chế chú ý Fully connected

A 3 Net DenseNet121 Cơ chế chú ý CNN +

FC weighted cross- entropy Đa tỷ lệ

PCAN DenseNet121 Cơ chế chú ý MB Binary cross- entropy Đơn tỷ lệ

F-PCAM DenseNet121 Mô hình tương quan

Binary cross- entropy Đơn tỷ lệ

LLAGNet DenseNet169 Cơ chế chú ý MB weighted cross- entropy Đơn tỷ lệ

SSGE DenseNet169 Mô hình tương quan

Weighted cross- entropy Đơn tỷ lệ

MXT ViT Cơ chế chú ý Fully connected weighted cross- entropy Đơn tỷ lệ

CheXGAT Eff-B4 Mô hình tương quan

Fully connected focal loss Đơn tỷ lệ

CheXGCN DenseNet169 Mô hình tương quan

Fully connected weighted cross- entropy Đơn tỷ lệ

Ours Res2Net50 Cơ chế chú ý CSRA KL + BFL Đa tỷ lệ

Hình 5 4 ROC của mô hình

Bảng55.2 Bảng so sánh AUC được thu được bởi phương pháp P-VIB và các phương pháp tiên tiến khác [4]

Hình 5 5 Tỷ lệ giữa số lượng mẫu dương tính/âm tính trong bộ dữ liệu ChestX-

Bảng65.3: So sánh mức tiêu thụ tính toán của một hình ảnh đơn lẻ trong giai đoạn kiểm tra trên tập dữ liệu ChestX-Ray14.[4]

Số lượng phép toán dấu phẩy động cần thực hiện(G)

Thời gian xử lí một ảnh

Mục đích chính của thí nghiệm là so sánh hiệu suất của phương pháp Variational Information Bottleneck (VIB) với các phương pháp tiên tiến khác trên tập dữ liệu ChestX-Ray14 Bài viết sẽ rút ra nhận xét về phương pháp P-VIB và phân tích các yếu tố so sánh giữa các phương pháp này.

− Độ chính xác của các mô hình thông qua chỉ số AUC (Area Under the Curve)

Tốc độ xử lý của các mô hình được xác định bằng cách đo số phép tính dấu phẩy động mỗi giây (FLOPs) tính theo đơn vị G, cùng với thời gian xử lý cho từng hình ảnh đơn lẻ.

Một số nhận xét từ bảng như sau:

Phương pháp của chúng em đạt AUC trung bình cao nhất là 83.7%, vượt trội hơn so với các phương pháp khác, trong khi chỉ có ba bệnh lý có hiệu suất cao nhất PCSA-NET đạt AUC cao nhất cho năm bệnh lý, nhưng AUC trung bình chỉ là 82.5%, đứng thứ 4 Tương tự, SSGE có AUC trung bình 83% nhưng không cải thiện hiệu suất cho nhiều bệnh lý khác Sự kết hợp mất mát lựa chọn đặc trưng trong phương pháp của nhóm giúp giảm thiểu overfitting cho một số bệnh lý, từ đó nâng cao hiệu suất phân loại Kết quả cho thấy phương pháp của chúng em có AUC cao thứ 2 ở 7 trong số 14 bệnh và thêm 3 bệnh có AUC cao nhất, dẫn đến AUC trung bình 83.7%.

Tỷ lệ giữa mẫu dương và mẫu âm là yếu tố quan trọng ảnh hưởng đến độ phức tạp trong phân loại Việc trực quan hóa tỷ lệ các mẫu dương tính và âm tính, như thể hiện trong Hình 5.5, cho phép đối chiếu với các giá trị hiệu suất trong Bảng 5.2 Qua đó, có thể rút ra nhận xét rằng bệnh lý có AUC thấp nhất (Infiltration) lại có số lượng mẫu dương cao hơn, trong khi các phương pháp khác báo cáo AUC rất thấp.

Bệnh lý thâm nhiễm trong Bảng 5.2 cho thấy số lượng mẫu dương nhiều hơn và mẫu âm ít hơn so với các bệnh khác, như được minh họa trong Hình 5.5 Phương pháp nhóm thực nghiệm nổi bật với cơ chế re-parameterization (Phương trình (3.4)), vượt qua phương pháp tốt thứ hai về AUC với tỷ lệ 2.25%.

Kết quả từ bảng 5.2 chỉ ra rằng phương pháp thử nghiệm cho bệnh lý thoát vị hoành khác biệt rõ rệt so với bệnh lý thâm nhiễm Cụ thể, AUC của bệnh lý thoát vị hoành chỉ đạt 0.915, thấp hơn so với nhiều phương pháp khác Hình 5.5 cho thấy sự phân bố không đồng đều của bệnh lý thoát vị hoành, với số lượng mẫu dương rất hạn chế.

Bệnh lý Hernia (Thoát vị hoành) chỉ xuất hiện với 227 mẫu, trong khi có tới 111,893 mẫu âm, cho thấy sự khan hiếm dữ liệu Số mẫu dương quá ít có thể dẫn đến việc chồng lấn giữa tập huấn luyện và tập thử nghiệm, tức là có những mẫu giống nhau trong cả hai tập Điều này có thể ảnh hưởng đến độ chính xác của kết quả huấn luyện, không phản ánh đúng hiệu suất thực tế của mô hình.

Khi số lượng mẫu quá ít và khả năng chồng lấn cao, việc thêm sự bất định vào mô hình có thể không cải thiện độ chính xác Mặc dù kết quả UAC của bệnh lý này khá cao, nhưng nó có thể không phản ánh đúng hiệu suất thực tế Do đó, việc sử dụng VIB mang lại nhiều lợi ích quan trọng trong việc cải thiện độ tin cậy của các kết quả phân tích.

Phương pháp VIB cho thấy hiệu suất cao hơn trung bình với 14 bệnh lý, mặc dù chỉ đạt hiệu suất tối ưu cho ba bệnh lý cụ thể là Thâm nhiễm, U phổi và Tràn khí màng phổi Điều này chứng tỏ rằng VIB có khả năng xây dựng mô hình tổng quát hiệu quả trên nhiều bệnh lý khác nhau.

Kết hợp mất mát lựa chọn đặc trưng (KL loss) giúp giảm thiểu hiện tượng overfitting ở một số bệnh lý, với kết quả cho thấy phương pháp đề xuất đạt xếp hạng thứ hai tốt nhất ở 7 trong 14 bệnh lý, dẫn đến AUC trung bình cao.

Tăng cường tính ổn định trong quá trình huấn luyện là điều quan trọng, với sự giảm đáng kể của mất mát lựa chọn đặc trưng ở giai đoạn đầu Điều này cho thấy rằng VIB không phụ thuộc nhiều vào trạng thái ban đầu và duy trì tính ổn định cao trong suốt quá trình huấn luyện.

Cải thiện độ bền vững của mô hình thông qua cơ chế re-parameterization trong VIB giúp đưa vào sự bất định vào không gian tiềm năng Kỹ thuật này tương tự như tăng cường dữ liệu tại miền đặc trưng, góp phần nâng cao độ bền vững và hiệu suất của mô hình, đặc biệt trong các bệnh lý có tỷ lệ mẫu dương cao.

Đánh giá khả năng tổng quát hóa

Thí nghiệm này nhằm đánh giá hiệu quả của phương pháp P-VIB trong việc ngăn chặn hiện tượng overfitting trên tập dữ liệu huấn luyện, đồng thời cải thiện khả năng tổng quát hóa của mô hình trên các tập dữ liệu thử nghiệm khác nhau.

Bảng75.4 So sánh giữa mô hình cơ sở và mô hình có P-VIB về khả năng tổng quát hóa đối với năm bệnh lý [4]

Kích cỡ tập huấn luyện

Hiệu suất trên tập huấn luyện

Hiệu suất trên tập xác thực

Hiệu suất trên tập kiểm tra

Kết quả do P-VIB đưa ra được in nghiêng

Mô hình nếu bị huấn luyện quá mức sẽ gặp khó khăn trong việc xử lý dữ liệu chưa thấy trước đó Để đánh giá tính ổn định và khả năng tổng quát hóa của P-VIB, các thí nghiệm đã được thực hiện với tập dữ liệu ChestX-Ray14 để huấn luyện và một phần dữ liệu kiểm tra CheXpert để xác thực Cụ thể, nghiên cứu so sánh AUC phân loại cho năm bệnh lý: Atelectasis, Cardiomegaly, Consolidation, Edema và Pleural Effusion.

Dtrain(.) và Dval(.) là hai bộ dữ liệu huấn luyện và xác thực được xác định theo nghiên cứu của Wang et al [8] Các tập con 𝐷25train(.), 𝐷50train(.), 𝐷75train(.), và 𝐷100train(.) được tạo ra bằng cách lấy mẫu phần trăm tương ứng từ 𝐷train(.) và tập dữ liệu thử nghiệm 𝐷test(.) được lấy từ CheXpert Kỹ thuật dừng sớm được áp dụng để chọn mô hình tối ưu trong tất cả các thí nghiệm.

Hình 5 6 So sánh với mô hình cơ sở

Hình 5.6a là train ChestX-Ray14 và test trên ChestXpert, Hình 5.6b là train và tets trên ChestX-Ray14

Bảng 5.4 và Hình 5.6a cho thấy P-VIB cải thiện nhẹ so với mô hình cơ sở trên tập dữ liệu xác thực, với sự cải thiện rõ ràng hơn trên tập dữ liệu thử nghiệm Khi kiểm tra trên tập CheXpert, sự chênh lệch UAC trong hình 5.6a chỉ ra rằng có một khoảng cách miền giữa các tập dữ liệu ChestX-Ray14 và CheXpert, cho thấy hai tập dữ liệu này có những đặc điểm khác nhau Điều này yêu cầu mô hình phải xử lý các đặc điểm riêng biệt của mỗi tập dữ liệu, và P-VIB đã giúp mô hình thực hiện điều đó một cách hiệu quả hơn.

Khi không sử dụng VIB, mô hình chọn lọc dựa trên hiệu suất của tập xác thực (𝐷val(.)) cho thấy AUC cao hơn trên tập huấn luyện, cho thấy khả năng hoạt động tốt trên dữ liệu đã học Tuy nhiên, AUC trên tập xác thực không thay đổi, chỉ ra rằng mô hình không cải thiện khả năng tổng quát hóa và đang gặp vấn đề overfitting Việc sử dụng P-VIB giúp khắc phục tình trạng này, cải thiện khả năng tổng quát hóa của mô hình và nâng cao hiệu suất trên tập xác thực, từ đó giảm thiểu hiện tượng overfitting.

Kết quả từ (𝐷test(.)) cho thấy rằng các đặc trưng học được từ P-VIB phù hợp hơn với CheXpert, với hiệu suất tăng 2% khi sử dụng (𝐷25train(.)) và tăng 1.46% với (𝐷100train(.)) Điều này chỉ ra rằng P-VIB có khả năng cải thiện độ chính xác và giúp mô hình tổng quát hóa tốt hơn, đặc biệt khi làm việc với các tập dữ liệu nhỏ.

Hình 5 7 Các đường cong ROC cho năm bệnh lý

Nhận xét về lợi ích khi sử dụng P-VIB được thể hiện qua các điểm sau:

P-VIB giúp ngăn chặn hiện tượng overfitting trong mô hình bằng cách sử dụng các kỹ thuật re-parameterization, từ đó giảm thiểu sự phụ thuộc vào tập dữ liệu huấn luyện cụ thể và nâng cao khả năng tổng quát của mô hình.

Phương pháp P-VIB giúp cải thiện khả năng tổng quát hóa của mô hình bằng cách tối ưu hóa các đặc trưng phù hợp với tập dữ liệu thử nghiệm, đặc biệt trong trường hợp có sự khác biệt giữa tập huấn luyện và tập thử nghiệm Kết quả là độ chính xác trên các tập dữ liệu kiểm tra được nâng cao rõ rệt.

Thí nghiệm đánh giá hiệu suất của P-VIB trên các tập dữ liệu huấn luyện có kích thước khác nhau (25%, 50%, 75%, 100% của tập huấn luyện gốc) cho thấy phương pháp này cải thiện AUC đáng kể trên các tập dữ liệu nhỏ Kết quả này chứng tỏ tính hiệu quả của P-VIB trong các tình huống có ít dữ liệu.

Khả năng kết hợp với các mạng khác

Thí nghiệm này đánh giá tính linh hoạt của module P-VIB trên các mạng CNN khác nhau, sử dụng hai bộ dữ liệu Bộ dữ liệu đầu tiên bao gồm 100% tập huấn luyện theo Wang et al [8], trong khi bộ thứ hai chỉ chứa 50% của tập huấn luyện Để đảm bảo tính nhất quán, bộ dữ liệu kiểm tra được định nghĩa trong Wang et al [8] được sử dụng mà không có sự thay đổi trong tất cả các trường hợp.

5.4.1 Làm việc với các Backbone khác nhau

Nghiên cứu này kiểm tra cách module P-VIB tương tác với các kiến trúc backbone khác nhau và đánh giá hiệu quả của P-VIB trong việc nâng cao hiệu suất của các mạng CNN Kết quả thí nghiệm với các backbone khác nhau được trình bày chi tiết trong Bảng 5.5.

Bảng85.5 Hiệu suất với các backbone khác nhau.[4]

Dữ liệu 50% tập huấn luyện 100% tập huấn luyện

No P-VIB With P-VIB No P-VIB With P-VIB

P-VIB cải thiện hiệu suất trong tất cả các trường hợp Đối với backbone đã được tối ưu hóa tốt như Res2Net, P-VIB cải thiện được rất ít, chỉ giúp tăng 0.4% hiệu suất Tuy nhiên, với các backbone không tối ưu, P-VIB cải thiện nhiều hơn, dao động từ 1.3% đến 1.6% trong AUC

∆ VIB được tính theo công thức (AUC with PVIB) – (AUC without PVIB), phản ánh hiệu quả cải thiện mô hình của P-VIB Theo bảng 5.5, ∆ VIB ở 100% tập dữ liệu cao hơn một chút so với 50%, phù hợp với quan sát từ Hình 5.6b, cho thấy sự cải thiện tăng khi có thêm mẫu huấn luyện Tuy nhiên, Hình 5.6a chỉ ra sự giảm nhẹ trong cải thiện khi số lượng mẫu huấn luyện gia tăng, điều này cho thấy giới hạn của P-VIB P-VIB hiệu quả nhất với bộ dữ liệu nhỏ hơn, nơi vấn đề overfitting rõ ràng hơn Kết quả từ Hình 5.6a và Hình 5.6b có thể được giải thích bởi các yếu tố như độ phức tạp của vấn đề, khoảng cách miền và sự không đồng nhất trong tập dữ liệu Khi số lượng mẫu đào tạo tăng, mô hình có thêm dữ liệu để học, tối đa hóa lợi ích của P-VIB, dẫn đến mức tăng cao hơn về AUC, mặc dù mức tăng này không phải lúc nào cũng tuyến tính và có thể bị ảnh hưởng bởi nhiều yếu tố khác nhau.

Nhận xét về lợi ích của P-VIB:

P-VIB cải thiện hiệu suất một cách nhất quán, bất kể loại backbone nào được sử dụng Điều này chứng tỏ tính linh hoạt và khả năng mở rộng của P-VIB khi tích hợp vào nhiều kiến trúc mạng khác nhau.

P-VIB mang lại lợi ích lớn hơn khi sử dụng backbone kém tối ưu, với sự cải thiện AUC đáng kể từ 1.3% đến 1.6%, so với chỉ 0.4% khi sử dụng backbone tối ưu như Res2Net Điều này cho thấy P-VIB đặc biệt hiệu quả trong việc nâng cao hiệu suất cho các mô hình có backbone yếu hơn.

P-VIB không hoàn toàn phụ thuộc vào số lượng mẫu huấn luyện để đạt được sự cải thiện Mặc dù việc sử dụng nhiều mẫu huấn luyện có thể dẫn đến cải thiện cao hơn, nhưng hiệu quả của P-VIB vẫn có thể đạt được ngay cả khi số lượng mẫu hạn chế.

BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP - Y SINH 46 khác biệt này không đáng kể, nhấn mạnh rằng P-VIB vẫn hiệu quả với cả các bộ dữ liệu nhỏ hơn

5.4.2 P-VIB tại các vị trí khác nhau

Mặc dù phương pháp khuyến nghị là sử dụng module P-VIB trước phần neck, module này có thể được tích hợp tại bất kỳ vị trí nào trong mạng nơron sâu Nhóm nghiên cứu đã đặt module này sau backbone nhằm tận dụng các mô hình đã được huấn luyện trước để rút trích đặc trưng hiệu quả nhất, từ đó tính toán mối quan hệ giữa các đặc trưng không đồng bộ, như minh họa trong Hình 3.1 Một lựa chọn khác là đặt module sau phần neck, như được mô tả trong Hình 5.8.

Hình 5 8 Kiến trúc của mô hình khi mô-đun P-VIB được đặt sau phần neck

Hình 5 9 So sánh hiệu suất của 2 phương pháp

Hình 5.9 cho thấy sự so sánh kết quả giữa hai thiết lập VIB-neck và neck-VIB trên tất cả các bệnh Cả hai phương pháp đều thành công trong việc xây dựng một bộ phân loại hiệu quả từ dữ liệu đầu vào đến đầu ra Tuy nhiên, cấu hình VIB-neck thể hiện sự vượt trội hơn hẳn so với cấu hình neck-VIB trong hầu hết các bệnh, ngoại trừ bệnh Fibrosis.

Mục tiêu của thí nghiệm là tìm hiểu tính linh hoạt và hiệu quả của module P-VIB khi được bố trí ở các vị trí khác nhau trong mạng phân loại CNN, nhằm xác định vị trí tối ưu để tích hợp P-VIB và đạt hiệu suất tốt nhất.

Lợi ích của P-VIB qua thí nghiệm này:

P-VIB cho thấy tính linh hoạt cao khi có thể được tích hợp tại nhiều vị trí khác nhau trong mạng CNN, đồng thời vẫn mang lại hiệu quả cải thiện hiệu suất Thí nghiệm đã chứng minh rằng module P-VIB có khả năng hoạt động hiệu quả trong nhiều cấu hình khác nhau.

Cấu hình VIB-Neck (P-VIB đặt trước neck) cho thấy hiệu suất vượt trội so với cấu hình Neck-VIB (P-VIB đặt sau neck) trong hầu hết các bệnh, ngoại trừ bệnh Fibrosis Điều này cho thấy việc lựa chọn đặc trưng (feature selection) hiệu quả hơn khi áp dụng cho các đặc trưng cấp thấp (low-level features) thay vì các đặc trưng cấp cao (high-level features).

Cả hai cấu hình đều chứng tỏ khả năng học tập end-to-end thành công, cho phép điều chỉnh các tham số cho lựa chọn đặc trưng và hợp nhất không cục bộ, không phụ thuộc vào thứ tự thực hiện Điều này cho thấy P-VIB có khả năng hỗ trợ hiệu quả quá trình học tập tổng thể của mô hình.

5.4.3 P-VIB và các kiến trúc mạng đa dạng

Thí nghiệm đánh giá tác động của module P-VIB trong việc cải thiện hiệu suất mô hình khi tích hợp vào các kiến trúc mạng khác nhau Nghiên cứu này kiểm tra ảnh hưởng của việc loại bỏ một số thành phần như neck và các đặc trưng đa tỉ lệ (multi-scale features) Qua đó, nghiên cứu nhằm làm rõ tầm quan trọng của các thành phần khác nhau trong mạng và cách mà P-VIB tương tác với chúng.

Trong thí nghiệm này, module P-VIB được áp dụng với các kiến trúc mạng khác nhau để phân tích ảnh hưởng của phương pháp này mà không có sự can thiệp của ECA neck Đầu tiên, ECA neck bị loại bỏ nhằm đánh giá tác động của P-VIB lên mô hình Tiếp theo, quá trình scaling cũng bị loại bỏ, tức là không điều chỉnh kích thước các đặc trưng trong mô hình Thay vào đó, thí nghiệm chỉ sử dụng các đặc trưng từ phần "head P4" Cuối cùng, cả neck và yếu tố scaling đều không được sử dụng, với mục tiêu làm rõ sự đóng góp của từng phần trong mô hình và xác định hiệu quả thực sự của phương pháp P-VIB khi không có các yếu tố phụ trợ.

Kết quả của việc thi công hiển thị

5.5.1 Kết quả dựa trên ảnh gradcam

Nhóm nghiên cứu đã áp dụng phương pháp GradCAM để phân tích một số hình ảnh bệnh lý gốc và so sánh với các ảnh gốc được chụp từ góc độ PA trong bộ dữ liệu "ChestX-ray14."

Trong hình 5.10, CXR chỉ rõ nhãn bệnh "Cardiomegaly" trong bộ dữ liệu ChestX-ray14, cho thấy GradCAM có khả năng diễn giải và phát hiện vùng bệnh một cách hiệu quả.

“Cardiomegaly" là chỗ tim to trên hình 5.10a, vùng tim to gây ảnh hưởng đến chức năng của phổi

Hình 5 10 Hình ảnh gradientcam được thể hiện dựa trên vùng bệnh Cardiomegaly

Khi chẩn đoán bệnh lý từ hình ảnh CXR với hai nhãn bệnh trở lên, có thể gặp khó khăn trong việc thể hiện đầy đủ các vùng tổn thương GradCAM cho thấy khả năng tốt trong việc xác định vùng tổn thương "Emphysema" với một bên phổi căng tràn, đồng thời cũng diễn giải hợp lý vùng phổi bị xẹp "Pneumothorax" trên ảnh tổng gradientcam Tuy nhiên, các hình ảnh chi tiết của từng hội chứng vẫn chưa thể hiện rõ đặc trưng của từng thành phần nhãn bệnh như "Emphysema" và "Pneumothorax".

Hình 5 11 Các vùng của 2 bệnh Emphysema và Pneumothorax được thể hiện dựa trên gradientcam

Grad-CAM đáp ứng nhu cầu thể hiện hình ảnh cho các dự đoán từ mô hình AI, giúp người xem dễ dàng hiểu kết quả thi công Các kết quả này cho thấy khả năng của Grad-CAM trong việc minh họa và giải thích các quyết định của mô hình, từ đó nâng cao hiệu quả trong việc xem xét và đánh giá.

BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP - Y SINH 50 nhận đánh cũng như trực quan hóa được cần thiết mô hình trên về cho ngườisử dụng

Kết quả từ gradientcam chưa thực sự rõ ràng và chính xác, phụ thuộc vào độ chính xác của mô hình huấn luyện học sâu Như đã chứng minh qua hình 5.10, hình 5.11 và hình 5.12, gradientcam có khả năng thể hiện các tổn thương rộng một cách khá tốt, nhưng lại không thể mô tả chi tiết về các tổn thương, đặc biệt là trong các nhãn bệnh lý hoặc hình ảnh cụ thể.

"Bệnh 'nhỏ' là một thể bệnh lý riêng biệt, thuộc nhóm có nhiều nhãn bệnh lý khác nhau Tuy nhiên, vẫn còn tồn tại những sai sót trong việc nhận diện và phân loại Mô hình ứng dụng phương pháp học sâu hiện tại chưa đạt được mức tối ưu cho việc phát triển các mô hình này."

5.2.2 Kết quả dựa trên việc thi công lên web Đối với tính năng xác thực về quản lý đăng kí và đăng nhập

Người dùng cần đăng ký và xác thực tài khoản qua email mà họ cung cấp để kiểm tra chức năng xác thực tài khoản Sau khi hoàn tất, người dùng sẽ nhận được một email thông báo đến địa chỉ Gmail đã đăng ký Tiếp theo, họ cần nhấp vào đường liên kết “url” trong email để xác nhận đăng ký thành công Hình 5.13 minh họa quá trình xác thực đăng ký tài khoản mới của hệ thống web.

Hệ thống web cung cấp các tính năng quản lý chẩn đoán hình ảnh bệnh lý và lưu trữ thông tin người dùng Sau khi đăng nhập thành công, người dùng có thể tải hình ảnh lên và thực hiện quy trình chẩn đoán theo thiết kế của hệ thống.

Sau khi đăng nhập thành công vào trang quản lý, người dùng chỉ cần nhấn vào biểu tượng "upload image" để chọn hình ảnh mong muốn Tiếp theo, nhấn "Predict" để bắt đầu quy trình chẩn đoán theo mô hình AI của hệ thống.

Người dùng sẽ nhận được hình ảnh gốc và ảnh GradCAM tổng thể của vùng tổn thương Nếu có từ hai nhãn bệnh lý trở lên, người dùng sẽ nhận thêm các ảnh GradCAM tương ứng với từng nhãn bệnh và vùng tổn thương theo kết quả dự đoán của mô hình huấn luyện.

Người dùng chọn vào nút "save" để lưu kết quả thông tin người bệnh

Người dùng cần nhập lại thông tin cuối cùng của bệnh nhân, bao gồm tên, tuổi, giới tính và kết luận của bác sĩ, sau đó chọn "Lưu dự đoán của bạn" để lưu trữ kết quả vào cơ sở dữ liệu.

Hình 5 13 Hình ảnh quy trình của hệ thống khi thực hiện quá trình dự đoán kết

Người dùng có thể chọn thẻ kết quả đã lưu trữ trên giao diện quản lý để truy cập trang chi tiết thông tin bệnh nhân Trang này cung cấp đầy đủ thông tin về kết quả chẩn đoán và cho phép người dùng xem hình ảnh dưới hai chế độ: "Original" và chế độ khác.

GradientCam cho phép tạo ra các hình ảnh tương ứng với nhiều nhãn bệnh khác nhau Bác sĩ có thể gửi kết quả qua email cho bệnh nhân hoặc lựa chọn xóa bỏ kết quả nếu cần thiết.

Hình 5 14Hình ảnh giao diện hiển thị thông tin của bệnh nhân trong lần chuẩn đoán trước với hình ảnh hiển thị gốc Original

Bác sĩ có thể gửi thông tin kết quả chẩn đoán qua email cho bệnh nhân Sau khi xem xét kết quả và thông tin của người bệnh, bác sĩ sẽ gửi thông tin thăm khám cùng với kết quả đó đến địa chỉ Gmail của bệnh nhân.

– Bác sĩ chọn vào nút nhấn "send to email" để bắt đầu quá trình gửi mail kết quả cho bệnh nhân (như hình 5.15)

Bác sĩ nhập địa chỉ email của bệnh nhân và soạn thảo nội dung bao gồm địa chỉ email, tiêu đề và lời nhắn Sau đó, bác sĩ nhấn "Send this email" để gửi thông tin đến bệnh nhân mong muốn.

Tiêu đề	Ứng Dụng Phương Pháp Học Sâu Trong Mô Hình Chẩn Đoán Hình Ảnh X Quang Phổi
Tác giả	Huỳnh Trọng Nhân, Lương Sỹ Hùng
Người hướng dẫn	TS. Nguyễn Mạnh Hùng
Trường học	Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh
Chuyên ngành	Kỹ Thuật Y Sinh
Thể loại	Đồ Án Tốt Nghiệp
Năm xuất bản	2024
Thành phố	Thành Phố Hồ Chí Minh

Định dạng
Số trang	75
Dung lượng	4,7 MB