ứng dụng trí tuệ nhân tạo trong chuẩn đoán bệnh covid 19

Hình ảnh chẩn đoán, đặc biệt là hình ảnh X-quang là một công cụ quantrọng để chuẩn đoán và xác định các biểu hiện bất thường về phổi liên quan đếnvirus.Trong luận văn này, tôi sử dụng ki

GIỚI THIỆU ĐỀ TÀI

Bối cảnh

Covid-19 là một căn bệnh do virus SÁRS-CoV-2 gây ra, được phát hiện lần đầu tại thành phố Vũ Hán, Trung Quốc vào tháng 12 năm 2019 Từ đó, bệnh đã lan rộng ra toàn cầu, tạo nên một đại dịch Bệnh này chủ yếu lây truyền qua những giọt nước bắn ra từ đường hô hấp khi người nhiễm bệnh hắt hơi, nói chuyện hoặc thở. Ngoài ra, cũng có thể lây truyền thông qua việc tiếp xúc với các bề mặt mà đã bị nhiễm virus và sau đó tiếp xúc với mặt, miệng hoặc mắt.

Hình 1.1: Tình hình về dịch sự lây lan của Covid-19 theo thống kê của WHO [1]

Triệu chứng phổ biến của Covid-19 bao gồm sốt, ho, mệt mỏi, đau cơ, đau họng và khó thở Một số người nhiễm virus có thể không có triệu chứng hoặc chỉ có triệu chứng nhẹ, trong khi những người khác có thể phát triển biến chứng nghiêm trọng hoặc thậm chí tử vong Các triệu chứng này thường bị nhầm lẫn với các triệu chứng của cảm do virus thông thường Việc xác định và chuẩn đoán bệnh thông qua các triệu trứng ban đầu là rất khó, để đạt hiệu quả và chính xác nhất, các bác sỹ có thể sử dụng bằng cách phân tích phim chụp X-quang phổi của bệnh nhân PhimX-quang phổi giúp cho các bác sỹ quan sát được biến đổi trong phổi thông qua các vùng mờ không đồng đều và viêm nhiễm dày đặc Vì vậy, phim chụp X-quang đã trở thành một công cụ quan trọng trong việc giám sát và chuẩn đoán COVID-19.Hơn nữa khi ứng dụng trí tuệ nhân tạo vào y học đặc biệt là phân tích ảnh chụpX-quang giúp cho bác sỹ tăng hiệu suất và đưa ra kết luận dễ dàng, chính xác hơn trong việc bệnh nhân có đang dương tính với Covid-19 hay không.

Sử dụng học máy và trí tuệ nhân tạo (AI) trong lĩnh vực nhận diện ảnh y khoa đã trở thành một trong những xu hướng quan trọng trong ngành chăm sóc sức khỏe. Việc này đã mở ra một loạt các cơ hội và thách thức quan trọng trong việc cải thiện chẩn đoán, theo dõi bệnh, và quản lý sự khám phá trong lĩnh vực y khoa.

Có nhiều phương pháp học máy (ML) được áp dụng trong lĩnh vực y tế trong nhiều ứng dụng, bao gồm việc phát hiện và theo dõi bệnh nhân, đặc biệt trong quản lý COVID-19 Các hệ thống hình ảnh y tế khác nhau, như tomograph tính toán (CT) và tia X, cung cấp cho ML một nền tảng xuất sắc để đối mặt với đại dịch.

Do nhu cầu này, các nhà khoa học đã tiến hành một lượng lớn nghiên cứu Do đó, trong luận văn này này, tôi sử dụng một bài đánh giá hệ thống về tài liệu (SLR) để bao phủ mọi khía cạnh của kết quả từ các bài báo liên quan Phương pháp hình ảnh, phân tích sống còn, dự báo, vấn đề kinh tế và địa lý, phương pháp theo dõi,phát triển thuốc và ứng dụng kết hợp là bảy ứng dụng chính được sử dụng trong đại dịch COVID-19 Mạng thần kinh cổ điển (CNNs), mạng lưới bộ nhớ ngắn hạn dài (LSTM), mạng lưới thần kinh lặp đi lặp lại (RNNs), mạng lưới đối đầu sinh sản (GANs), bộ mã hóa tự động, rừng ngẫu nhiên và các kỹ thuật ML khác thường được sử dụng thường xuyên trong các tình huống như vậy Tiếp theo, các ứng dụng tiên tiến liên quan đến các kỹ thuật ML cho các vấn đề y tế đại dịch được thảo luận.Nhiều vấn đề và thách thức khác nhau liên quan đến ứng dụng ML cho đại dịch này đã được xem xét.

Phạm vi luận văn

Phạm vi nghiên cứu tập trung vào đánh giá giá và ứng dụng mô hình HRNet [2] cho phép tính toán loại hình ảnh y tế, hướng tới xây dựng hệ thống hỗ trợ dự đoánCOVID-19 Đối tượng nghiên cứu là hình ảnh X-quang phổi của bệnh nhân Kết quả nghiên cứu nhằm góp phần nâng cao hiệu quả công tác sẵn sàng lọc và kiểm soát bệnh Trong luận văn này, tôi tập trung vào việc áp dụng mô hình HRNet cho bài toán phân loại hình ảnh chụp X-quang phổi để hỗ trợ chuẩn đoán COVID-19 phân loại thành 3 lớp: COVID-19, bình thường(NORMAL), và bệnh nhân viêm phổi(PNEUMONIA)

Mô tả bài toán

Hình ảnh X-quang phổi đã được biết đến với tiềm năng trong việc theo dõi và kiểm tra nhiều bệnh về phổi như lao, xâm nhập, co rút phổi, viêm phổi và sa trực tràng COVID-19, biểu hiện dưới dạng nhiễm khuẩn đường hô hấp trên và tổ chức phổi, đã được nghiên cứu đầu tiên tại tỉnh Vũ Hán, Trung Quốc vào cuối năm 2019, và thường được thấy ảnh hưởng đến đường hô hấp và do đó, phổi của những người nhiễm bệnh Hình ảnh X-quang vùng ngực đã được chứng minh là hữu ích trong việc theo dõi tác động mà COVID-19 gây ra đối với mô phổi (Radiology Assistant,2020) Với dữ liệu đầu vào là ảnh X-quang phổi ở định dạng DICOM, tôi đã triển khai mạng học sâu HRNet để thực hiện quá trình phân loại hình ảnh của các bệnh nhân và xác định tình trạng bệnh của họ Mạng HRNet, với khả năng học và trích xuất đặc trưng cao cấp, đã được sử dụng một cách hiệu quả để đảm bảo tính chính xác và đáng tin cậy trong quá trình chẩn đoán bệnh Sau khi mô hình đã được huấn luyện và kiểm tra, tôi đã tích hợp nó vào một ứng dụng web dựa trên mô hình Client-server Ứng dụng này dễ sử dụng và cho phép người dùng tải lên ảnhX-quang của bệnh nhân để kiểm tra tình trạng bệnh Điều này giúp tạo ra một cách tiếp cận tiện lợi và hiệu quả cho việc chẩn đoán và theo dõi bệnh nhân.

Đóng góp của luận văn

Bài toán phân lớp ảnh X-quang cho bệnh COVID-19 bằng mạng học sâu là một phần quan trọng trong nghiên cứu và định hướng cho việc chẩn đoán, điều trị bệnh truyền nhiễm này Đề tài này không chỉ đánh giá hiệu quả của mô hình HRNet trong phân loại hình ảnh y tế, đặc biệt là trong việc phát hiện các trường hợp Covid-19, viêm phổi và phổi bình thường, mà còn đề xuất một loạt các biện pháp tối ưu hóa để nâng cao độ chính xác của mô hình Nhờ đó, đề tài đã cung cấp các phương pháp và kỹ thuật tiên tiến trong lĩnh vực trí tuệ nhân tạo và hình ảnh y tế, mở rộng khả năng ứng dụng của mô hình trong điều kiện thực tế Đề xuất từ đề tài này có tiềm năng giúp các bác sĩ có thêm công cụ đáng tin cậy trong việc phân tích và chẩn đoán bệnh, từ đó đưa ra các quyết định điều trị chính xác hơn Đặc biệt, trong bối cảnh đại dịch Covid-19, việc nhanh chóng và chính xác trong việc phát hiện và phân loại các trường hợp nhiễm bệnh có ý nghĩa quan trọng, giúp tiết kiệm thời gian và tài nguyên y tế Tóm lại, đề tài đóng góp phản ánh sự tiến bộ của nghiên cứu khoa học trong việc áp dụng trí tuệ nhân tạo vào lĩnh vực y tế, đồng thời đề xuất các hướng phát triển tiếp theo có khả năng đưa ra những đóng góp quan trọng cho tất cả các ngành.

Bố cục luận văn

Luận văn được trình bày theo bố cục gồm 5 chương:

Chương 1: Giới thiệu đề tài Trình bày tổng quan bài toán được nghiên cứu trong luận văn, động cơ thực hiện, đối tượng, phạm vi nghiên cứu và những đóng góp chính của luận văn.

Chương 2: Nền tảng lý thuyết Trình bày lý thuyết cơ bản về học máy và mạng nơ-ron, đồng thời giới thiệu các hướng nghiên cứu liên quan.

Chương 3:Phương pháp đề xuất Trình bày phương pháp đề xuất để giải quyết bài toán.

Chương 4: Thử nghiệm và đánh giá Trình bày các tập dữ liệu được sử dụng, phương pháp và các thông số để đánh giá kết quả của chiến lược đề suất.

Chương 5: Kết luận Trình bày kết luận chung cho luận văn và đề xuất một số hướng nghiên cứu phát triển của luận văn trong tương lai.

NỀN TẢNG LÝ THUYẾT

Học máy

Học máy, hay còn được gọi là Trí tuệ nhân tạo (AI), là một lĩnh vực nổi bật trong ngành khoa học máy tính và công nghệ thông tin Điều đặc biệt ở học máy là khả năng học từ dữ liệu và khám phá ra các mô hình, kiến thức tự động mà không cần sự can thiệp trực tiếp từ con người nhờ vào các mô hình toán học.

Trong lĩnh vực này, các thuật toán và mô hình được xây dựng và phát triển để giải quyết các bài toán phức tạp, từ dự đoán và phân loại cho đến nhận diện giọng nói, xử lý ngôn ngữ tự nhiên, thị giác máy tính và nhiều ứng dụng khác Nhờ vào sức mạnh tính toán hiện đại và khả năng lưu trữ dữ liệu khổng lồ, học máy đã đạt được những thành tựu đáng kinh ngạc, đưa chúng ta vào một tương lai với nhiều tiềm năng và cơ hội mới.

Cách mà học máy hoạt động dựa vào việc xác định các mẫu và sự tương quan trong dữ liệu để xây dựng các mô hình dự đoán Mô hình này sau đó được đào tạo và kiểm tra với dữ liệu đầu vào để tối ưu hóa hiệu suất và chính xác Điểm đặc biệt là học máy có khả năng điều chỉnh và cải tiến hiệu suất của mô hình khi có thêm dữ liệu mới hoặc khi có thay đổi trong yêu cầu của bài toán.

Học máy không chỉ ảnh hưởng đến lĩnh vực công nghệ, mà còn có sự ảnh hưởng sâu rộng đến nhiều lĩnh vực trong cuộc sống Chẳng hạn, trong y học, học máy được sử dụng để dự đoán bệnh tật và tăng cường chẩn đoán Trong lĩnh vực kinh doanh, học máy có thể áp dụng để phân tích dữ liệu và dự đoán xu hướng thị trường.

Nó cũng có thể hỗ trợ trong nghiên cứu khoa học, tối ưu hoá các quy trình công nghiệp, và thậm chí giúp đẩy mạnh phát triển của các lĩnh vực như xe tự lái và Internet of Things (IoT).

2.1.2 Phân loại các bài toán học máy

Học giám sát (Supervised Machine Learning) là bài toán mà trong đó mô hình được huấn luyện với dữ liệu có nhãn Đầu vào bài toán là tập dữ liệuD = {x (n) , y (n) } N 1 , trong đóx ∈ X, y ∈ Y với y là nhãn tương ứng củax Mục tiêu của bài toán là đi tìm một mối quan hệ ánh xạ f : X → Y chưa biết bằng cách xây dựng một hàm giả thuyếth(X) = Y Hàm giả thuyết h được học trong quá trình huấn luyện với dữ liệu mẫuD và được điều chỉnh sau mỗi lần học để cuối cùngh ≈ f Trong học giám sát, có 2 dạng bài toán chính được phân loại theo Y Nếu Y là liên tục, bài toán được gọi là Hồi quy (Regresssion) NếuY là rời rạc, bài toán được gọi là Phân loại (Classification).

Học không giám sát (Unsupervised Learning [3]) là bài toán mà trong đó mô hình được huấn luyện với dữ liệu không có nhãn Đầu vào bài toán là tập dữ liệu

D = {x (n) } N 1 , x ∈ X Nhiệm vụ của các mô hình học máy là tìm đặt điểm chung hoặc mối liên hệ giữa các dữ liệu không có nhãn để phân tích và phân cụm dữ liệu, phát hiện ra các mẫu hoặc nhóm dữ liệu ẩn mà không cần sự can thiệp của con người Khả năng phát hiện ra những điểm tương đồng và khác biệt trong thông tin khiến nó trở thành giải pháp lý tưởng cho các nhiệm vụ phân cụm dữ liệu, giảm chiều dữ liệu hay phát hiện bất thường, phân khúc khách hàng và nhận dạng hình ảnh.

Học bán giám sát (Semi-Supervised Learning [4]) là một phương pháp học máy kết hợp giữa hai loại dữ liệu là dữ liệu có nhãn (đã được gán nhãn với kết quả đầu ra mong muốn) và dữ liệu không có nhãn (không biết kết quả đầu ra) Trong học bán giám sát, mục tiêu là tận dụng thông tin từ cả hai loại dữ liệu để xây dựng mô hình dự đoán chính xác cho dữ liệu mới chưa có nhãn Học bán giám sát được ứng dụng rộng rãi trong thực tế từ xử lý hình ảnh đến xử lý ngôn ngữ tự nhiên bởi vì có thể tận dụng được nguồn dữ liệu có nhãn và không có.

Học tăng cường (Reinforcement Learning) là một phương pháp học máy trong đó một tác nhân (agent) học cách đạt được mục tiêu bằng cách tương tác với môi trường xung quanh nó Trong học tăng cường, không có dữ liệu có nhãn hoặc hướng dẫn tường minh cho tác tử Thay vào đó, tác tử phải khám phá và tìm hiểu cách hoạt động của môi trường dựa trên các phản hồi (rewards) nhận được sau mỗi hành động Học tăng cường được áp dụng trong nhiều ứng dụng phức tạp và thời gian thực như điều khiển robot và xe tự hành, chơi trò chơi (AlphaGo) hoặc trong lĩnh vực quản lý tài nguyên Tuy học tăng cường có tiềm năng mạnh mẽ, nó cũng đòi hỏi nhiều thời gian và công sức để huấn luyện tác tử đạt được hiệu suất tốt, đặc biệt trong các môi trường có không gian trạng thái lớn và khó khăn.

2.1.3 Vấn đề under-fitting, over-fitting và cách khắc phục

Under-fittinglà hiện tượng khi mô hình ML không thể nắm bắt mối quan hệ giữa các dữ liệu đầu vào và các giá trị mục tiêu, vì thế mà hiệu suất của mô hình không tốt cả trên dữ liệu huấn luyện và dữ liệu kiểm thử Một số nguyên nhân của hiện tượng này là độ chệch cao và phương sai thấp, kích thước của tập dữ liệu huấn luyện được sử dụng là không đủ, hoặc không được làm sạch, chứa nhiễu trong đó, hoặc mô hình quá đơn giản Để khắc phục vấn đề này, chúng ta có thể sử dụng các phương án như tăng độ phức tạp của mô hình, thêm đặc trưng dữ liệu, loại bỏ nhiễu khỏi dữ liệu, tăng số lần huấn luyện hoặc tăng thời gian đào tạo để đạt được kết quả tốt hơn.

Hình 2.1: Ví dụ về Underfitting và Overfitting 1

Over-fitting là hiện tượng xảy ra khi mô hình cố gắng phù hợp với tất cả các điểm dữ liệu trong tập huấn luyện, khiến cho mô hình học được dù có độ lỗi thấp trên tập huấn luyện đó, nhưng lại có độ lỗi lớn trên tập dữ liệu kiểm thử Có nghĩa là, mô hình không có tính khái quát đối với những dữ liệu mới ngoài tập huấn luyện Mô hình rất dễ bị overfitting khi số điểm dữ liệu huấn luyện ít hơn nhiều so với độ phức tạp của mô hình Một số cách khắc phục over-fitting như sau:

• Bổ sung thêm dữ liệu huấn luyện:

– Thu thập thêm dữ liệu

– Biến đổi các điểm dữ liệu đã có trong tập huấn luyện bằng các biện pháp tăng cường dữ liệu: xoay, lật ngang/dọc ảnh, thay đổi độ sáng, .

– Dùng các mô hình sinh ngẫu nhiên để tạo ra các dữ liệu tương tự

• Giảm độ phức tạp của mô hình:

– Giảm số lượng đặc trưng của dữ liệu

– Thêm các đại lượng hiệu chỉnh - chính quy hóa vào hàm mất mát (Hiệu chỉnh L2, L1, )

Hình 2.1 biểu diễn cả hai trường hợp underfiting và overfiting với tập dữ liệu đơn giản với hai lớp.

1 https://www.geeksforgeeks.org/underfitting-and-overfitting-in-machine-learning/

Mạng nơ-ron

Mạng nơ-ron ban đầu chủ yếu được lấy cảm hứng từ các tế bào não sinh học là các tế bào dây thần kinh tương tác trong não, tham gia vào việc xử lý và truyền tín hiệu hóa học và điện, như được minh họa trong hình sau:

Hình 2.2: Các tế bào dây thần kinh tương tác trong não

Dạng cơ bản nhất của mạng nơ-ron (Perceptron) là một mô hình tuyến tính, đầu ra là tổ hợp tuyến tính của các đầu vào Minh họa nữa nơ-ron thần kinh và mô hình tuyến tính được thể hiện trong Hình 2.3 Mô hình nhận các đầu vào của một ví dụ xvà kết hợp chúng với các trọng số wđể tính toán đầu vào Sau đó, đầu vào được chuyển đến hàm ngưỡng (threshold function), tạo ra đầu ra nhị phân−1hoặc+1- nhãn lớp dự đoán của ví dụ Trong giai đoạn học tập, đầu ra này được sử dụng để tính toán sai số của dự đoán và cập nhật các trọng số.

Hình 2.3: Minh họa mô hình tuyến tính và nơ-ron thần kinh

2 https://www.simplilearn.com/tutorials/deep-learning-tutorial/perceptron

Kiến trúc mạng nơ-ron

Kiến trúc một mạng nơ-ron được cấu trúc phân cấp với 3 loại lớp chính: lớp đầu vào, lớp ẩn và lớp đầu ra Mỗi nơ-ron là đơn vị (unit) của mạng nơ-ron Chúng nhận đầu vào từ một nguồn bên ngoài hoặc các nút khác Mỗi nút được kết nối với một nút khác từ lớp tiếp theo và mỗi kết nối như vậy có một trọng số cụ thể Trọng số được gán cho một đơn vị dựa trên tầm quan trọng tương đối của nó so với các đầu vào khác Sau đó các đầu vào này được truyền đến lớp ẩn Việc tính toán chính của một mạng nơ-ron diễn ra trong các lớp ẩn Tại đây, các đầu vào từ lớp đầu vào được thực hiện các phép tính cần thiết để tạo ra một kết quả Kết quả này sau đó được chuyển tiếp đến lớp đầu ra để người dùng có thể xem kết quả tính toán.

Một mạng nơ-ron có thể có một (Hình 2.4a) hoặc nhiều lớp ẩn (Hình 2.4b) Độ sâu của mạng phụ thuộc vào số lượng lớp ẩn, nên mạng nơ-ron còn thường được gọi với tên đi kèm với số lượng lớp ẩn (N-layer neural network) Đối với mạng nơ-ron thông thường, loại kiến trúc mạng phổ biến nhất là mạng kết nối đầy đủ (fully connected network), trong đó các nơ-ron giữa hai lớp liền kề được kết nối hoàn toàn theo cặp, nhưng các nơ-ron trong một lớp không chia sẻ kết nối nào như được biểu diễn trong Hình 2.4.

(a) Mạng nơ-ron một lớp ẩn

(b) Mạng nơ-ron nhiều lớp ẩn

Hình 2.4: Kiến trúc mạng nơ-ron 3

3 https://viblo.asia/p/nn-mang-no-ron-nhan-tao-neural-networks-bWrZn6dwZxw

Khi khởi tạo bộ tham số đầu tiên cho mạng, kết quả tính ra ở output sẽ có sự sai khác so với output mong muốn (expected output), việc đào tạo mô hình cần làm là tối ưu hóa sao cho sự sai khác với expected output là nhỏ nhất Việc tối ưu này dựa trên hàm mất mát của mạng (loss function) Hàm mất mát thể hiện tiêu chí của mô hình học, xem mô hình cần học những gì, phân tách các lớp ra sao Đối với mỗi bài toán sẽ có những loại loại hàm mất mát khác nhau được sử dụng để phù hợp với mục đích của bài toán Giả sử cho tập dữ liệu(x i , y i ) N i=1 bao gồm N điểm dữ liệu tương ứng với dữ liệu đầu vàox ivà dữ liệu đầu ray i Giá trị mô hình dự đoán cho x i lày ˆ i

Trong bài toán hồi quy, cần dự đoán một giá trị số liên tục dựa trên dữ liệu đầu vào Có nhiều hàm mất mát phổ biến được sử dụng để đánh giá sự sai khác giữa giá trị dự đoán (y ˆ) và giá trị thực tế (y) Dưới đây là một số hàm mất mát thông dụng cho bài toán hồi quy:

Mean Squared Error (MSE): Đây là một trong những hàm mất mát phổ biến nhất cho bài toán hồi quy Nó tính toán sự chênh lệch bình phương trung bình giữa giá trị dự đoán và giá trị thực tế.

Mean Absolute Error (MAE): Đây là hàm mất mát khác được sử dụng phổ biến, tính toán sự chênh lệch tuyệt đối trung bình giữa giá trị dự đoán và giá trị thực tế.

Huber Loss [5] kết hợp cả MSE và MAE để giảm ảnh hưởng của các điểm ngoại lệ (outliers) Nó tự động chuyển đổi giữa MSE và MAE dựa trên một tham số delta.

Log-Cosh Loss [6] là một hàm mất mát khác được sử dụng, đặc biệt hữu ích khi xử lý các điểm ngoại lệ Nó kết hợp các thuộc tính của MSE và đạo hàm của hàm tanh.

Các hàm mất mát này có thể được sử dụng để đánh giá hiệu suất của mô hình hồi quy và cập nhật các trọng số của mô hình trong quá trình huấn luyện để tối ưu hóa đầu ra dự đoán Tùy thuộc vào bài toán cụ thể và các yêu cầu của mô hình, người ta có thể chọn hàm mất mát thích hợp để đạt được kết quả tốt nhất.

Trong bài toán phân loại, chúng ta cần dự đoán một nhãn lớp cho mỗi điểm dữ liệu dựa trên các dữ liệu đầu vào Có nhiều hàm mất mát phổ biến được sử dụng để đánh giá sự sai khác giữa nhãn dự đoán và nhãn thực tế trong bài toán phân loại. Dưới đây là một số hàm mất mát thông dụng cho bài toán phân loại:

Cross-Entropy Loss [7] (Log Loss): Đây là hàm mất mát phổ biến nhất trong bài toán phân loại, đặc biệt khi làm việc với các mô hình phân loại như Logistic RegressionvàNeural Networks Nó tính toán sự sai khác giữa phân phối xác suất dự đoán và phân phối xác suất thực tế của các nhãn lớp.

Trong đó,y i là nhãn thực tế (0 hoặc 1),y ˆ i là giá trị dự đoán thuộc vào khoảng từ 0 đến 1.

Hinge Loss [8] Đây là hàm mất mát phổ biến trong Support Vector Machines (SVM) và các thuật toán phân loại tuyến tính khác Nó được sử dụng cho các bài toán phân loại nhị phân và tính toán khoảng cách từ điểm dữ liệu đến siêu phẳng phân chia hai lớp.

Trong đó,y i là nhãn thực tế (1 hoặc -1), y ˆ i là giá trị dự đoán thuộc vào khoảng từ

Categorical Cross-Entropy Loss Đây là biến thể của Cross-Entropy Loss được sử dụng cho bài toán phân loại đa lớp (multi-class classification) Nó tính toán sự sai khác giữa phân phối xác suất dự đoán và phân phối xác suất thực tế của các nhãn lớp.

Các nghiên cứu liên quan

Chụp X-quang ngực là một trong những kỹ thuật phổ biến để chẩn đoán các bệnh liên quan đến ngực và phổi, bao gồm cả ung thư phổi và viêm phổi Đã được đề xuất nhiều phương pháp cho các hệ thống hỗ trợ chẩn đoán trên hình ảnh chụp X-quang ngực, chúng có thể được phân loại thành các loại kỹ thuật dựa trên xử lý hình ảnh và kỹ thuật dựa trên học máy.

Gần đây, các kỹ thuật dựa trên học máy đã cung cấp hiệu suất xuất sắc trong xử lý hình ảnh y học, trong đó các mô hình dựa trên học sâu đã mang lại kết quả tốt với sự hỗ trợ của hệ thống tính toán và thu thập dữ liệu Một trong những mô hình sớm dựa trên học sâu là mạng nơ-ron tích chập (CNN), đây là một mô hình mạng nơ-ron tích chập nhiều tầng bao gồm các lớp tích chập, lớp gộp và lớp kết nối đầy đủ, với mục tiêu chính là học đặc trưng Sự ra đời của mạng nơ-ron tích chập đã thúc đẩy sự phát triển của thị giác máy tính lên một tầm cao mới Hiện nay, có một số kiến trúc mạng CNN khác nhau, và các kiến trúc mới vẫn đang được đề xuất hàng ngày Từ các kiến trúc mạng đơn giản và nguyên thủy như LeNet5 với chỉ khoảng 60 nghìn tham số, cho đến nay, các mạng tích chập đã có các kiến trúc phức tạp và chi tiết hơn, do đó các mạng dựa trên CNN thường được liên kết với tên gọi như DCNN (mạng nơ-ron tích chập sâu), AlexNet [15], VGG [16], và GoogLeNet [17], v.v DCNN hiện đã đạt được nhiều thành công trong lĩnh vực học máy, xử lý hình ảnh và thị giác máy tính Nó có thể đạt được các kết quả điển hình như phân loại hình ảnh, phát hiện đối tượng và phân đoạn ngữ nghĩa Một số vấn đề về phân loại hình ảnh, phát hiện đối tượng và ước tính tư thế của con người đã được giải quyết bởi CNN với độ chính xác cao.

Nghiên cứu "CheXNet: Radiologist-Level Pneumonia Detection on Chest X-Rays with Deep Learning"[18]

Mục tiêu: Nghiên cứu của Rajpurkar và cộng sự tập trung vào việc ứng dụng học sâu để phát hiện vi khuẩn gây viêm phổi trên hình ảnh chụp X-quang ngực.

Cụ thể, mục tiêu là xây dựng mô hình deep learning có khả năng phân loại tương đương hoặc vượt trội so với bác sĩ chuyên khoa.

Phương pháp: Nghiên cứu sử dụng kiến trúc mạng nơ-ron tích chập (convolutional neural network - CNN) và huấn luyện mô hình trên bộ dữ liệu 112.120 bức ảnh X-quang phổi với 14 nhãn, với 14.863 trường hợp có viêm phổi được xác định bởi các bác sĩ Mô hình cũng được tinh chỉnh bằng cách thu thập khả năng phán đoán của 4 bác sĩ chỉnh hình.

Tập dữ liệu thành: Tập train: 98,637 ảnh, tập validation: 6,351 ảnh, tập test: 420 ảnh.

Kết quả: Mô hình deep learning CheXNet đạt độ chính xác 90.5% cho bệnh viêm phổi và 79.3% cho các trường hợp khác, vượt trội so với khả năng phân loại trung bình của bác sĩ (80.0% cho viêm phổi, 84.5% cho các trường hợp khác). Ý nghĩa: Chứng minh tiềm năng của học sâu trong hỗ trợ chẩn đoán y tế tự động. Giúp tăng khả năng tiếp cận dịch vụ y tế ở những nơi thiếu bác sĩ chuyên khoa.

Nhược điểm: Mô hình và bác sĩ không được sử dụng hình ảnh chụp nghiêng, lịch sử bệnh nhân, có thể làm giảm độ chính xác.

Nghiên cứu "Identifying Medical Diagnoses and Treatable Diseases by Image- Based Deep Learning"[19]

Mục tiêu: Nghiên cứu của Kermany và cộng sự nhằm tập trung vào việc ứng dụng học sâu (deep learning) để xác định các chẩn đoán y khoa và các bệnh có thể điều trị từ hình ảnh y tế.

Phương pháp: Sử dụng các mô hình Convolutional Neural Network (CNN) được huấn luyện trên bộ dữ liệu lớn chứa hình ảnh y tế như chụp cắt lớp (CT scan), siêu âm, X-quang.

Tập dữ liệu hình ảnh y tế sau: Hình ảnh da: 129.450 ảnh chứa 2.032 loại bệnh da khác nhau Hình ảnh võng mạc: 88.702 ảnh bình thường và bệnh lý Hình ảnh não CT scan: 7.693 ảnh não, trong đó 3.695 ảnh có khối u.

Nghiên cứu tiến hành huấn luyện các mô hình CNN riêng biệt trên mỗi nhóm dữ liệu trên Sau đó đánh giá khả năng phân loại bệnh tật của các mô hình.

Kết quả: Các mô hình CNN đạt độ chính xác cao trong các nhiệm vụ: Phân loại bệnh da: độ chính xác 72,1%, Phát hiện bệnh võng mạc: độ chính xác 87,4%, Phát hiện khối u não: độ chính xác 94,4% Ý nghĩa: Chứng minh khả năng của deep learning trong việc cải thiện khả năng chẩn đoán và hỗ trợ ra quyết định lâm sàng, đặc biệt là ở những khu vực khó tiếp cận dịch vụ y tế.

Nhược điểm: Nghiên cứu chủ yếu tập trung vào các bệnh có thể điều trị được, chưa bao quát đầy đủ các chẩn đoán y tế khác.

Nghiên cứu "Deep learning for chest radiograph diagnosis: A retrospective comparison of the CheXNeXt algorithm to practicing radiologists"[18]

Mục tiêu: tập trung vào việc sử dụng học sâu (deep learning) để hỗ trợ trong việc chẩn đoán các bệnh dựa trên chụp X-quang ngực Cụ thể, nghiên cứu so sánh hiệu suất của một thuật toán deep learning được gọi là "CheXNeXt" với khả năng chẩn đoán của các bác sĩ chuyên môn.

Phương pháp: Sử dụng Deep Learning (CheXNeXt): Tác giả sử dụng một mô hình deep learning đã được đào tạo trên một tập dữ liệu lớn chứa hàng ngàn hình ảnh chụp X-quang ngực Mô hình này được thiết kế để nhận diện và phân loại các loại bệnh từ hình ảnh chụp X-quang.

Tập dữ liệu: 3,883 hình ảnh chụp X-quang ngực được 4 bác sĩ chuyên khoa gán nhãn.

Kết quả: Kết quả của nghiên cứu cho thấy rằng thuật toán CheXNeXt đạt được độ chính xác và hiệu suất phân loại tương đương hoặc vượt trội so với các bác sĩ chuyên môn. Ý nghĩa: Nghiên cứu này cho thấy tiềm năng của deep learning trong việc hỗ trợ chẩn đoán y học Mô hình CheXNeXt có thể cung cấp một công cụ hữu ích cho các bác sĩ trong việc nhận diện và phân loại các bệnh từ hình ảnh chụp X-quang ngực.

Nhược điểm: Chưa đánh giá mô hình trên quy mô dữ liệu lớn hơn để chứng minh độ ổn định và khả năng tổng quát hóa, mô hình và bác sĩ không được sử dụng thông tin lâm sàng của bệnh nhân, có thể làm giảm độ chính xác và chưa khảo sát các nguồn gây sai lệch tiềm ẩn ảnh hưởng đến kết quả.

Nghiên cứu "CO-ResNet: Optimized ResNet model for COVID-19 diagnosis from X-ray images"[20]

Mục tiêu: tập trung vào việc phát triển một mô hình học sâu dựa trên kiến trúc

ResNet, được tối ưu hóa đặc biệt để chẩn đoán COVID-19 từ hình ảnh chụp X- quang.

Phương pháp: Sử dụng kiến trúc ResNet: Tác giả sử dụng một biến thể của kiến trúc ResNet, một mô hình deep learning đã được chứng minh hiệu quả trong phân loại hình ảnh y học Tối ưu hóa CO-ResNet: Tác giả tiến hành tối ưu hóa mô hình ResNet cho việc chẩn đoán COVID-19 Quá trình tối ưu hóa này nhằm cải thiện khả năng nhận diện của mô hình trên hình ảnh chụp X-quang ngực.

Tập dữ liệu: 750 ảnh X-quang, trong đó 250 ảnh COVID-19, 250 ảnh viêm phổi và 250 ảnh bình thường.

PHƯƠNG PHÁP ÁP DỤNG

HRNet trong nhận dạng hình ảnh

Learning low-resolution representations.Các phương pháp tiếp cận theo mạng tích chập kết hợp đầy đủ [22], [23] tính toán các biểu diễn có độ phân giải thấp bằng cách loại bỏ các lớp được kết nối đầy đủ trong mạng phân loại và ước tính bản đồ phân đoạn thô của chúng Các bản đồ phân đoạn ước tính được cải thiện bằng cách kết hợp các bản đồ điểm phân đoạn nhỏ được ước tính từ các đại diện có độ phân giải trung bình thấp ltrung bình [22], hoặc lặp lại các quá trình [24] Các kỹ thuật tương tự cũng đã được áp dụng để phát hiện cạnh, ví dụ, phát hiện cạnh toàn diện [25] Mạng chập hoàn toàn được mở rộng, bằng cách thay thế một vài (thường là hai) chập được sắp xếp và các chập liên quan bằng các chập giãn, thành phiên bản giãn nở, dẫn đến các biểu diễn có độ phân giải trung bình [26], [27], [28], [29]. Các biểu diễn được tăng cường thêm thành các biểu diễn ngữ cảnh đa tỷ lệ [27], [29] thông qua các kim tự tháp đặc trưng để phân đoạn các đối tượng ở nhiều tỷ lệ.

Recovering high-resolution representations Quy trình lấy mẫu có thể được sử dụng để khôi phục dần các biểu diễn có độ phân giải cao từ các biểu diễn có độ phân giải thấp Mạng con mẫu phụ có thể là một phiên bản đối xứng của quá trình lấy mẫu xuống (ví dụ: VGGNet), với việc bỏ qua kết nối qua một số lớp được nhân đôi để biến đổi các chỉ số tổng hợp, ví dụ: SegNet [30] và DeconvNet [31] hoặc sao chép bản đồ đối tượng, ví dụ: , U-Net [32] và Hourglass, bộ mã hóa-giải mã. Phần mở rộng của U-Net, mạng phần dư có độ phân giải đầy đủ [33], giới thiệu một luồng có độ phân giải đầy đủ bổ sung mang thông tin ở độ phân giải hình ảnh đầy đủ, để thay thế các kết nối bỏ qua và mỗi đơn vị trong mạng con mẫu xuống và mẫu phụ nhận thông tin từ và gửi thông tin đến luồng có độ phân giải đầy đủ Quá trình lấy mẫu không đối xứng cũng được nghiên cứu rộng rãi RefineNet [34] cải thiện sự kết hợp giữa các đại diện được lấy mẫu và các đại diện có cùng độ phân giải được sao chép từ quy trình lấy mẫu xuống Các công việc khác bao gồm: quy trình lấy mẫu ánh sáng, có thể với các chập giãn được sử dụng trong xương sống; quy trình lấy mẫu giảm nhẹ và lấy mẫu nặng, mạng tái tổ hợp; cải thiện các kết nối bỏ qua với nhiều đơn vị tích tụ hơn hoặc phức tạp hơn, cũng như gửi thông tin từ các kết nối bỏ qua có độ phân giải thấp đến các kết nối bỏ qua có độ phân giải cao [35] hoặc trao đổi thông tin giữa chúng;

Maintaining high-resolution representations.Mô hình có liên quan mật thiết đến một số công trình cũng có thể tạo ra các biểu diễn có độ phân giải cao, ví dụ, convolutional neural fabrics [36], interlinked CNNs [37], GridNet [38] và DenseNet đa tỷ lệ [39] Hai công trình ban đầu, convolutional neural fabrics [36] và interlinked CNNs [37], thiếu thiết kế cẩn thận về thời điểm bắt đầu các luồng song song có độ phân giải thấp cũng như cách thức và nơi trao đổi thông tin qua các luồng song song và không sử dụng chuẩn hóa hàng loạt và dư kết nối, do đó không hiển thị hiệu suất thỏa đáng GridNet giống như sự kết hợp của nhiều U-Nets và bao gồm hai giai đoạn trao đổi thông tin đối xứng: giai đoạn đầu tiên chỉ chuyển thông tin từ độ phân giải cao đến độ phân giải thấp, và giai đoạn thứ hai chỉ chuyển thông tin từ độ phân giải thấp đến độ phân giải cao Điều này làm hạn chế chất lượng phân khúc của nó DenseNet đa tỷ lệ không thể tìm hiểu các biểu diễn có độ phân giải cao mạnh mẽ vì không có thông tin nhận được từ các biểu diễn có độ phân giải thấp.

Multi-scale fusion Cách đơn giản là nạp ảnh đa độ phân giải riêng biệt vào nhiều mạng và tổng hợp các bản đồ phản hồi đầu ra Hourglass, UNet và SegNet kết hợp các tính năng cấp thấp trong quy trình lấy mẫu giảm từ cao xuống thấp thành các tính năng cấp cao có cùng độ phân giải trong quy trình lấy mẫu từ thấp đến cao dần dần thông qua bỏ qua kết nối PSPNet [29] và DeepLabV2/3 kết hợp các đặc điểm kim tự tháp thu được bằng mô-đun gộp kim tự tháp và gộp kim tự tháp không gian Mô-đun tổng hợp đa quy mô (độ phân giải) tương tự như hai mô-đun gộp chung Sự khác biệt bao gồm:

• Kết quả tổng hợp của chúng tôi xuất ra các biểu diễn bốn độ phân giải khác với chỉ một.

• Các mô-đun hợp nhất được lặp lại nhiều lần, lấy cảm hứng từ phản ứng tổng hợp sâu.

Mạng HRNet kết nối song song các luồng tích chập từ cao đến thấp Nó duy trì các biểu diễn có độ phân giải cao trong toàn bộ quá trình và tạo ra các biểu diễn có độ phân giải cao đáng tin cậy với độ nhạy vị trí mạnh thông qua việc kết hợp nhiều lần các biểu diễn từ các luồng đa độ phân giải.

Mô hình nhận hình ảnh vào một phần thân, bao gồm hai 2 bước với cửa sổ 33 giảm độ phân giải xuống 1 4 và sau đó phần thân chính xuất ra hình biểu diễn với cùng độ phân giải 1 4 Phần thân chính, được minh họa trong hình 3.1 và chi tiết bên dưới, bao gồm một số thành phần: bộ chập đa độ phân giải song song (parallel multi-resolution convolutions), hợp nhất đa độ phân giải lặp đi lặp lại (repeated multi-resolution fusions) và nút biểu diễn được hiển thị trong hình??.

Hình 3.1: Ví dụ về mạng High-resolution network.

Bắt đầu từ luồng tích chập độ phân giải cao như ở giai đoạn đầu tiên, dần dần thêm từng luồng có độ phân giải cao đến thấp, tạo thành các giai đoạn mới và kết nối song song các luồng đa phân giải Do đó, độ phân giải cho các luồng song song của giai đoạn sau bao gồm các độ phân giải từ giai đoạn trước và một độ phân giải thấp hơn nữa.

Một cấu trúc mạng ví dụ được minh họa trong hình 3.1, chứa 4 luồng song song, về mặt logic như sau:

Hình 3.2: Minh hoạ cấu trúc mạng có 4 luồng song song trong đóN sr là một luồng con trong giai đoạn thứ s và r là chỉ số phân giải Chỉ số phân giải của luồng đầu tiên là r = 1 Độ phân giải của chỉ số r là 2 r−1 1 độ phân giải của luồng đầu tiên.

Mục tiêu của mô-đun hợp nhất là trao đổi thông tin qua các biểu diễn đa độ phân giải Nó được lặp lại nhiều lần (ví dụ: cứ 4 đơn vị dư) Chúng ta hãy xem một ví dụ về kết hợp các biểu diễn 3 độ phân giải, được minh họa trong hình 3.3 Kết hợp 2 biểu diễn và 4 biểu diễn có thể dễ dàng rút ra Đầu vào bao gồm ba biểu diễn: R i r , r = 1, 2, 3, với r là chỉ số phân giải và các biểu diễn đầu ra liên quan là

R o r , r = 1, 2, 3 Mỗi biểu diễn đầu ra là tổng các biểu diễn đã biến đổi của ba đầu vào:R o r = f 1r (R i 1 ) +f 2r (R i 2 ) + f 3r (R i 3 ) Sự hợp nhất giữa các giai đoạn (từ giai đoạn

3 đến giai đoạn 4) có một đầu ra phụ: R o 4 = f 14 (R i 1 ) + f 24 (R i 2 ) + f 34 (R 3 i ) Sự lựa chọn của hàm biến đổi f xr () phụ thuộc vào chỉ số phân giải đầu vào x và chỉ số phân giải đầu rar Nếux = r, f xr (R) = R Nếux < r,f xr (R)giảm ví dụ biểu diễn đầu vàoR thông qua (r − s)sải chân-233chập Ví dụ: một bước chập-2 33cho2 lấy mẫu xuống và hai bước chập 233liên tiếp cho 4×lấy mẫu xuống Nếu x > r, f xr (R)lấy mẫu biểu diễn đầu vào R thông qua phép lấy mẫu song tuyến, theo sau là tích chập11để căn chỉnh số kênh Các chức năng được mô tả trong hình 3.3.

Hình 3.3: Mô tả cách mô-đun tổng hợp tập hợp thông tin

Mô tả cách mô-đun tổng hợp tập hợp thông tin cho độ phân giải cao, trung bình và thấp từ trái sang phải, tương ứng: strided3 × 3= phép tích chập3 × 3với bước đi 2, up samp.1 × 1 =nâng cấp độ phân giải bằng phép nâng cấp bilinear tiếp theo là phép tích chập1 × 1.

Có ba loại đầu biểu diễn được minh họa trong hình 3.4 và gọi chúng lần lượt là

HRNetV1Đầu ra chỉ là đại diện từ luồng có độ phân giải cao Ba đại diện khác bị bỏ qua Điều này được minh họa trong hình 3.4 (a).

HRNetV2Chúng tôi bán lại tỷ lệ các biểu diễn có độ phân giải thấp thông qua lấy mẫu kép song tuyến mà không thay đổi số kênh thành độ phân giải cao và nối bốn biểu diễn, theo sau là một phép chập11để trộn bốn biểu diễn Điều này được minh họa trong hình 3.4 (b).

HRNetV2p Chúng tôi xây dựng các biểu diễn đa cấp bằng cách lấy mẫu nhỏ đầu ra biểu diễn có độ phân giải cao từ HRNetV2 thành nhiều cấp Điều này được mô tả trong hình 3.4 (c).

3.1.2 Ưu điểm và nhược điểm của phương pháp đề xuất.

Các mạng học sâu trong thời điểm hiện tại có độ chính xác rất cao tuy nhiên vẫn tồn tại một số vấn đề như việc mạng học quá sâu dẫn đến bị mất thông tin Hàm lượng thông tin bị giảm dần hoặc vô tình mất mát trong quá trình nhân chập.

Mạng Hrnet có ưu điểm rất lớn trong việc duy trì sự tồn tại của các thông tin xuyên suất quá trình học.

Cụ thể mạng luôn tồn tại sự hiện diện của các độ phân giải từ cao đến thấp. Đồng thời ở cuối giai đoạn phân chia độ phân giải mới mạng tiến hành nhân chập giữa các độ phân giải với nhau Với độ phân giải cao đi đến độ phân giải thấp mạng thực hiện phép nhân conv với strike = 2 Với độ phân giải thấp đi đến độ phân giải cao mạng thực hiện phép upsampling. Điều này giúp cho mạng đưa các thông tin ở độ phân giải cao xuống để duy trì ở độ phân giải thấp trong quá trình học sâu đồng thời điều hướng lại việc học sâu của mạng Ở chiều ngược lại mạng đưa các thông tin học được ở độ phân giải thấp về bổ sung cho độ phân giải cao Quá trình này khiến cho lập trình trở nên khó khăn và khó kiểm soát hơn đồng thời gây tốn bộ nhớ do cùng lúc duy trì quá trình học ở cả nhiều độ phân giải Tuy nhiên mạng lại giữ lại được các thông tin quan trọng nên độ chính xác luôn ở mức cao.

Tổng quan về phương pháp đề xuất

Kế hoạch được đề xuất cho việc nhận dạng COVID-19 được miêu tả trong hình 3.5, trong đó đầu vào là một hình ảnh X-quang Hệ thống sẽ tiến hành xác định xem bệnh nhân tương ứng có mắc Covid hay viêm phổi do virus Một số phương pháp đã được phát triển cho hệ thống nhận dạng; tuy nhiên, chúng có thể có hạn chế trong việc xử lý độ phân giải cao.

Hình 3.5: Luồng xử lí bài toán tổng thể

Hình 3.6: Thành phần chuyển tiếp từ giai đoạn thứ ba đến giai đoạn thứ tư

Hệ thống nhận dạng trong nghiên cứu này được phát triển dựa trên mô hình mạng độ phân giải cao Đầu tiên, hình ảnh đầu vào được điều chỉnh kích thước thành 256x256 và đi qua một stem, bao gồm hai khối tích chập Mỗi khối bao gồm một tích chập 3x3 với bước nhảy 2 (Conv2D), tiếp theo là chuẩn hóa phần mảng (BatchNorm2D) và đơn vị tuyến tính (ReLU) Đầu ra sau đó được xử lý bởi phần thân chính của mạng độ phân giải cao gồm bốn giai đoạn, mỗi giai đoạn có ba thành phần bao gồm chuyển tiếp, tích chập đa phân giải và hợp nhất [2] Mục tiêu chính của thành phần chuyển tiếp là thêm một biểu diễn từ độ phân giải cao xuống độ phân giải thấp Một ví dụ về chuyển tiếp từ giai đoạn thứ ba đến giai đoạn thứ tư được minh họa trong hình 3.6 Giả sử Rsi là biểu diễn tương ứng với giai đoạn thứ s và chỉ số độ phân giải thứ i Biểu diễn đầu ra được xác định bởi

[h] R s+1,j = f s+1,j ( R si ) (3.1) trong đó f s+1,j là một hàm chuyển tiếp, phụ thuộc vào chỉ số độ phân giải Nếu i = j, f s+1,i ( R ) = R Nếu j > i,f s+1,j ( R ) giảm mẫu biểu diễn đầu vào R thông qua một tích chập 3x3 với bước nhảy 2.

Các luồng đa phân giải song song dần dần thêm các luồng độ phân giải cao đến thấp để tạo thành các giai đoạn mới Mỗi luồng trong thành phần đa phân giải bao gồm bốn khối Kiến trúc của mỗi khối được mô tả trong hình 3.7, bao gồm ba lớp tích chập 3x3 và 1x1 theo sau bởi chuẩn hóa phần mảng.

(a) Bốn luồng tích chập song song.

(b) Cấu trúc của khối trong một luồng

Hình 3.7: Tích chập đa phân giải song song a) Bốn luồng và b) cấu trúc của một khối trong một luồng độ phân giải.

Hình 3.8: Cách thành phần hợp nhất tổng hợp thông tin giữa các độ phân giải khác nhau

Thành phần hợp nhất chịu trách nhiệm trao đổi thông tin giữa các biểu diễn đa phân giải Hình 3.8 minh họa cách tổng hợp thông tin cho các độ phân giải khác nhau Biểu diễn đầu ra R 0 i tương ứng với chỉ số độ phân giải thứ i được xác định bởi

X i f ij ( R j ) (3.2) trong đó N là số lượng độ phân giải trong giai đoạn hiện tại, R j là biểu diễn đầu vào từ độ phân giải thứj vàf ij là một hàm hợp nhất phụ thuộc vào chỉ số độ phân giải đầu vào và đầu ra Nếu j = i, f ii ( R ) = R Nếuj < i, f ji ( R ) giảm mẫu biểu diễnRbằng cách sử dụng tích chập 3x3 với bước nhảyi − j Nếuj > i,f ji ( R )tăng phân giải biểu diễn đầu vào R bằng cách sử dụng nội suy bilinear, sau đó là một tích chập 1x1 để cân bằng số lượng kênh.

Do đó, kế hoạch kết nối các luồng tích chập từ cao đến thấp song song, không chỉ có thể duy trì các biểu diễn độ phân giải cao mà còn tạo ra các độ phân giải khác nhau trong suốt quá trình Các mô hình dựa trên độ phân giải cao đã thể hiện hiệu suất vượt trội trong một số ứng dụng bao gồm phân đoạn ngữ nghĩa, phát hiện đối tượng và phân loại.

THỰC NGHIỆM

Dữ liệu

Bộ dữ liệu được thu thập từ các nguồn dữ liệu từ Kaggle 1 - một nền tảng cộng đồng và học máy dành cho các nhà khoa học dữ liệu, nhà nghiên cứu, và các chuyên gia liên quan đến lĩnh vực khoa học dữ liệu và trí tuệ nhân tạo Nền tảng này đã trở thành một điểm hẹn quan trọng cho cộng đồng toàn cầu để tham gia vào các cuộc thi, thách thức, và dự án thực tế liên quan đến xử lý dữ liệu và học máy và một tập dữ liệu từ công bố khoa học về xử lý hình ảnh năm 2020.

Nguồn dữ liệu 1 2 : Bao gồm 6392 ảnh được chia ra 3 lớp: Lớp COVID19 ( 576 ảnh), lớp PNEUMONIA (1543 ảnh) và lớp NORMAL (4273 ảnh).

Nguồn dữ liệu 2 3 : Bao gồm 930 ảnh Xray phổi lớp COVID19.

Tổng số lượng mỗi lớp 1506 1543 4273

Bảng 4.1: Bảng số lượng dữ liệu thu thập trước khi tăng cường mẫu

1 https://www.kaggle.com/datasets/prashant268/chest-xray-covid19-pneumonia

1 https://github.com/ieee8023/covid-chestxray-dataset

Hình 4.2: Đồ thị về tỉ trọng dữ liệu trước khi được tăng cường

Hình 4.3: Đồ thị tỉ lệ dữ liệu sau khi tăng cường

Tập dữ liệu sau khi được tập hợp có 7322 ảnh trong đó có 1506 ảnh Xray Covid

19, 1543 ảnh Xray phổi thường và 4273 ảnh Xray phổi bị viêm do vấn đề khác.

Nguồn dữ liệu 1 tuy đa dạng nhưng lại phân bố không đồng điều, việc kết hợp

2 bộ dữ sẽ tăng thêm độ đồng điều cho tập dữ liệu đồng thời chú trọng vào vấn đề chính của bài toán là phân loại viêm phổi do Covid-19.

Tuy nhiên tập dữ liệu vẫn chưa phân bố đồng điều, cụ thể số lượng ảnh của nhóm

Viêm phổi do vấn đề khác đang quá cao so với phần còn lại Ta sử dụng kỹ thuật tăng cường ảnh( Image Augmentation) để tăng số lượng ảnh cho hai nhãn còn lại.

Cụ thể việc sử dụng hai kỹ thuật lật ảnh - Hình 4.3 và phóng to 1,2 lần - Hình 4.4 kết hợp đồng thời với kỹ thuật thêm nhiễu - Hình 4.5 đã gia tăng số lượng ảnh ở

2 nhóm Covid và Normal lên 4518 và 4692 Việc tăng cường ảnh đã giúp số lượng data tăng lên đồng thời giúp các lớp có số lượng ảnh không quá chênh lệch.

Tổng số lượng mỗi lớp 4518 4629 4273

Bảng 4.2: Bảng số lượng dữ liệu thu thập sau khi tăng cường mẫu

Hình 4.4: Tăng cường mẫu dữ liệu bằng phương pháp Flip

Hình 4.5: Tăng cường mẫu dữ liệu bằng phương pháp Noise Addition

Hình 4.6: Tăng cường mẫu dữ liệu bằng phương pháp Scalling-up

Việc huấn luyện mô hình trong môi trường Python 3.9, sử dụng framework PyTorch và repo HRNet là một quy trình quan trọng trong nghiên cứu và phát triển ứng dụng trí tuệ nhân tạo Python 3.9 cung cấp một nền tảng mạnh mẽ và đa dụng, kết hợp với PyTorch - một thư viện học sâu hàng đầu, cho phép chúng ta dễ dàng xây dựng và huấn luyện các mô hình học sâu.

Sử dụng repo HRNet, chúng ta có thể tận dụng sức mạnh của kiến trúc mô hình HRNet - một trong những kiến trúc nổi bật trong lĩnh vực phân loại ảnh Qua quy trình này, chúng ta sẽ thực hiện các bước cần thiết để cài đặt môi trường, chuẩn bị dữ liệu, huấn luyện và kiểm thử mô hình HRNet.

Về dữ liệu training cần có cấu trúc như hình mô tả bên dưới:

HRNet_Image_Classification imagenet images Train NORMAL PNEUMONIA COVID19 Val

Về mô hình, ở đây tôi sử dụng repo HRNet Image Classification 4 Sau khi clone về chúng ta cần cấu hình lại một số thông số như sau.

Với bài toàn hiện tại cần cấu hình lại tham số số lượng lớpN U M_CLASSES = 3.

4 https://github.com/HRNet/HRNet-Image-Classification

HRNet cung cấp 1 số pretrain model như sau:

Model Params GFLOPs Top-1 Error Top-5 Error

Bảng 4.3: Thông tin về các mô hình HRNet

Về hạ tầng phần cứng, Mô hình được training với máy chủ Google Collab Pro 5 với hệ thống phần cứng như sau Mô hình được training với phần cứng như

Tên phần cứng Thông số

Tên bộ xử lý Intel(R) Xeon(R) Xung nhịp bộ xử lý 2.20GHz

Số nhân bộ xử lý 6 nhân

Số luồng bộ xử lý 12 luồng

Tên card đồ họa NVIDIA A100-SXM Dung lượng Ram card đồ họa 41 GB

Bảng 4.4: Bảng thông tin phần cứng trên trong 13 giờ cho 50 epoch

Đánh giá

Mô hình sử dụng Cross Entropy Loss [7] làm loss function Trong bài toán phân loại đa lớp, Cross Entropy Loss được tính bằng cách tính toán giá trị của hàm entropy giữa phân phối xác suất dự đoán bởi mô hình và phân phối xác suất của nhãn thực tế Mục tiêu của hàm mất mát là giảm thiểu khoảng cách giữa hai phân phối xác suất

Với: -C là số lớp trong bài toán phân loại -y i,clà nhãn thực tế của mẫuicho lớpc (bằng 1 nếu mẫuithuộc lớp c, và bằng 0 nếu không thuộc lớp c) -p i,c là xác suất

5 https://colab.research.google.com/ dự đoán của mô hình cho mẫuithuộc lớpc frtdnb Điểm mạnh của Cross Entropy Loss là nó tạo ra một hàm mất mát đối với dự đoán sai khác nhau và đo lường sự chênh lệch giữa dự đoán và thực tế bằng cách sử dụng hàm log Điều này khuyến khích mô hình học cách tối ưu hóa các xác suất dự đoán chính xác cho các lớp thực tế Cross Entropy Loss thường được kết hợp với hàm softmax ở đầu ra mô hình để đảm bảo tổng xác suất của tất cả các lớp bằng 1.

Accuracy (chính xác) là một trong những độ đo quan trọng nhất trong việc đánh giá hiệu suất của các mô hình dự đoán và phân loại Được sử dụng rộng rãi trong lĩnh vực trí tuệ nhân tạo, học máy và xử lý dữ liệu, accuracy đo lường khả năng của mô hình dự đoán đúng kết quả so với dữ liệu thực tế.

Accuracy được tính bằng cách chia số lượng các dự đoán đúng cho tổng số lượng các dự đoán được thực hiện Điều này giúp ta biết được tỷ lệ phần trăm của những dự đoán chính xác trong tổng số dự đoán.

• TP (True Positives): Số lượng trường hợp mà mô hình dự đoán đúng là thuộc vào lớp có nhãn là1, và thực tế cũng thuộc vào lớp có nhãn là1.

• TN (True Negatives): Số lượng trường hợp mà mô hình dự đoán đúng là thuộc vào lớp có nhãn là0và thực tế cũng thuộc vào lớp có nhãn là0.

• FP (False Positives): Số lượng trường hợp mà mô hình dự đoán sai là thuộc vào lớp có nhãn là1, nhưng thực tế thuộc vào lớp có nhãn là0.

• FN (False Negatives): Số lượng trường hợp mà mô hình dự đoán sai là thuộc vào lớp có nhãn là0, nhưng thực tế thuộc vào lớp có nhãn là1.

Mặc dù là một độ đo dễ dàng hiểu và tính toán Accuracy cũng có nhược điểm khi đối diện với các tập dữ liệu mất cân bằng, trong đó một lớp có số lượng quan sát nhiều hơn so với lớp khác Trong trường hợp này, mô hình có thể đạt được accuracy cao bằng cách đoán luôn lớp có số lượng quan sát nhiều hơn, mà không cần học được đặc trưng thực sự của dữ liệu.

Trong những tình huống mà sự cân bằng giữa các lớp quan trọng, hoặc khi ta quan tâm đến các loại dự đoán sai khác nhau (ví dụ: dự đoán sai lớp A là lớp B có thể nghiêm trọng hơn so với dự đoán sai lớp B là lớp A), các độ đo khác nhưPrecision, Recall, F1-score và Confusion Matrix thường được sử dụng để cung cấp cái nhìn chi tiết hơn về hiệu suất của mô hình.

Dưới đây là kết quả khi thực hiện nghiệm với mô hình đề xuất.

(a) Hàm mất mát (b) Độ chính xác

Hình 4.7: Biểu đồ độ hàm mất mát và độ chính xác trên tập đào tạo trước khi tăng cường mẫu qua mỗi epoch.

Hình 4.8: Biểu đồ độ hàm mất mát và độ chính xác trên tập đào tạo sau khi tăng cường mẫu qua mỗi epoch.

Có thể thấy mô hình sau khi tăng học rất nhanh, ổn định hơn so với trước khi tăng cường Mô hình dường như đã hội tụ ở epoch thứ 30 kèm theo đó là độ chính xác rất cao lên đến100%tại epoch thứ 32.

Hình 4.9: Biểu đồ độ hàm mất mát và độ chính xác trên tập kiểm tra trước khi tăng cường mẫu qua mỗi epoch.

Hình 4.10: Biểu đồ độ hàm mất mát và độ chính xác trên tập kiểm tra sau khi tăng cường mẫu qua mỗi epoch.

Tương tự như trên tập đào tạo, các độ đo trên tập kiểm tra cũng thể hiện mô hình học tốt qua các epoch và đạt kết quả cao.

Hình 4.11: Hàm lỗi trên tập kiểm tra qua mỗi epoch

Predict COVID19 Predict NORMAL Predict PNEUMONIA

Bảng 4.5: Ma trận nhầm lẫn

Ma trận nhầm lẫn được thể hiện trong bảng trên mang lại cái nhìn sâu hơn về hiệu suất của mô hình dự đoán Đối với mỗi danh mục - COVID19, NORMAL và

PNEUMONIA - số liệu được trình bày rõ trong bảng, là 872 trường hợp COVID19 được dự đoán đúng, 916 trường hợp NORMAL được dự đoán chính xác, và 830 trường hợp PNEUMONIA được đặt đúng.

Mô hình dự đoán chính xác với tỷ lệ độ chính xác ở mức 97,54% Tuy nhiên, điểm đáng chú ý là việc mô hình gặp khó khăn trong việc phân biệt giữa các trường hợp COVID19 và PNEUMONIA Cụ thể, mô hình thường nhầm lẫn giữa hai loại bệnh này Điều này không ngạc nhiên khi xem xét các đặc điểm lâm sàng của cả hai loại bệnh này.

Bệnh COVID19 và PNEUMONIA đều liên quan đến viêm phổi, với các triệu chứng và tổn thương tương đối giống nhau, chiếm khoảng 80% sự tương đồng Vì vậy, việc phân biệt chính xác giữa chúng đôi khi có thể trở nên khó khăn, đặc biệt khi chỉ sử dụng thông tin hình ảnh hoặc các biến đại diện lâm sàng có hạn.

Mặc dù mô hình đã đạt được một mức độ chính xác cao, việc tinh chỉnh và cải thiện có thể tập trung vào việc nâng cao khả năng phân biệt giữa các trường hợp COVID19 và PNEUMONIA, có thể thông qua việc tích hợp các dữ liệu hoặc đặc trưng mới để giúp mô hình hiểu biểu hiện lâm sàng của từng loại bệnh một cách chính xác hơn Điều này sẽ hỗ trợ các quyết định lâm sàng và giúp cải thiện chính xác của hệ thống dự đoán trong tương lai.

Phương pháp Mô hình Số lớp Độ chính xác (%)

Singh et al[41] MADE based CNN 2 92.55

Afshar et al.[44] Capsule Networks 4 95.7

Phương pháp đề xuất HRNet 3 97.54

Bảng 4.6: So sánh với các phương pháp khác

Sau khi so sánh với các nghiên cứu trước đó, kết quả mô hình HRNet có hiệu quả cao trong áp dụng vào bài toán phân loại hình ảnh y tế Kết quả thực nghiệm cho thấy mô hình này đạt độ chính xác lên đến 97,54%, chỉ đứng sau phương pháp của Narin et al – một sự kết hợp của ResNet50 và Inception-ResNetV2 – với độ chính xác 98%.

Tiêu đề	Ứng dụng trí tuệ nhân tạo trong chuẩn đoán bệnh Covid-19
Tác giả	Hoàng Thị Mỹ Linh
Người hướng dẫn	TS. Vũ Văn Thiệu
Trường học	Đại học Bách khoa Hà Nội
Chuyên ngành	Khoa học máy tính
Thể loại	Luận văn tốt nghiệp
Năm xuất bản	2023
Thành phố	Hà Nội

Định dạng
Số trang	66
Dung lượng	8,77 MB