1. Trang chủ
  2. » Luận Văn - Báo Cáo

ứng dụng mô hình học tập liên kết trong phát hiện covid 19

93 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 93
Dung lượng 4,51 MB

Nội dung

LỜI CAM ĐOAN Tôi tên là: Trần Thông Minh Ngày sinh: 06/09/1987 Học viên lớp cao học CH21HT01 trường Đại học Thủ Dầu Một Tôi xin cam đoan luận văn “Ứng dụng mô hình học tập liên kết trong

Trang 1

ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT

Trang 2

ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT

TS HUỲNH NGUYỄN THÀNH LUÂN

BÌNH DƯƠNG – 2024

Trang 3

LỜI CAM ĐOAN

Tôi tên là: Trần Thông Minh

Ngày sinh: 06/09/1987

Học viên lớp cao học CH21HT01 trường Đại học Thủ Dầu Một

Tôi xin cam đoan luận văn “Ứng dụng mô hình học tập liên kết trong phát hiện

COVID-19 ” đã tự nghiên cứu và thực hiện đề tài này, bằng kinh nghiệm làm việc

thực tiễn và kiến thức chuyên môn được đào tạo trong quá trình học Đại học và

chương trình cao học tại trường Đại học Thủ Dầu Một, ngành hệ thống thông tin,

Khóa 21, dưới sự quan tâm, hướng dẫn trực tiếp của TS Huỳnh Nguyễn Thành

Luân Mọi tham khảo dùng trong đề tài đều được trích dẫn nguồn rõ ràng và có độ

chính xác cao nhất trong phạm vi hiểu biết của tôi Mọi sao chép không hợp lệ, vi

phạm quy chế đào tạo, hay gian trá, học viên xin hoàn toàn chịu trách nhiệm

Bình Dương, ngày tháng 02 năm 2024

Học viên

Trần Thông Minh

Trang 4

LỜI CẢM ƠN

Sau một thời gian nghiên cứu và làm việc nghiêm túc luận văn thạc sĩ “Ứng

dụng mô hình học tập liên kết trong phát hiện COVID-19” đã hoàn thành

Tôi xin gửi đến Thầy - TS Huỳnh Nguyễn Thành Luân lời cảm ơn chân

thành với sự trân trọng và lòng biết ơn sâu sắc Thầy đã hướng dẫn, truyền đạt kinh

nghiệm, kiến thức, cách tư duy và làm việc khoa học trong suốt thời gian học tập

và làm đề tài tốt nghiệp Thầy luôn theo dõi, đóng góp sửa chữa những thiếu sót,

khuyết điểm em mắc phải và đề ra hướng giải quyết tốt nhất

Tôi xin chân thành cảm ơn các Thầy, các Cô trường Đại học Thủ Dầu Một,

các Thầy Cô khoa Hệ Thống Thông Tin và đặc biệt Thầy TS Hoàng Mạnh Hà đã

hết lòng giúp đỡ, dạy dỗ và truyền đạt những kiến thức quý báu, giúp em có một

nền tảng kiến thức vững chắc Ngoài ra em còn được rèn luyện một tinh thần học

tập và làm việc trách nhiệm, hăng say và đạt hiệu quả cao Đây là những yếu tố cơ

bản giúp em nhanh chóng hoà nhập với môi trường làm việc sau khi tốt nghiệp

Tôi xin chân thành cám ơn !

Bình Dương, ngày tháng 02 năm 2024

Học viên

Trần Thông Minh

Trang 5

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

MỤC LỤC iii

DANH MỤC HÌNH ẢNH v

DANH MỤC BẢNG vii

DANH MỤC TỪ VIẾT TẮT viii

MỞ ĐẦU 1

CHƯƠNG 1: TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU 7

1.1 Tầm quan trọng của ảnh trong lĩnh vực y khoa 7

1.2 Tổng quan về COVID-19 7

1.3 Tầm quan trọng của việc phát hiện sớm Covid-19 11

1.4 Các hướng tiếp cận và giải quyết bài toán 12

1.4.1 Phương pháp học máy 13

1.4.2 Phương pháp học sâu 16

1.4.3 Phương pháp học liên kết 18

1.5 Đề xuất giải pháp 19

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 22

2.1 Mô hình học máy tập trung 22

2.2 Mô hình học máy phân tán 23

2.3 Mô hình học liên kết 25

2.3.1 Giới thiệu 25

2.3.2 Kiến trúc mô hình học liên kết 25

2.3.3 Mô hình học liên kết tầng Server: 27

Trang 6

2.3.4 Mô hình học liên kết tầng Client: 28

2.3.5 Thuật toán FedAvg 29

2.3.6 Thuật toán SGD 32

2.3.7 Lợi ích của mô hình học liên kết 33

2.3.8 Ứng dụng của mô hình học liên kết 36

2.3.9 Các nền tảng phát triển học liên kết 37

2.4 Phương pháp học chuyển tiếp 39

2.4.1 Giới thiệu mô hình học chuyển tiếp 39

2.4.2 Học chuyển tiếp 40

CHƯƠNG 3: MÔ HÌNH ĐỀ XUẤT 42

3.1 Giới thiệu bài toán 42

3.2 Kiến trúc mô hình đề xuất 42

3.3 Phương pháp đánh đánh giá kết quả 44

CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 48

4.1 Bộ dữ liệu 48

4.2 Các thông số thiết lập 53

4.3 Môi trường thực nghiệm 55

4.4 Đánh giá kết quả 55

4.5 Kết quả thực nghiệm 55

CHƯƠNG 5: KẾT LUẬN VÀ KIẾN NGHỊ 68

5.1 Kết luận 68

5.2 Hướng phát triển 68

CÔNG TRÌNH CÔNG BỐ 69

TÀI LIỆU THAM KHẢO 70

Trang 7

DANH MỤC HÌNH ẢNH

Hình 1.1 Thống kê số liệu dịch bệnh COVID-19 trên thế giới 8

Hình 1.2 Thống kê số liệu dịch bệnh COVID-19 ở Việt Nam 8

Hình 1.3 Xét nghiệm RT-PCR 9

Hình 1.4 Chụp Xquang phổi 9

Hình 2.1 Mô hình học máy truyền thống 22

Hình 2.2 Mô hình học máy phân tán 24

Hình 2.3 Một số quy định về bảo vệ dữ liệu cá nhân ở Việt Nam và thế giới 25

Hình 2.4 Mô hình học liên kết 26

Hình 2.5 Mô hình FedAvg 30

Hình 2.6 Các lĩnh vực ứng dụng mô hình học liên kết 37

Hình 2.7 Các nền tảng đang hỗ trợ mô hình học liên kết 39

Hình 2.8 Mô hình trước và sau khi áp dụng transfer learning 41

Hình 3.1 Mô hình đề xuất phát hiện COVID-19 bằng học liên kết 43

Hình 2.9 Ma trận nhầm lẫn 45

Hình 4.1 Số lượng ảnh xám của lớp COVID-19 và NORMAL 48

Hình 4.2 Hình ảnh Xquang phổi của 2 lớp Normal và COVID-19 49

Hình 4.3 Biểu đồ phân phối Mean các lớp 50

Hình 4.4 Biểu đồ phân phối Min theo các lớp 51

Hình 4.5 Biểu đồ phân phối Max 52

Hình 4.6 Biểu đồ phân phối trung bình và độ lệch chuẩn 53

Hình 4.7 Biểu đồ phân phối trung bình và độ lệch chuẩn của các lớp 53

Hình 4.9 Phân chia tập huấn luyện và tập kiểm thử 54

Hình 4.10 Các kết quả các thông số Accuracy, Precision, Recall, F1 Score 56

Hình 4.11 Kết quả Train và Validation Accuracy của mô hình VGG19 – ML 57

Hình 4.12 Kết quả Train và Validation Loss của mô hình VGG19 – ML 57

Hình 4.13 Biểu đồ CovidNet khi trung bình 3 round 59

Hình 4.14 Biểu đồ VGG19 khi trung bình 3 round 60

Hình 4.15 Biểu đồ Densenet201 trung bình 3 round 61

Hình 4.16 Biểu đồ so sánh Loss của 3 mô hình ở Round 1 64

Trang 8

Hình 4.17 Biểu đồ so sánh Loss của 3 mô hình ở Round 2 64

Hình 4.18 Biểu đồ so sánh Loss của 3 mô hình ở Round 3 65

Hình 4.19 Biểu đồ so sánh Acc của 3 mô hình ở Round 1 65

Hình 4.20 Biểu đồ so sánh Acc của 3 mô hình ở Round 2 66

Hình 4.21 Biểu đồ so sánh Acc của 3 mô hình ở Round 3 66

Trang 9

DANH MỤC BẢNG

Bảng 1.1 So sánh ưu nhược điểm của các phương pháp phát hiện Covid-19 10

Bảng 1.2 Bảng các nghiên cứu học máy về COVID-19 15

Bảng 1.3 Bảng các nghiên cứu học sâu về COVID-19 16

Bảng 1.4 Bảng các nghiên cứu về COVID-19 bằng học liên kết 19

Bảng 2.1 Bảng so sánh đặc điểm của 3 mô hình 34

Bảng 2.2 Bảng các mô hình huấn luyện trước phổ biến 40

Bảng 4.1 Bảng các thông số thiết lập 53

Bảng 4.2 Bảng kết quả của mô hình VGG19- ML 58

Bảng 4.3 Bảng tổng hợp kết quả các lần train các vòng 62

Bảng 4.4 Tổng hợp các kết quả của các lần test 63

Bảng 4.5 Bảng đánh giá kết quả giữa ML và FL 67

Trang 10

5 GDPR General Data Protection Regulation

6 JHU Johns Hopkins University

7 ML Machine Learning

8 RT-PCR Reverse Transcription Polymerase

Chain Reaction

9 GAN Generative Adversarial Networks

10 WHO World Health Organization

11 CSSE Center for Systems Science and

Engineering

12 CNN Convolutional Neural Network

13 DCNN Deep Convolutional Neural Network

14 CSSE-JHU Center for Systems Science and

Engineering- Johns Hopkins University

Trang 11

Stt Ký tự viết tắt Ý nghĩa Ghi

chú

15 DNA Deoxyribonucleic acid

16 PCR Polymerase Chain Reaction

17 RNA Ribonucleic Acid

18 ECG Electrocardiogram

19 CT Computed Tomography

20 CFL Cluster Federated Learning

21 FedAVG Federated Averaging

Trang 12

MỞ ĐẦU

1 Lý do chọn đề tài

Dịch bệnh COVID-19, với sức mạnh lây lan toàn cầu và tàn phá không lẻ trong lịch sử nhân loại, đã tạo ra tác động đáng kể đối với sức khỏe cộng đồng và nền kinh tế Sự nghiêm trọng của tình hình dịch bệnh được thể hiện qua việc WHO nhanh chóng tuyên bố đây là đại dịch toàn cầu chỉ sau một tháng từ khi bắt đầu [1] Thống kê từ CSSE-JHU cho đến ngày 10/03/2023 còn làm nổi bật hơn về quy

mô với hơn 676 triệu người nhiễm và 6.8 triệu người tử vong trên thế giới Ở Việt Nam, số liệu 11 triệu người nhiễm và 453 nghìn người chết làm thấy rõ ảnh hưởng của đại dịch [2]

Trong bối cảnh này, trí tuệ nhân tạo đã nổi lên như một công cụ quan trọng trong nhiều lĩnh vực, đặc biệt là y tế AI (Artificial Intelligence) không chỉ giúp phát hiện và chẩn đoán bệnh nhanh chóng, mà còn có khả năng ứng dụng rộng rãi trong việc đối phó với các dịch bệnh như COVID-19 Dù đã có nhiều phương pháp

AI áp dụng vào phát hiện sớm, nhưng các mô hình truyền thống gặp khó khăn trong việc thu thập dữ liệu từ bệnh nhân, với yêu cầu sự hợp tác đội ngũ y bác sĩ

và bệnh nhân, cùng với những thách thức về quyền riêng tư từ các đạo luật như HIPPA (Health Insurance Portability and Accountability Act of 1996) [3], GDPR (General Data Protection Regulation - Quy định bảo vệ dữ liệu chung của Liên minh châu Âu) [4]

Trước những thách thức đó, mô hình học liên kết (Federated Learning - FL)

đã trở thành một giải pháp tiềm năng Học liên kết không chỉ cho phép thiết bị tự học trên một mô hình hợp tác mà không cần chia sẻ dữ liệu cục bộ, mà còn giải quyết vấn đề về quyền riêng tư Được giới thiệu lần đầu bởi Google1 vào năm

2017, mô hình này hứa hẹn mở ra một kỷ nguyên mới trong lĩnh vực nghiên cứu y

tế, tăng cường sự đa dạng của dữ liệu và hiệu quả của các nghiên cứu về bệnh nhân

Trang 13

Với sự gia tăng của các dịch bệnh lạ như COVID-19, Ebola, và Virus Khỉ, nghiên cứu về mô hình học liên kết trở nên ngày càng quan trọng Do đó, luận văn

"Ứng dụng mô hình học liên kết trong phát hiện COVID-19" là một bước quan trọng, hứa hẹn mang lại những đóng góp tích cực cho sự phát triển trong lĩnh vực này

2 Tổng quan nghiên cứu của đề tài

Trong luận văn này, chúng tôi đề xuất phương pháp phát hiện bệnh nhân nhiễm COVID-19 bằng mô hình học liên kết Bên cạnh đó, luận văn nghiên cứu

mô hình học chuyển tiếp với các mô hình huấn luyện trước phổ biến như: CovidNet, VGG19, DenseNet201 Học liên kết cùng với mạng VGG19 đã mang lại kết quả tốt nhất trên bộ dữ liệu so với các mô hình khác Bên cạnh đó, để làm nổi bật được các tính năng của mô hình học liên kết thì luận văn cũng so sánh kết quả giữa mô hình học máy tập trung và mô hình học liên kết Mặc dù phương pháp học máy tập trung có kết quả ổn định hơn khi sử dụng cùng một bộ dữ liệu cho quá trình huấn luyện, nhưng học liên kết lại khả năng tối ưu hóa cao hơn khi tích hợp thêm dữ liệu, từ đó nâng cao khả năng hiệu suất và đảm bảo tính riêng tư Đồng thời, nó còn khai thác được những ưu điểm của việc huấn luyện từ dữ liệu phân tán thu thập từ nhiều nguồn khác nhau Sự biến đổi đa dạng của virus COVID-

19 đang diễn ra tại nhiều quốc gia trên thế giới, làm cho việc xây dựng một cấu trúc chẩn đoán dựa trên học liên kết và dữ liệu thu thập từ các cơ sở y tế ngày càng quan trọng

3 Mục đích và nhiệm vụ nghiên cứu

3.1 Mục đích nghiên cứu

Mục tiêu chính của nghiên cứu là xây dựng một mô hình học liên kết để phát hiện COVID-19 thông qua hình ảnh X-quang Bằng cách kết hợp linh hoạt giữa mô hình học liên tiếp và học chuyển tiếp, nghiên cứu nhằm tạo ra một mô hình phát hiện bệnh đáng tin cậy và hiệu quả Sự kết hợp này không chỉ nhằm tối

ưu hóa khả năng hoạt động của mô hình mà còn đảm bảo tính tin cậy của kết quả,

Trang 14

cung cấp cơ sở vững chắc cho việc áp dụng thực tiễn trong lĩnh vực phòng chống

dịch bệnh và chăm sóc sức khỏe

3.2 Nhiệm vụ nghiên cứu

- Nghiên cứu về mô hình học liên kết

- Nghiên cứu về mô hình học sâu

- Nghiên cứu về việc phát hiện bệnh nhân nhiễm COVID-19 bằng hình ảnh

Xquang

- Thực nghiệm các mô hình sử dụng tập dữ liệu ảnh Xquang

- Bảo vệ dữ liệu của các máy trạm tham gia vào quá trình huấn luyện

4 Đối tượng và phạm vi nghiên cứu

4.1 Đối tượng nghiên cứu

Phân tích cách thức phát hiện bệnh COVID-19 thông qua hình ảnh Xquang, tập trung vào các đặc điểm và biểu hiện của bệnh trên ảnh chụp

Nghiên cứu về mô hình học liên kết và đánh giá hiệu suất của mô hình học liên kết trong ngữ cảnh của việc phát hiện bệnh COVID-19

Nghiên cứu kết hợp mô hình học liên kết và mô hình chuyển tiếp để phát hiện bệnh COVID-19 Điều này bao gồm việc tối ưu hóa hiệu suất và khả năng chuyển đổi kiến thức giữa các loại mô hình

5 Cách tiếp cận và phương pháp nghiên cứu

Nghiên cứu về cơ sở lý thuyết của học sâu, mô hình học liên kết

Phương pháp nghiên cứu dựa trên thực nghiệm: Thông qua việc thực nghiệm, so sánh, đánh giá các phương pháp trước đó với thực nghiệm trên ứng dụng, từ đó rút

ra kết luận và đánh giá

6 Ý nghĩa thực tiễn của đề tài

Mô hình học liên kết hiện đang là xu hướng đáng chú ý trong cộng đồng nghiên cứu toàn cầu, với sự tập trung ngày càng tăng để phát triển và xây dựng các

Trang 15

ứng dụng nhằm cải thiện hiệu suất Đặc biệt, mô hình này mang đến giải pháp an toàn và bảo vệ quyền riêng tư cho dữ liệu cá nhân, giúp nó trở thành một công cụ mạnh mẽ trong lĩnh vực chăm sóc sức khỏe

Khác biệt nổi bật của mô hình học liên kết là khả năng giảm thiểu rủi ro lộ thông tin cá nhân của bệnh nhân, một vấn đề cực kỳ quan trọng trong lĩnh vực y

tế Điều này mang lại những tiềm năng đáng kể cho sự tiến bộ trong ngành chăm sóc sức khỏe con người và đồng thời giúp phát hiện ra các bệnh khác thông qua

hình ảnh mà vẫn giữ được quyền riêng dữ liệu giữa các đơn vị

7 Đóng góp của đề tài

Đóng góp chính của đề tài như sau:

Đề tài đóng góp tích cực trong lĩnh vực áp dụng trí tuệ nhân tạo vào y tế, tập trung vào tăng cường bảo mật và bảo vệ tính riêng tư của dữ liệu y tế Mô hình học liên kết, linh hoạt trong đào tạo tại thiết bị cục bộ, giảm rủi ro bảo mật và đảm bảo tính riêng tư

Thực nghiệm và so sánh đã chứng minh khả năng phát hiện COVID-19 của mô hình, với các chỉ số như độ chính xác, độ nhạy và độ đặc hiệu Mô hình cung cấp giải pháp sàng lọc và chẩn đoán COVID-19, hỗ trợ bác sĩ đưa ra quyết định chính xác và nhanh chóng, làm tăng hiệu quả điều trị và giảm áp lực cho hệ thống y tế

Mô hình học liên kết không chỉ giới hạn ứng dụng trong phát hiện COVID-19

mà còn có khả năng mở rộng cho nhiều loại bệnh khác, đặc biệt là những loại yêu cầu bảo mật dữ liệu cao, nâng cao khả năng ứng dụng trong lĩnh vực y tế Sự tập trung vào bảo vệ thông tin cá nhân làm tăng tính an toàn và đáng tin cậy khi xử lý

dữ liệu y tế nhạy cảm

Ngoài ra, đề tài còn là nguồn tài liệu quan trọng về mô hình học liên kết trong phát hiện bệnh, hỗ trợ cộng đồng nghiên cứu và giáo dục trong lĩnh vực học máy

y tế

Trang 16

8 Bố cục đề tài

Luận văn được cấu trúc thành năm chương dựa trên các mục tiêu cụ thể đã được trình bày trong phần trước như sau:

Chương 1: Tổng quan về lĩnh vực nghiên cứu

Chương tổng quan về lĩnh vực nghiên cứu này sẽ đưa ra một cái nhìn tổng quan

về các phương pháp và giải pháp đã được áp dụng trong việc phát hiện bệnh COVID-19, bao gồm từ các phương pháp học máy truyền thống đến học sâu và các phương pháp học liên kết Ngoài ra, chương này cũng sẽ giới thiệu về bệnh COVID-19 và tình hình dịch bệnh ở cả Việt Nam và trên toàn thế giới Trình bày tầm quan trọng của việc xử lý ảnh trong lĩnh vực y tế, đặc biệt là vai trò quan trọng của việc phát hiện sớm bệnh và hỗ trợ nhân viên y tế trong quá trình sàng lọc và kiểm soát bệnh

Chương 2: Cơ sở lý thuyết

Chương này sẽ cung cấp các cơ sở lý thuyết cho việc phát hiện sớm COVID-19 thông qua các mô hình học máy tập trung, mô hình học phân tán và mô hình học liên kết Ngoài ra, luận văn sẽ giới thiệu về cơ sở lý thuyết của học chuyển tiếp Cũng sẽ trình bày ưu điểm và nhược điểm của từng mô hình được áp dụng, từ đó

đề xuất việc sử dụng mô hình học liên kết trong việc phát hiện bệnh COVID-19, nhằm tận dụng những lợi ích và khắc phục nhược điểm của các mô hình khác Chương 3: Mô hình đề xuất

Chương này sẽ xây dựng mô hình học liên kết để phát hiện bệnh COVID-19 và thực nghiệm trên bộ dữ liệu ảnh Xquang Trong chương trình cũng sẽ trình bày các thông số cài đặt, môi trường và giới thiệu về các phương pháp đánh giá kết quả

Chương 4: Thực nghiệm và đánh giá

Trang 17

Chương này trình bày thống kê kết quả, căn cứ trên các các kết quả thực nghiệm của các mô hình học liên kết với phương pháp học chuyển tiếp để đánh giá so

sánh, mức độ hiệu quả của các mô hình

Chương 5: Kết luận và kiến nghị

Cuối cùng, chương 5 sẽ tổng kết các nội dung đã trình bày trong luận văn, từ đó

đề xuất các phương hướng nghiên cứu tiếp theo để tiếp tục cải thiện hiệu quả của

đề tài phát hiện bệnh COVID-19 bằng hình ảnh Xquang

Trang 18

CHƯƠNG 1: TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU

1.1 Tầm quan trọng của ảnh trong lĩnh vực y khoa

Hình ảnh đóng vai trò quan trọng mọi mặt của đời sống con người Trong

đó thì ảnh trong lĩnh vực y khoa là một trong số những ứng dụng quan trọng bậc nhất của ảnh Y học là ngành khoa học chứng cứ Do đó, ảnh y khoa như X quang, MRI, siêu âm vô cùng quan trọng trong y khoa hiện đại Ảnh y khoa được dùng để đọc, phân tích kết quả và từ kết quả đó bác sỹ sẽ đưa ra kết quả chẩn đoán bệnh của bệnh nhân thông qua hình ảnh đã được chụp của bệnh nhân Với việc khoa học

kỹ thuật ngày càng phát triển thì đã có rất nhiều ứng dụng hỗ trợ dễ dàng giúp bác

sĩ phân tích các hình ảnh y học nhanh và chuẩn xác hơn rất nhiều Ví dụ chẩn đoán nhờ máy tính hỗ trợ chẩn đoán và phát hiện các loại bệnh về ung thư rất nhanh và chính xác Trong những năm gần đây thì phát hiện bệnh COVID-19 bằng hình ảnh xquang đã trở thành một trong những nghiên cứu được các nhà khoa học tập trung nghiên cứu và đạt được nhiều thành tựu nhất định

COVID-19, còn được gọi là bệnh viêm đường hô hấp cấp do coronavirus

2019 (SARS-CoV-2), là một đại dịch toàn cầu gây ra bởi một loại virus mới Dịch bệnh này đã có một tác động lớn đối với sức khỏe cộng đồng và kinh tế trên toàn thế giới Dựa theo số liệu cung cấp của Bộ Y tế Việt Nam 2 và tổ chức y tế thế giới WHO3 thống kê tình hình COVID-19 của Việt Nam và trên thế giới được thể hiện bằng biểu đồ:

2 https://covid19.gov.vn/

Trang 19

Hình 1.1 Thống kê số liệu dịch bệnh COVID-19 trên thế giới

Hình 1.2 Thống kê số liệu dịch bệnh COVID-19 ở Việt Nam

Xét nghiệm RT-PCR: Xét nghiệm RT-PCR là phương pháp phổ biến và chính

xác nhất để phát hiện virus SARS-CoV-2 RT-PCR (Reverse Transcription Polymerase Chain Reaction) cho phép xác định chất di truyền (RNA) của virus trong mẫu họng hoặc mẫu bã nhầy Trong quá trình này, chúng sao chép và nhân bản DNA của virus để xác định sự hiện diện của nó Đây được coi là phương pháp tiêu chuẩn để phát hiện bệnh trong giai đoạn sớm

Thống kê Covid-19 Việt Nam

Trang 20

Hình 1.3 Xét nghiệm RT-PCR4

Hình ảnh X-quang phổi: có giá trị trong việc phát hiện, chẩn đoán bệnh, đánh giá

mức độ nặng, đánh giá các biến chứng hô hấp, theo dõi đáp ứng điều trị và chẩn đoán phân biệt Tuy nhiên, nếu chỉ dựa trên hình ảnh X-quang, rất khó để chẩn đoán phân biệt giữa viêm phổi do virus với một số căn nguyên khác, do vậy phải kết hợp với đặc điểm dịch tễ, biểu hiện lâm sàng để đưa ra chẩn đoán phù hợp

Hình 1.4 Chụp Xquang phổi5

So sánh ưu nhược điểm của từng phương pháp phát hiện bệnh COVID-19:

4

https://hcdc.vn/xet-nghiem-chan-doan-nhiem-covid 19-duoc-thuc-hien-ra-sao-f49f5c391e0efc1637ae8d51f9fb3e13.html

Trang 21

Bảng 1.1 So sánh ưu nhược điểm của các phương pháp phát hiện Covid-19

Ưu

điểm

- Độ chính xác cao: PCR được coi là

phương pháp chẩn đoán đáng tin cậy

nhất để phát hiện vi-rút

SARS-CoV-2

- Phát hiện sớm: Xét nghiệm PCR có

thể phát hiện SARS-CoV-2 ngay từ

giai đoạn sớm sau khi nhiễm bệnh,

ngay cả khi người bệnh không có

triệu chứng

- Đánh giá tình trạng nhiễm trùng:

PCR có thể xác định liệu một người

nhiễm bệnh có khả năng lây nhiễm

cho người khác hay không

- Phân loại chủng vi-rút: PCR cho

phép phân loại chủng vi-rút và theo

dõi sự biến đổi của vi-rút qua thời

gian

- Nhanh chóng: Chụp X-quang phổi chỉ mất vài phút để hoàn thành và kết quả có thể được đọc ngay lập tức

- Sử dụng rộng rãi: Chụp quang phổi là một phương pháp phổ biến, dễ tiếp cận và đã được

X-sử dụng trong thực tế y tế từ lâu

- Xác định tổn thương phổi: Chụp X-quang phổi có thể phát hiện những tổn thương phổi đặc trưng của COVID-19 như viêm phổi, phổi bị tổn thương và tăng cường hình thành màng bóng

- Chi phí thấp

Trang 22

Nhược

điểm

Thời gian xét nghiệm: Kết quả PCR

mất thời gian từ vài giờ đến vài ngày

để hoàn thành, phụ thuộc vào quy

trình xét nghiệm và năng lực đáp ứng

của phòng thí nghiệm

- Độ phức tạp: Xét nghiệm PCR đòi

hỏi phòng thí nghiệm chuyên dụng

và nhân viên có kỹ năng đào tạo để

thực hiện quy trình phức tạp

- Chi phí: Xét nghiệm PCR có chi phí

cao hơn so với một số phương pháp

khác, đặc biệt là trong trường hợp xét

nghiệm hàng loạt lớn

- Độ chính xác thấp: Chụp quang phổi không phải là phương pháp chẩn đoán chính xác nhất cho COVID-19 Nó chỉ cho thấy tổn thương phổi mà không xác định chính xác nguyên nhân

- Khả năng giới hạn: Chụp X-quang phổi không phát hiện được những trường hợp nhiễm vi-rút nhẹ hoặc không có triệu chứng

X Tia XX quang: Chụp XX quang phổi sử dụng tia X-quang, có tiềm năng gây hại cho sức khỏe nếu được sử dụng quá thường xuyên hoặc không cần thiết

1.3 Tầm quan trọng của việc phát hiện sớm Covid-19

Phát hiện sớm COVID-19 có tầm quan trọng đặc biệt trong cuộc chiến chống dịch bệnh và quản lý sức khỏe cộng đồng vì nó mang lại nhiều lợi ích quan trọng:

Ngăn chặn sự lây lan của virus: Phát hiện sớm giúp cách ly người nhiễm bệnh một cách nhanh chóng, ngăn chặn sự lây lan của virus và giảm nguy cơ lây truyền cho người khác Điều này đặc biệt quan trọng trong việc kiểm soát dịch bệnh và ngăn chặn các làn sóng lây truyền

Cải thiện điều trị và nâng cao tỷ lệ khỏi bệnh: Phát hiện sớm giúp người bệnh có cơ hội tiếp cận chăm sóc y tế và điều trị sớm hơn Điều này cải thiện tỷ lệ sống và giảm nguy cơ phát triển các triệu chứng nặng nề

Trang 23

Bảo vệ cộng đồng: Phát hiện sớm cho phép cách ly và theo dõi các trường hợp tiếp xúc, giúp ngăn chặn dịch bệnh lây truyền trong cộng đồng Điều này đóng góp vào việc bảo vệ sức khỏe của người dân và giảm áp lực lên hệ thống y tế

Tránh quá tải hệ thống y tế: Phát hiện sớm giúp tránh quá tải hệ thống y tế, đặc biệt trong bối cảnh dịch bệnh bùng phát Điều này đảm bảo rằng người bệnh

có thể nhận được chăm sóc y tế kịp thời và hiệu quả

Hạn chế tổn thất kinh tế và xã hội: Phát hiện sớm giúp hạn chế sự lan rộng của dịch bệnh, giúp giảm tổn thất kinh tế và xã hội Điều này có lợi ích lớn đối với nền kinh tế và cuộc sống hàng ngày của mọi người

Nghiên cứu và phát triển thuốc và vắc-xin: Phát hiện sớm cung cấp dữ liệu quan trọng cho các nghiên cứu và phát triển thuốc và vắc-xin, giúp tìm ra giải pháp hiệu quả để đối phó với COVID-19

Tóm lại, phát hiện sớm COVID-19 là một phần quan trọng trong chiến dịch chống dịch bệnh và bảo vệ sức khỏe cộng đồng Điều này giúp kiểm soát sự lây lan của virus, giảm tỷ lệ nhiễm bệnh nặng và tỷ lệ tử vong, và đảm bảo tính bền vững của hệ thống y tế và xã hội Ứng dụng trí tuệ nhân và học máy được dùng để phân tích dữ liệu y tế và dữ liệu lâm sàng từ hàng triệu người để phát hiện các mẫu bệnh nhiễm bệnh và xu hướng bệnh, từ đó dự đoán sự lây truyền của COVID-19

và xác định các trường hợp nhiễm bệnh tiềm năng Các ứng dụng của công nghệ thông tin trong việc phát hiện sớm COVID-19 đóng vai trò quan trọng trong việc nâng cao khả năng quản lý dịch bệnh, giảm nguy cơ lây lan và bảo vệ sức khỏe cộng đồng

1.4 Các hướng tiếp cận và giải quyết bài toán

Đại dịch COVID-19 đã gây ra thiệt hại liên tục đối với sức khỏe và nền kinh

tế của con người trên toàn cầu Do đó, nghiên cứu về việc phát hiện và chẩn đoán bệnh nhân COVID-19 có ý nghĩa rất lớn [5], [6] Triệu chứng lâm sàng của viêm phổi nhiễm COVID-19 chủ yếu là sốt, lạnh, ho khô và đau toàn thân Một số ít bệnh nhân có triệu chứng bụng Có những bệnh nhân không có bất kỳ triệu chứng

Trang 24

nào Do đó, cần phải kiểm tra cho toàn dân càng sớm càng tốt Một bước quan trọng trong việc đánh giá và điều trị COVID-19 là sàng lọc hiệu quả cho bệnh nhân

có dấu hiệu nghi nhiễm để giảm tải áp lực cho hệ thống y tế Một trong những phương pháp sàng lọc hiệu quả chẩn đoán dựa trên hình ảnh chụp X-quang phổi Công nghệ thị giác máy tính và học máy đóng vai trò quan trọng trong phương pháp này Hiện nay, trí tuệ nhân tạo, đặc biệt là học sâu, đã trở thành một công nghệ quan trọng cho các ứng dụng y học được hỗ trợ bởi máy tính và đã đạt được kết quả đáng kinh ngạc trong hình ảnh y học Học sâu đã đóng góp lớn vào việc phân loại chẩn đoán chụp X-quang phổi trong lĩnh vực y học và trở thành một công

cụ hiệu quả giúp bác sĩ đánh giá và phân tích tình trạng Để có một mô hình sâu chính xác và mạnh mẽ, yếu tố cốt lõi là dữ liệu huấn luyện phong phú và đa dạng Tuy nhiên, vì sự bảo vệ và tôn trọng quyền riêng tư của bệnh nhân, dữ liệu liên quan đến y tế cụ thể của bệnh viện không cho phép rò rỉ và nghiên cứu công khai Thu thập dữ liệu huấn luyện như vậy đã là một thách thức lớn Đến một mức độ nào đó, điều này đã gây ra sự thiếu hụt các mẫu dữ liệu đủ khi thực hiện các phương pháp học sâu để phát hiện COVID-19 Mô hình học liên kết là một giải pháp để giải quyết vấn đề này Trong luận văn này đề xuất sử dụng mô hình học liên kết cho việc huấn luyện dữ liệu COVID-19 và triển khai các kiểm nghiệm để kết quả tối ưu

1.4.1 Phương pháp học máy

Khi dịch COVID-19 bùng phát, các thuật toán học máy ban đầu được sử dụng chủ yếu Ban đầu, những thuật toán này chỉ được dùng để phân tích sự lây lan của COVID-19 theo địa lý và khu vực Tuy nhiên, hiện nay, các phương pháp học máy không chỉ dự đoán COVID-19 dựa trên dữ liệu lâm sàng và xét nghiệm,

mà còn có thể sử dụng để nghiên cứu các khía cạnh phức tạp khác của bệnh Các phương pháp học máy đã cho thấy hiệu quả đáng kể trong quá trình chẩn đoán COVID-19 thông qua việc sử dụng nhiều loại dữ liệu khác nhau như hình ảnh máu, ảnh Xquang, tia X, ECG, CT scan, và nhiều loại dữ liệu khác

Trang 25

Khi các mô hình học máy đạt được kết quả tốt hơn, chúng ngày càng được kết hợp với các phương pháp khác Việc kết hợp nhiều phương pháp học máy để giải quyết các vấn đề liên quan đến COVID-19 đã được xem xét và trình bày trong phần này Bảng 1.2 tóm tắt các nghiên cứu sử dụng mô hình Học máy để đối phó với COVID-

19 Trong số các mô hình học máy (Machine learning -ML) được sử dụng, mô hình Random Forest (RF) là phổ biến nhất Mô hình Support Vector Machine (SVM) đứng ở vị trí thứ hai và mô hình Logistic Regression (LR) ở vị trí thứ ba Các mô hình như Naive Bayes (NB), Decision Trees (DT), XGBoost (XGB), K-Nearest Neighbors (KNN), và Neural Networks (NN) cũng được sử dụng khá phổ biến

Trang 26

Bảng 1.2 Bảng các nghiên cứu học máy về COVID-19

Từ Bảng 1.2 thấy rằng các nghiên cứu đã sử dụng nhiều loại dữ liệu khác nhau Dựa trên phân tích sâu hơn và quan sát, trong phần lớn các nghiên cứu liên quan đến phân loại, mô hình phân loại RF và XGBoost thường hoạt động tốt nhất với

dữ liệu lâm sàng Ngoài ra, các mô hình XGBoost, RF, DT và NN thường luôn vượt trội hơn so với các thuật toán học máy khác

Tác giả và năm

xuất bản

Số lượng mẫu

(2021)

5644 LR, RF, XGB,

SVM, MLP, ENSEMBLE

Trang 27

1.4.2 Phương pháp học sâu

Học sâu là một nhánh của học máy, sử dụng mô hình học sâu để giải quyết những vấn đề phức tạp Các mô hình dựa trên học sâu như CNN, biến thể của CNN, DCNN và các phương pháp khác đã được sử dụng bởi các nhà nghiên cứu

để phân loại, chẩn đoán và phát hiện COVID-19, nhằm đối phó với đợt dịch COVID-19 Các nghiên cứu này đã đánh giá và ứng dụng của các phương pháp học sâu khác nhau để đối phó với dịch bệnh COVID-19 Bảng 1.3 cho thấy tổng kết các nghiên cứu sử dụng kỹ thuật học sâu liên quan đến vấn đề COVID-19 So với mô hình học máy thì mô hình học sâu thường có khả năng học từ dữ liệu lớn một cách hiệu quả hơn và sự đa dạng dữ liệu được tăng cường Tuy nhiên cũng tùy thuộc vào bộ dữ liệu mà việc sử dụng học máy, học sâu hoặc kết hợp cả hai mô hình mới đem lại kết quả tối ưu

Bảng 1.3 Bảng các nghiên cứu học sâu về COVID-19

COVID-19 (2,482) CXR 96.00%

Trang 28

Panwar

et al.,

2020[18]

CNN and transfer learning

1) COVID-19 (CXR, 526) 2) SARS-COV-2 (CT-scan, 2,482)

GOOGLENET, XCEPTION, DENSENET121

VGG16, VGG19, PROPOSED (ATTENTION BASED VGG-16)

ATTENTION-BASED VGG-16(Accurac

y (79.58%, 85.43%, 87.49%))

Trang 29

1.4.3 Phương pháp học liên kết

Luận văn đề xuất mô hình học liên kết để phát hiện COVID-19 bằng cách

sử dụng các ảnh Xquang phổi Đã có một số nghiên cứu dùng kỹ thuật học liên kết

để phát hiện COVID-19:

Các nghiên cứu gần đây đã đề cập đến sự ứng dụng của học liên kết trong việc chẩn đoán và phát hiện COVID-19 từ hình ảnh X-quang Liu và đồng nghiệp (2020) đã sử dụng phương pháp học liên kết để huấn luyện dữ liệu COVID-19 và thực hiện thực nghiệm với bốn mô hình khác nhau Trong một hướng tiếp cận khác, Qayyum và nhóm nghiên cứu (2021) đã áp dụng mô hình học tập liên kết theo cụm (CFL), giúp cải thiện kết quả, đặc biệt là khi có sự khác biệt trong phân phối dữ liệu từ các nguồn khác nhau

Nghiên cứu của Zhang và đồng nghiệp (2021) tiếp tục mở rộng việc sử dụng học liên kết trong việc phát hiện COVID-19, đề xuất một hệ thống học liên kết dựa trên việc hợp nhất động cho xử lý hình ảnh chẩn đoán y học Phương pháp này không chỉ xác định động của các khách hàng tham gia dựa trên hiệu suất mô hình cục bộ, mà còn lên lịch hợp nhất mô hình dựa trên thời gian đào tạo của họ

Để cải thiện tính riêng tư và an toàn trong quá trình phân tích dữ liệu COVID-19, Nguyễn và nhóm nghiên cứu (2021) đã áp dụng giải pháp bảo mật thông tin riêng tư tại cấp độ cơ sở khám chữa bệnh Bằng cách tập trung vào quá trình học liên kết và giảm độ trễ thông qua một kiến trúc mới mang tên FedGAN dựa trên chuỗi khối, họ đã tạo ra một phương pháp an toàn và hiệu quả cho việc phân tích dữ liệu COVID-19 liên kết từ nhiều nguồn khác nhau

Những nghiên cứu này thể hiện sự đa dạng và tính hiệu quả của các phương pháp học liên kết trong ứng dụng cho việc chẩn đoán và phát hiện COVID-19, đồng thời tính riêng tư và an toàn dữ liệu được bảo mật và là yếu tố nổi bật của mô hình học liên kết

Trang 30

Bảng 1.4 Bảng các nghiên cứu về COVID-19 bằng học liên kết

Yang et al

(2021)

[26]

FL with Partial Networks

Validated with 6 benchmark datasets

Reduces privacy & security

Zhang et

al (2021)

[27]

Dynamic fusion-based

FL

CT scans and CXRs

Reduces communication

Nguyen et

al (2021)

[28]

based FedGAN

Blockchain-CXRs 19)

(COVID-Improves accuracy (0.975)

1.5 Đề xuất giải pháp

Hiện nay nền y tế thông minh ngày càng phát triển và hiện đại, với sự tích hợp công nghệ trí tuệ nhân tạo vào hệ thống chăm sóc sức khỏe người dân, đặc biệt là mô hình học máy và học sâu Cách thức chung là "học" cách ra quyết định dựa trên các mẫu thu thập từ tập hợp lớn dữ liệu bệnh nhân Điều này đã làm tăng

độ chính xác trong chẩn đoán y khoa và trở thành công cụ hỗ trợ đắc lực cho các bác sỹ

Trang 31

Tuy nhiên, trong những năm gần đây, chuyên gia đã nhận thức được rằng quy trình phát triển ứng dụng học máy truyền thống, tập trung vào việc sử dụng bộ

dữ liệu tập trung, vẫn còn nhiều hạn chế Điều này đặc biệt đúng đối với mô hình

ML trong lĩnh vực chăm sóc sức khỏe, vì chúng đòi hỏi lượng dữ liệu lớn hơn so với việc có thể chia sẻ công khai Vấn đề bảo mật và quyền riêng tư là những thách thức lớn, làm hạn chế khả năng phát triển của AI trong ngành y tế Để vượt qua những thách thức này và tận dụng lợi ích của dữ liệu trong chăm sóc sức khỏe, cần xây dựng phương pháp huấn luyện mô hình ML không phụ thuộc vào việc chia sẻ

dữ liệu nhạy cảm ra khỏi cơ sở lưu trữ Học liên kết là giải pháp quan trọng để đảm bảo sự tiến bộ của AI trong lĩnh vực này

Các kỹ thuật học máy truyền thống và học sâu có thể hỗ trợ các cơ sở bệnh trong việc xác định nhiễm COVID-19 qua hình ảnh chụp X-quang phổi Tuy nhiên

để đặt được độ chính xác và hiệu quả cao thì cần thu thập bộ dữ liệu đủ lớn cho việc huấn luyện và chẩn đoán phát hiện bệnh nhân Việc thu thập dữ liệu huấn luyện như vậy đã là một thách thức lớn Bên cạnh đó, bảo vệ và tôn trọng quyền riêng tư của bệnh nhân, dữ liệu y tế của bệnh viện không cho phép rò rỉ và chia sẻ

mà không có sự cho phép Đến một mức độ nào đó, điều này đã gây ra sự thiếu hụt các mẫu dữ liệu đủ khi thực hiện các phương pháp học sâu để phát hiện COVID-

19 Học liên kết là một giải pháp để giải quyết được vấn đề này

Học liên kết là mô hình huấn luyện dữ liệu tại các cơ sở khám chữa bệnh

mà không cần chia sẻ dữ liệu của bệnh nhân Nó có khả năng giải quyết cơ bản vấn đề về quyền riêng tư và kho dữ liệu Các ứng dụng của học liên kết trong dữ liệu y học là các mô hình nghiên cứu đầy hứa hẹn Học liên kết có khả năng sử dụng dữ liệu không chia sẻ từ các bệnh viện khác nhau, mở rộng kích thước mẫu của huấn luyện mô hình và cải thiện độ chính xác của mô hình Cốt lõi của học liên kết là sử dụng tập dữ liệu phân tán trên nhiều thiết bị để cùng xây dựng một

mô hình chia sẻ và không yêu cầu chia sẻ dữ liệu cục bộ Điều này sẽ là yếu tố cốt lỗi bảo vệ dữ liệu của bệnh nhân Trong trường hợp dữ liệu hình ảnh y tế COVID-

19 ở các vị trí khác nhau như quốc gia và bệnh viện khác nhau thì việc mô hình

Trang 32

học liên liên kết có ý nghĩa rất to lớn trong việc phòng chống và điều trị bệnh trên toàn cầu

Trong luận văn này, chúng tôi đề xuất áp dụng phương pháp học liên kết kết hợp với học chuyển tiếp để phát hiện bệnh COVID-19 và tiến hành các thực nghiệm để so sánh và đánh giá hiệu quả của các mô hình Trong nghiên cứu, chúng tôi tận dụng mô hình chuyển tiếp để khai thác kiến thức từ các mô hình đã được huấn luyện trước đó, nhằm tăng cường độ chính xác và hiệu quả trong việc phát hiện bệnh COVID-19 Nghiên cứu của chúng tôi tiến hành so sánh giữa các mô hình và đạt được kết quả trong việc phát hiện COVID-19

Trang 33

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Mô hình học máy tập trung

Quy trình truyền thống để phát triển một ứng dụng học máy tập trung là thu thập một tập dữ liệu lớn, huấn luyện một mô hình trên tập dữ liệu đó và thực hiện

mô hình đã huấn luyện trên một máy chủ tập trung Để thực hiện điều này, dữ liệu của người dùng phải được gửi đến máy chủ chứa mô hình Tuy nhiên, không phải tất cả dữ liệu đều có thể được chia sẻ, biệt là dữ liệu cá nhân nhạy cảm

Hình 2.1 Mô hình học máy truyền thống

Mô hình học máy tập trung này sẽ mang đến một số ưu điểm quan trọng trong việc xây dựng và triển khai các ứng dụng:

- Trong mô hình tập trung, mô hình học từ toàn bộ dữ liệu từ nhiều nguồn khác nhau, giúp tạo ra một mô hình tổng quát có khả năng tự động tìm hiểu các mẫu và đặc trưng chung trong dữ liệu Mô hình này có khả năng áp dụng cho nhiều thiết

bị và ứng dụng khác nhau

Trang 34

- Với tập dữ liệu lớn, mô hình tập trung có thể học được nhiều thông tin hơn và có khả năng cải thiện hiệu suất dự đoán và phân loại

- Mô hình đã huấn luyện trên máy chủ trung tâm có thể được triển khai một cách

dễ dàng trên nhiều thiết bị hoặc ứng dụng mà không cần phải huấn luyện lại từ đầu

- Quá trình huấn luyện và tối ưu hóa mô hình diễn ra tại một nơi duy nhất, giúp tập trung tài nguyên tính toán và quản lý mô hình một cách hiệu quả

- Mô hình tập trung cho phép kiểm tra và thực nghiệm các thay đổi và cải tiến trên cùng một nền tảng, giúp nhanh chóng phát triển và cải thiện mô hình

- Vì mô hình học từ toàn bộ dữ liệu, việc phân tích, hiểu và diễn giải kết quả của

mô hình có thể dễ dàng hơn, vì tất cả thông tin được tập trung và dễ dàng tiếp cận Tuy nhiên, cũng cần lưu ý rằng mô hình học máy tập trung cũng có nhược điểm, như việc cần truyền toàn bộ dữ liệu lên máy chủ tập trung có thể gây ra vấn đề bảo mật và riêng tư Bên cạnh đó việc truyền dữ liệu lớn cũng cần một tốc độ mạng, băng thông ổn định Thêm vào đó việc truyền dữ liệu cũng có thể gây ra độ trễ nhất định

2.2 Mô hình học máy phân tán

Mô hình học máy phân tán (distributed learning)6là một phương pháp trong lĩnh vực học máy, trong đó việc huấn luyện mô hình diễn ra tại các nút phân tán

mà không cần truyền toàn bộ dữ liệu về một máy chủ trung tâm Thay vì tập trung

dữ liệu tại một nơi duy nhất, mô hình học máy phân tán cho phép việc học và cập nhật mô hình diễn ra tại nhiều nút khác nhau, thường là tại các thiết bị hoặc máy tính cục bộ

Trang 35

Hình 2.2 Mô hình học máy phân tán

Mô hình học máy phân tán thường được sử dụng trong các tình huống mà việc truyền dữ liệu đến một trung tâm tập trung là không hiệu quả hoặc không khả thi Điều này có thể đo kích thước lớn của dữ liệu, vấn đề về bảo mật, hoặc sự phân tán về địa lý của các nguồn dữ liệu Thay vì đẩy toàn bộ dữ liệu lên máy chủ trung tâm, các nút phân tán sẽ tự mình huấn luyện mô hình trên dữ liệu của chúng

Ưu điểm của mô hình học máy phân tán bao gồm khả năng giảm tải lưu lượng mạng, bảo vệ tính riêng tư của dữ liệu, và cho phép cập nhật mô hình tại các nút một cách linh hoạt Tuy nhiên, cũng cần quản lý các thách thức như đồng bộ hóa mô hình giữa các nút và đảm bảo rằng mô hình tập hợp từ các nút phân tán là chất lượng và tổng quát

Từ những nhược điểm của mô hình học máy tập trung và học máy phân tán thì mô hình học liên kết ra đời để khắc phục hạn chế của hai mô hình trên Học liên kết không gửi dữ liệu máy chủ, mà thay vào hệ thống đó sẽ đưa mô hình tới

dữ liệu Mô hình được huấn luyện tại mỗi thiết bị, và dữ liệu không bao giờ bị thất thoát hoặc bị rò rỉ đi ra ngoài nơi lưu trữ của nó

Trang 36

2.3 Mô hình học liên kết

2.3.1 Giới thiệu

Học liên kết là một phương pháp học máy cho phép các chủ sở hữu dữ liệu khác nhau huấn luyện một mô hình học máy chung mà không cần chia sẻ dữ liệu giữa các bên Thay vì gửi dữ liệu đến một trung tâm để được xử lý, các chủ sở hữu

dữ liệu sẽ huấn huyện mô hình trên dữ liệu của họ và chia sẻ các tham số mô hình được cập nhật với các bên khác để tiếp tục huấn luyện

Hình 2.3 Một số quy định về bảo vệ dữ liệu cá nhân ở Việt Nam và thế giới Công thức để đánh giá hiệu suất của mô hình học máy chung trong học liên kết được thể hiện như sau:

Nếu |VFED - VSUM| < ε trong đó VFED là độ chính xác của mô hình được huấn luyện bằng học liên kết và VSUM là độ chính xác của mô hình được huấn luyện bằng cách kết hợp tất cả các

dữ liệu, thì ta có thể coi rằng thuật toán đạt được độ chính xác với sai số ε

2.3.2 Kiến trúc mô hình học liên kết

Trong học liên kết, các máy trạm cùng nhau chia sẻ và đào tạo một mô hình toàn cục từ dữ liệu của mỗi máy trạm Mỗi máy trạm sẽ tải xuống mô hình cơ bản, đào tạo trên dữ liệu riêng, rồi cập nhật và gửi trở lại Quá trình này tiếp tục cho đến khi mô hình đạt được độ chính xác mong muốn

Có ba loại học tập liên kết chính:

Trang 37

- Trong học tập liên kết ngang (horizontal federated learning), mô hình tập trung được đào tạo trên các bộ dữ liệu tương tự

- Trong học tập liên kết dọc (vertical federated learning), các dữ liệu bổ sung lẫn nhau; ví dụ, các loại dữ liệu khác nhau được kết hợp để dự đoán thông tin mới

- Trong phương pháp học tập liên kết chuyển tiếp (federated transfer learning), một

mô hình ban đầu được đào tạo cho một nhiệm vụ cụ thể, sau đó được đào tạo lại trên dữ liệu khác để thực hiện một nhiệm vụ khác

Các phương pháp này hứa hẹn trong việc tận dụng dữ liệu từ nhiều nguồn khác nhau mà vẫn bảo vệ tính riêng tư và an toàn thông tin

Hình 2.4 Mô hình học liên kết Kiến trúc mô hình học liên kết cơ bản được thể hiện ở hình 2.4 Các bước chính trong một mô hình học liên kết:

Trang 38

(1) Máy chủ tạo ra một mô hình sử dụng dữ liệu được cung cấp và sau đó cập gửi các thông số mô hình đến các máy trạm

(2) Gửi một bản sao của mô hình đến mỗi client, sau đó sẽ huấn luyện mô hình dựa trên dữ liệu cục bộ của họ

(3) Client cập nhật lại các thông số của mô hình cho Server Lưu ý chỉ mô hình được sử dụng, không có dữ liệu nào được gửi đi

(4) Thuật toán tổng hợp được sử dụng trên phía máy chủ để trung bình cộng các

mô hình được gửi bởi mỗi client

Lặp lại bước (1) máy chủ gửi các bản cập nhật cho client và chu kỳ tiếp tục cho đến khi mô hình được tối ưu hóa hoặc ngưỡng do người dùng đặt ra

2.3.3 Mô hình học liên kết tầng Server:

Thuật toán cho tầng Server7 được thể hiện ở Thuật toán 1

Thuật toán 1 mô hình học liên kết tầng Server

Trang 39

Tại máy chủ trung tâm, sẽ tạo một mô hình huấn luyện bằng cách khởi tạo một mô hình toàn cục và các thông số huấn luyện, sau đó gửi thông số đã được khởi tạo đến cho các máy huấn luyện mô hình của từng máy trạm

Máy chủ trung tâm đợi nhận thông số mô hình từ các máy trạm được tổng hợp sau quá trình huấn luyện Khi nhận được thông số mô hình từ tất cả các máy trạm, hệ thống sẽ tổng hợp thông tin này để cập nhật mô hình toàn cục trên máy chủ trung tâm

Mô hình toàn cục đã được cập nhật các thông số từ các máy trạm sẽ gửi các thông số đã được cập nhật đến cho từng máy trạm Hệ thống sẽ gửi đến tất cả các thông số đến các máy tạm dựa theo tài nguyên và dữ liệu cho các lần huấn luyện tiếp theo Trong bài nghiên cứu này của chúng tôi, tất cả các máy trạm sẽ được cập nhật thông số tương tự nhau, điều này cũng làm tăng tính công bằng cho các máy trạm khi tham gia vào quá trình huấn luyện

2.3.4 Mô hình học liên kết tầng Client:

Bước đầu các máy trạm thu thập được một số lượng các hình ảnh Xquang

về các ca nhiễm COVID-19, sau đó các dữ liệu này sẽ được tiền xử lý với các bước như: Giảm nhiễu, tỷ lệ hình ảnh Dữ liệu sau bước tiền xử lý sẽ được lưu ở máy trạm và tuyệt đối không có chia sẻ hình ảnh lên máy chủ trung tâm hay bất cứ máy trạm nào khác

Mô hình huấn luyện được thiết lập từ việc nhận các thông số từ máy chủ trung tâm gửi đến cho từng máy trạm, các thông số có thể là: learning rate, epoch, các tham

số khác Sau mỗi epochs huấn luyện trên mỗi máy trạm, máy trạm sẽ được sử dụng cho việc đánh giá hiệu suất của mô hình tại các máy trạm

Thuật toán cho tầng Client 8 được thể hiển ở thuật toán 2:

Thuật toán 2 mô hình học liên kết cho tầng Client:

Trang 40

Thông số mô hình trên các máy trạm được lưu trữ trong cơ sở dữ liệu các

mô hình máy trạm và sau đó được sẽ tổng hợp các thông số trên máy chủ trung tâm Trong mỗi vòng lặp, nếu máy trạm được chọn triển khai mô hình, thì các máy trạm đó sẽ nhận được các cập nhật thông số mô hình toàn cục cho vòng huấn luyện hiện tại khi các kết quả huấn luyện với mỗi epoch được cập nhật thì hệ thống sẽ kiểm tra xem kết quả huấn luyện đã được yêu cầu từ người dùng Nếu kết thúc, phiên bản huấn luyện toàn cục cuối cùng sẽ được triển khai cho người dùng mô hình Ngược lại, toàn bộ quá trình sẽ được lặp lại cho đến khi epoch đáp ứng được yêu cầu

Khi quá trình đào tạo kết thúc, hệ thống sẽ quyết định việc huấn luyện trên các máy trạm và sẽ cập nhật các thông số lên máy chủ trung tâm Sau đó, hệ thống

sẽ được ứng dụng và đánh giá hiệu quả vào việc dự đoán bệnh nhân nhiễm

COVID-19 Nếu hiệu suất mô hình giảm xuống ngưỡng thấp hoặc người dùng yêu cầu công việc huấn luyện mô hình mới, thì việc huấn luyện dữ liệu trên các máy trạm sẽ được tiếp tục thực hiện bằng việc nhận các thông số trên máy chủ trung tâm

2.3.5 Thuật toán FedAvg

Mô hình học liên kết dựa vào thuật toán trung bình liên kết gọi là “FedAvg” [29] Đây là thuật toán học máy liên kết đầu tiên mà Google đã tạo ra [29] để giải

Ngày đăng: 19/06/2024, 15:08

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[5] B. Yan, X. Tang, B. Liu, J. Wang, Y. Zhou, G. Zheng, Q. Zou, Y. Lu, and W. Tu, “An improved method of COVID-19 case fitting and prediction based on lstm,” arXiv preprint arXiv:2005.03446, 2020 Sách, tạp chí
Tiêu đề: An improved method of COVID-19 case fitting and prediction based on lstm
[6] Y. Zhang, J. Chen, B. Liu, Y. Yang, H. Li, X. Zheng, X. Chen, T. Ren, and N. Xiong, “COVID-19 public opinion and emotion monitoring system based on time series thermal new word mining,” arXiv preprint arXiv:2005.11458, 2020 Sách, tạp chí
Tiêu đề: COVID-19 public opinion and emotion monitoring system based on time series thermal new word mining
[29] McMahan, Brendan, et al. "Communication-efficient learning of deep networks from decentralizeddata." Artificial intelligence and statistics. PMLR, 2017 Sách, tạp chí
Tiêu đề: Communication-efficient learning of deep networks from decentralized data
[30] T. C. T. F. Authors, “Nvidia clara.” https://developer.nvidia. com/clara, 2019. Accessed: 2020-07-20 Sách, tạp chí
Tiêu đề: Nvidia clara
[31] T. P. Authors, “Paddlefl.” https://github.com/PaddlePaddle/ PaddleFL, 2019. Accessed: 2020-07-20 Sách, tạp chí
Tiêu đề: Paddlefl
[32] T. F. Authors, “Federated ai technology enabler.” https://www. fedai.org/, 2019. Accessed: 2020-07-20 Sách, tạp chí
Tiêu đề: Federated ai technology enabler
[33] T. Ryffel, A. Trask, M. Dahl, B. Wagner, J. Mancuso, D. Rueckert, and J. Passerat-Palmbach, “A generic framework for privacy preserving deep learning,” arXiv preprint arXiv:1811.04017, 2018 Sách, tạp chí
Tiêu đề: A generic framework for privacy preserving deep learning
[34] V. Mugunthan, A. Peraire-Bueno, and L. Kagal, “Privacyfl: A simulator for privacy-preserving and secure federated learning,” arXiv preprint arXiv:2002.08423, 2020 Sách, tạp chí
Tiêu đề: Privacyfl: A simulator for privacy-preserving and secure federated learning
[35] S. Caldas, P. Wu, T. Li, J. Konecn ˇ y, H. B. McMahan, ` V. Smith, and A. Talwalkar, “Leaf: A benchmark for federated settings,” arXiv preprint arXiv:1812.01097, 2018 Sách, tạp chí
Tiêu đề: Leaf: A benchmark for federated settings
[36] Y. Amannejad, “Building and evaluating federated models for edge computing,” in Proceedings of the International Conference on Network and Service Management (CNSM 2020), IEEE, in-press Sách, tạp chí
Tiêu đề: Building and evaluating federated models for edge computing
[37] “Tensorflow federated learning.” https://github.com/ tensorflow/federated. Accessed: 2020-06-30 Sách, tạp chí
Tiêu đề: Tensorflow federated learning
[1] WHO tuyên bố COVID-19 là đại dịch toàn cầu, ngày truy cập: 18/11/2023, link: https://moh.gov.vn/chuong-trinh-muc-tieu-quoc-gia/asset_publisher/7ng11fEWgASC/content/who-tuyen-bo-COVID-19-la-ai-dich-toan-cau Link
[2] COVID-19 DASHBOARD BY THE CENTER FOR SYSTEMS SCIENCE AND ENGINEERING (CSSE), ngày truy cập 18/11/2023 link:https://publichealthupdate.com/jhu/ Link
[3] Health Information Privacy, ngày truy cập 18/11/2023, link: https://www.hhs.gov/hipaa/index.html Link
[4] General Data Protection Regulation – GDPR ngày truy cập: 18/11/2023 Link: https://gdpr-info.eu/ Link
[7] Abdulkareem KH, et al. Realizing an effective COVID-19 diagnosis system based on machine learning and IoT in smart hospital environment. IEEE Internet Things J 2021;8(21):15919–28.https://doi.org/10.1109/JIOT.2021.3050775 Link
[8] Callejon-Leblic MA, et al. Loss of smell and taste can accurately predict COVID-19 infection: a machine-learning approach. JCM Feb.2021;10(4):570. https://doi.org/10.3390/jcm10040570 Link
[9] Alves MA, et al. Explaining machine learning based diagnosis of COVID- 19 from routine blood tests with decision trees and criteria graphs. Comput Biol Med May 2021;132:104335.https://doi.org/10.1016/j.compbiomed.2021.104335 Link
[10] Statsenko Y, et al. Prediction of COVID-19 severity using laboratory findings on admission: informative values, thresholds, ML model performance. BMJ Open 2021;11(2): e044500.https://doi.org/10.1136/bmjopen-2020-044500 Link
[11] Muhammad LJ, et al. Supervised machine learning models for prediction of COVID-19 infection using epidemiology dataset. SN COMPUT. SCI.2021;2(1):11. https://doi.org/10.1007/s42979-020-00394-7 Link

HÌNH ẢNH LIÊN QUAN

Hình 1.2 Thống kê số liệu dịch bệnh COVID-19 ở Việt Nam - ứng dụng mô hình học tập liên kết trong phát hiện covid 19
Hình 1.2 Thống kê số liệu dịch bệnh COVID-19 ở Việt Nam (Trang 19)
Hình ảnh X-quang phổi: có giá trị trong việc phát hiện, chẩn đoán bệnh, đánh giá - ứng dụng mô hình học tập liên kết trong phát hiện covid 19
nh ảnh X-quang phổi: có giá trị trong việc phát hiện, chẩn đoán bệnh, đánh giá (Trang 20)
Hình 1.4 Chụp Xquang phổi 5 - ứng dụng mô hình học tập liên kết trong phát hiện covid 19
Hình 1.4 Chụp Xquang phổi 5 (Trang 20)
Bảng 1.3 Bảng các nghiên cứu học sâu về COVID-19 - ứng dụng mô hình học tập liên kết trong phát hiện covid 19
Bảng 1.3 Bảng các nghiên cứu học sâu về COVID-19 (Trang 27)
Hình 2.1 Mô hình học máy truyền thống - ứng dụng mô hình học tập liên kết trong phát hiện covid 19
Hình 2.1 Mô hình học máy truyền thống (Trang 33)
Hình 2.3 Một số quy định về bảo vệ dữ liệu cá nhân ở Việt Nam và thế giới - ứng dụng mô hình học tập liên kết trong phát hiện covid 19
Hình 2.3 Một số quy định về bảo vệ dữ liệu cá nhân ở Việt Nam và thế giới (Trang 36)
Hình 2.4 Mô hình học liên kết  Kiến trúc mô hình học liên kết cơ bản được thể hiện ở hình 2.4 - ứng dụng mô hình học tập liên kết trong phát hiện covid 19
Hình 2.4 Mô hình học liên kết Kiến trúc mô hình học liên kết cơ bản được thể hiện ở hình 2.4 (Trang 37)
Hình 2.5 Mô hình FedAvg - ứng dụng mô hình học tập liên kết trong phát hiện covid 19
Hình 2.5 Mô hình FedAvg (Trang 41)
Bảng 2.2 Bảng các mô hình huấn luyện trước phổ biến - ứng dụng mô hình học tập liên kết trong phát hiện covid 19
Bảng 2.2 Bảng các mô hình huấn luyện trước phổ biến (Trang 51)
Hình 2.8 M ô hình trước và sau khi áp dụng transfer learning - ứng dụng mô hình học tập liên kết trong phát hiện covid 19
Hình 2.8 M ô hình trước và sau khi áp dụng transfer learning (Trang 52)
Hình 3.1 Mô hình đề xuất phát hiện COVID-19 bằng học liên kết - ứng dụng mô hình học tập liên kết trong phát hiện covid 19
Hình 3.1 Mô hình đề xuất phát hiện COVID-19 bằng học liên kết (Trang 54)
Hình 3.2  Ma trận nhầm lẫn 11 - ứng dụng mô hình học tập liên kết trong phát hiện covid 19
Hình 3.2 Ma trận nhầm lẫn 11 (Trang 56)
Để  huấn  luyện  và  kiểm  thử:  COVID-19:  với  3.616  hình  ảnh  nhiễm  bệnh;  NORMAL: với 10.192 hình ảnh bình thường - ứng dụng mô hình học tập liên kết trong phát hiện covid 19
hu ấn luyện và kiểm thử: COVID-19: với 3.616 hình ảnh nhiễm bệnh; NORMAL: với 10.192 hình ảnh bình thường (Trang 59)
Hình 4.7 Biểu đồ phân phối trung bình và độ lệch chuẩn của các lớp - ứng dụng mô hình học tập liên kết trong phát hiện covid 19
Hình 4.7 Biểu đồ phân phối trung bình và độ lệch chuẩn của các lớp (Trang 64)
Bảng 4.1  Bảng các thông số thiết lập - ứng dụng mô hình học tập liên kết trong phát hiện covid 19
Bảng 4.1 Bảng các thông số thiết lập (Trang 64)
Hình 4.8 Phân chia tập huấn luyện và tập kiểm thử - ứng dụng mô hình học tập liên kết trong phát hiện covid 19
Hình 4.8 Phân chia tập huấn luyện và tập kiểm thử (Trang 65)
Hình 4.11 Kết quả Train và Validation Loss của mô hình VGG19 – ML - ứng dụng mô hình học tập liên kết trong phát hiện covid 19
Hình 4.11 Kết quả Train và Validation Loss của mô hình VGG19 – ML (Trang 68)
Hình 4.12  Biểu đồ CovidNet khi trung bình 3 round - ứng dụng mô hình học tập liên kết trong phát hiện covid 19
Hình 4.12 Biểu đồ CovidNet khi trung bình 3 round (Trang 70)
Hình 4.16 Biểu đồ so sánh Loss của 3 mô hình ở Round 2 - ứng dụng mô hình học tập liên kết trong phát hiện covid 19
Hình 4.16 Biểu đồ so sánh Loss của 3 mô hình ở Round 2 (Trang 75)
Hình 4.18 Biểu đồ so sánh Acc của 3 mô hình ở Round 1 - ứng dụng mô hình học tập liên kết trong phát hiện covid 19
Hình 4.18 Biểu đồ so sánh Acc của 3 mô hình ở Round 1 (Trang 76)
Hình 4.20 Biểu đồ so sánh Acc của 3 mô hình ở Round 3 - ứng dụng mô hình học tập liên kết trong phát hiện covid 19
Hình 4.20 Biểu đồ so sánh Acc của 3 mô hình ở Round 3 (Trang 77)
Bảng 4.5 Bảng đánh giá kết quả giữa ML và FL - ứng dụng mô hình học tập liên kết trong phát hiện covid 19
Bảng 4.5 Bảng đánh giá kết quả giữa ML và FL (Trang 78)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w