Ảnh chụp X-quang ngực đã được chứng minh là một công cụ hỗ trợ quan trọng trong việc chẩn đoán các bệnh về phổi, bao gồm cả COVID-19.Ứng dụng trí tuệ nhân tạo AI và khoa học dữ liệu vào
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ
TRUYỀN THÔNG VIỆT – HÀN
Khoa Khoa Học Máy Tính
ĐỒ ÁN CHUYÊN NGÀNH 2 (AD)
Thành viên: Lê Huy Vũ – 21AD068
Trần Sinh Nhật – 21AD045 Nguyễn Lê Thanh Ba – 21AD003 GVHD : Lê Tân
Đà Nẵng – 11/2024
Trang 2TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ
TRUYỀN THÔNG VIỆT – HÀN
Khoa Khoa Học Máy Tính
ĐỒ ÁN CHUYÊN NGÀNH 2 (AD)
Thành viên: Lê Huy Vũ – 21AD068 Trần Sinh Nhật – 21AD045
Nguyễn Lê Thanh Ba – 21AD003 GVHD : Lê Tân
Đà Nẵng – 11/2024
Trang 3MỤC LỤC
Contents
MỤC LỤC 3
LỜI CẢM ƠN 5
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 6
Mở đầu 7
1 Giới thiệu chung về đồ án và mục tiêu nghiên cứu 7
1.1.1 Giới thiệu chung về đồ án 7
1.1.2 1.2 Mục tiêu nghiên cứu 7
1.1.3 1.3 Ý nghĩa của nghiên cứu 7
1.2 Ý nghĩa và cần thiết của việc nhận diện bệnh COVID-19 từ ảnh X-quang 7
1.2.1 Ý nghĩa của việc nhận diện bệnh COVID-19 từ ảnh X-quang 7
1.2.2 Cần thiết của việc nhận diện bệnh COVID-19 từ ảnh X-quang 8
1.2.3 Tầm quan trọng trong nghiên cứu và phát triển trí tuệ nhân tạo 8
1.2.4 Phát triển các ứng dụng hỗ trợ chẩn đoán khác: 8
1.3 Phạm vi nghiên cứu và đối tượng sử dụng ứng dụng 8
1.3.1 Phạm vi nghiên cứu 9
1.3.2 Đối tượng sử dụng ứng dụng 9
1.3.3 Ứng dụng có thể hỗ trợ các tổ chức phi lợi nhuận và cơ quan chính phủ trong việc theo dõi và kiểm soát dịch bệnh, đặc biệt ở các vùng sâu, vùng xa và các khu vực bị ảnh hưởng nặng nề bởi đại dịch 9
Tổng quan về lập trình ứng dụng desktop 10
1.4 Tổng quan về ứng dụng desktop trong lĩnh vực trí tuệ nhân tạo và khoa học dữ liệu 10
1.4.1 Giới thiệu về ứng dụng desktop 10
1.4.2 Ứng dụng desktop trong lĩnh vực trí tuệ nhân tạo và khoa học dữ liệu 10
1.4.3 Công cụ và ngôn ngữ lập trình sử dụng 10
1.4.4 Vai trò của ứng dụng desktop trong AI và khoa học dữ liệu 11
1.5 Công cụ và ngôn ngữ lập trình sử dụng cho đồ án 11
1.5.1 Công cụ 12
1.5.2 Ngôn ngữ lập trình 12
1.5.3 Thư viện và Framework 12
Phân tích và Thiết kế hệ thống 12
1.6 Phân tích yêu cầu dữ liệu 12
2.1 Mô tả về dữ liệu ảnh X-quang COVID-19 13
1.7 Các thao tác tiền xử lý dữ liệu 13
1.7.1 Chuẩn bị dữ liệu 13
1.7.2 Tiền xử lý dữ liệu 13
1.7.3 Bảo mật và quản lý dữ liệu 14
Xây dựng ứng dụng 14
1.8 Tiến trình xử lý và phân loại ảnh X-quang COVID-19 14
1.8.1 Thu thập dữ liệu 14
1.8.2 Xử lý dữ liệu 14
1.8.3 Chuẩn hóa dữ liệu 15
1.8.4 Chia dữ liệu 15
1.8.5 Viết mô hình 15
1.8.6 Tiến hành huấn luyện (Train) 15
1.8.7 Đánh giá mô hình 16
1.8.8 Visualization 16
1.8.9 Test 16
Trang 41.9 Các kỹ thuật và mô hình học máy được áp dụng 16
1.9.1 Kỹ thuật Data Augmentation 17
Kỹ thuật làm sắc nét ảnh 17
Kỹ thuật Random Data 18
1.9.2 Mô hình học máy: Convolutional Neural Network (CNN) 18
1.9.3 Quy trình xây dựng và huấn luyện mô hình: 18
Thực hiện và đánh giá hiệu năng của ứng dụng 21
1.10 Thực hiện huấn luyện mô hình 21
1.11 Huấn luyện mô hình 22
1.12 Đánh giá hiệu năng của mô hình 22
1.13 Phân tích kết quả 22
1.14 Visualization và Test 23
Kết luận 25
1.15 Tóm tắt kết quả đạt được từ việc nhận diện bệnh COVID-19 từ ảnh X-quang 25
1.16 Đánh giá tổng quan về hiệu quả của hệ thống 25
1.16.1 Độ chính xác (Accuracy) 25
1.16.2 Giá trị mất mát (Loss) 26
1.16.3 Tính tổng quát hóa (Generalization) 26
1.16.4 Hiệu suất và ứng dụng thực tế 26
1.16.5 Những hạn chế và hướng phát triển 26
Hướng phát triển và ứng dụng tiếp theo của nghiên cứu 26
1.17 Mở rộng tập dữ liệu và nghiên cứu 27
1.17.1 Cải tiến và tối ưu hóa mô hình học máy 27
1.17.2 Triển khai và ứng dụng thực tế 27
1.18 Tổng kết 27
Tài liệu tham khảo 27
Trang 5Chúng em cũng xin bày tỏ lòng biết ơn đến sự hỗ trợ nhiệt tình từ Cô trong việc chỉ bảo, giúp đỡ giải đáp các thắc mắc trong quá trình nghiên cứu và triển khai dự án.
Mọi điều tốt đẹp nhất chúng em xin gửi tới Cô, người đã là người cô giáo đáng kính và đáng quý trong quá trình học tập của chúng em.
Xin chân thành cảm ơn Cô!
Trân trọng,
Trang 6DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1: Data Augmentation 17
Hình 2: Kĩ thuật sắc nét ảnh 18
Hình 3: Model CNN 19
Hình 4: Tập dữ liệu 22
Hình 5: Biểu đồ kết quả 23
Hình 6: Biểu đồ đường của tập train và tập validation trên từng epochs 24
Hình 7: Biểu đồ biểu diễn kết quả theo từng loại dữ liệu 24
Trang 7Mở đầu
1 Giới thiệu chung về đồ án và mục tiêu nghiên cứu
1.1.1 Giới thiệu chung về đồ án
Trong bối cảnh đại dịch COVID-19 toàn cầu, việc chẩn đoán nhanh chóng và chính xác bệnh nhân nhiễm COVID-19 là rất quan trọng để kiểm soát sự lây lan của virus Các phương pháp chẩn đoán hiện tại như PCR (Polymerase Chain Reaction) tuy có độ chính xác cao nhưng thường mất nhiều thời gian
và đòi hỏi cơ sở hạ tầng phòng thí nghiệm phức tạp Ảnh chụp X-quang ngực đã được chứng minh là một công cụ hỗ trợ quan trọng trong việc chẩn đoán các bệnh về phổi, bao gồm cả COVID-19.Ứng dụng trí tuệ nhân tạo (AI) và khoa học dữ liệu vào nhận diện bệnh từ ảnh chụp X-quang có thể giúp tăng tốc độ và độ chính xác của quá trình chẩn đoán Đồ án này tập trung vào việc xây dựng một ứng dụng desktop sử dụng các kỹ thuật học máy để nhận diện bệnh COVID-19 thông qua ảnh chụp X-quang, từ đó hỗ trợ các bác sĩ và nhân viên y tế trong việc chẩn đoán bệnh nhanh chóng và hiệu quả hơn
1.1.2 1.2 Mục tiêu nghiên cứu
Xây dựng mô hình học máy: Phát triển và huấn luyện một mô hình học máy có khả năng phân
loại ảnh chụp X-quang để nhận diện bệnh COVID-19
Tiền xử lý và phân tích dữ liệu: Tiến hành tiền xử lý dữ liệu ảnh X-quang để cải thiện chất
lượng dữ liệu và tăng độ chính xác của mô hình
Phát triển ứng dụng desktop: Thiết kế và triển khai một ứng dụng desktop sử dụng mô hình
học máy đã phát triển để nhận diện bệnh COVID-19 từ ảnh X-quang
Đánh giá hiệu năng của hệ thống: Thực hiện đánh giá hiệu năng của mô hình và ứng dụng
thông qua các chỉ số như độ chính xác, độ nhạy, độ đặc hiệu và thời gian xử lý
Hỗ trợ chẩn đoán y tế: Cung cấp một công cụ hỗ trợ cho các bác sĩ và nhân viên y tế trong quá
trình chẩn đoán bệnh COVID-19, góp phần nâng cao hiệu quả và tốc độ chẩn đoán
1.1.3 1.3 Ý nghĩa của nghiên cứu
Việc phát triển một hệ thống tự động nhận diện bệnh COVID-19 từ ảnh chụp X-quang không chỉ giúp giảm tải công việc cho các bác sĩ mà còn cải thiện độ chính xác và tốc độ chẩn đoán Điều này đặc biệt quan trọng trong bối cảnh đại dịch khi nhu cầu chẩn đoán nhanh chóng và đáng tin cậy là rất cao Ngoài ra, nghiên cứu này còn mở ra hướng đi mới trong việc ứng dụng trí tuệ nhân tạo vào y tế, đóng góp vào sự phát triển của ngành khoa học dữ liệu và y học hiện đại
1.2 Ý nghĩa và cần thiết của việc nhận diện bệnh COVID-19 từ ảnh X-quang
1.2.1 Ý nghĩa của việc nhận diện bệnh COVID-19 từ ảnh X-quang
Nâng cao hiệu quả chẩn đoán: Việc sử dụng ảnh X-quang để nhận diện bệnh COVID-19 giúp
giảm thiểu thời gian chờ đợi so với các phương pháp xét nghiệm truyền thống như PCR Điều này cho phép các bác sĩ đưa ra quyết định nhanh chóng, từ đó cải thiện tốc độ xử lý và điều trị cho bệnh nhân
Trang 8 Giảm tải cho hệ thống y tế: Trong bối cảnh đại dịch, các cơ sở y tế thường xuyên bị quá tải do
số lượng bệnh nhân lớn Hệ thống nhận diện COVID-19 tự động từ ảnh X-quang có thể giảm áplực cho các phòng xét nghiệm và nhân viên y tế, cho phép họ tập trung vào việc điều trị và chăm sóc bệnh nhân
Tiết kiệm chi phí: Việc chẩn đoán bệnh COVID-19 thông qua ảnh X-quang có thể giảm chi
phí xét nghiệm do không cần sử dụng các bộ kit PCR đắt tiền và các trang thiết bị phòng thí nghiệm phức tạp
Ứng dụng rộng rãi: Công nghệ nhận diện bệnh từ ảnh X-quang có thể được áp dụng tại nhiều
địa điểm khác nhau, từ bệnh viện lớn đến các cơ sở y tế ở vùng sâu, vùng xa nơi mà các phươngpháp xét nghiệm tiên tiến có thể không sẵn có
1.2.2 Cần thiết của việc nhận diện bệnh COVID-19 từ ảnh X-quang
Đáp ứng nhu cầu chẩn đoán nhanh chóng: Trong tình hình dịch bệnh lan rộng, nhu cầu chẩn
đoán nhanh chóng và chính xác để cách ly và điều trị bệnh nhân kịp thời là vô cùng cấp bách Công nghệ nhận diện từ ảnh X-quang đáp ứng nhu cầu này một cách hiệu quả
Hỗ trợ các khu vực thiếu trang thiết bị y tế: Ở nhiều khu vực, đặc biệt là các nước đang phát
triển, việc thiếu hụt các bộ xét nghiệm và trang thiết bị y tế là một thách thức lớn Ảnh X-quang
là một công cụ phổ biến và dễ tiếp cận hơn, do đó việc sử dụng chúng để chẩn đoán COVID-19
sẽ giúp ích rất nhiều trong bối cảnh thiếu thốn
Giảm thiểu sai sót trong chẩn đoán: Các bác sĩ thường phải đối mặt với áp lực lớn và có thể
mắc sai sót trong quá trình chẩn đoán thủ công Hệ thống tự động nhận diện bệnh COVID-19 từảnh X-quang sử dụng trí tuệ nhân tạo có thể giúp giảm thiểu những sai sót này, nhờ vào khả năng xử lý và phân tích hình ảnh chính xác
Theo dõi và giám sát dịch bệnh: Hệ thống nhận diện bệnh COVID-19 tự động có thể được
tích hợp vào các hệ thống quản lý y tế để theo dõi và giám sát sự lây lan của dịch bệnh, từ đó hỗtrợ công tác quản lý và phòng chống dịch bệnh một cách hiệu quả hơn
1.2.3 Tầm quan trọng trong nghiên cứu và phát triển trí tuệ nhân tạo
Đóng góp vào sự phát triển của AI trong y tế: Nghiên cứu và phát triển hệ thống nhận diện
COVID-19 từ ảnh X-quang giúp thúc đẩy sự ứng dụng của trí tuệ nhân tạo trong lĩnh vực y tế,
mở ra nhiều hướng nghiên cứu mới và cải tiến các phương pháp chẩn đoán hiện tại
Cải thiện các thuật toán và mô hình AI: Quá trình phát triển và huấn luyện mô hình nhận
diện COVID-19 từ ảnh X-quang cũng giúp cải thiện các thuật toán và mô hình AI, tăng cường khả năng xử lý và phân tích hình ảnh y tế
1.3 Phạm vi nghiên cứu và đối tượng sử dụng ứng dụng
Trang 9o Ảnh X-quang sẽ được tiền xử lý bằng các kỹ thuật như thay đổi kích thước, làm sắc nét,
và các kỹ thuật tăng cường dữ liệu để cải thiện chất lượng và độ phong phú của tập dữ liệu huấn luyện
o Các bước tiền xử lý dữ liệu sẽ được thực hiện để tối ưu hóa đầu vào cho mô hình CNN
Phát triển và triển khai ứng dụng desktop:
o Ứng dụng desktop sẽ được phát triển bằng các công cụ và ngôn ngữ lập trình phù hợp,
có khả năng chạy trên các hệ điều hành phổ biến
o Giao diện người dùng thân thiện, cho phép người dùng dễ dàng tải ảnh X-quang và nhậnkết quả chẩn đoán nhanh chóng
Đánh giá hiệu năng mô hình:
o Mô hình CNN sẽ được đánh giá dựa trên các chỉ số như độ chính xác, độ nhạy, độ đặc hiệu và thời gian xử lý
o Các kỹ thuật đánh giá chéo (cross-validation) sẽ được áp dụng để đảm bảo mô hình có khả năng tổng quát tốt trên dữ liệu chưa thấy
1.3.2 Đối tượng sử dụng ứng dụng
Bác sĩ và nhân viên y tế:
o Ứng dụng được thiết kế để hỗ trợ các bác sĩ và nhân viên y tế trong việc chẩn đoán nhanh chóng và chính xác bệnh COVID-19 từ ảnh X-quang Họ có thể sử dụng ứng dụng như một công cụ hỗ trợ trong quá trình đánh giá tình trạng phổi của bệnh nhân
o Giảm tải áp lực công việc, đặc biệt trong các tình huống khẩn cấp và tại các khu vực có
số lượng lớn bệnh nhân cần chẩn đoán
Các cơ sở y tế và bệnh viện:
o Ứng dụng có thể được triển khai tại các bệnh viện, phòng khám và các cơ sở y tế khác
để nâng cao khả năng chẩn đoán bệnh nhân
o Đặc biệt hữu ích tại các khu vực thiếu hụt trang thiết bị y tế tiên tiến hoặc phòng xét nghiệm PCR
Các nhà nghiên cứu và sinh viên ngành y:
o Ứng dụng có thể phục vụ như một công cụ học tập và nghiên cứu, giúp các nhà nghiên cứu và sinh viên hiểu rõ hơn về các kỹ thuật học máy và ứng dụng của chúng trong y tế
o Hỗ trợ trong các dự án nghiên cứu và phát triển các phương pháp chẩn đoán mới
Các tổ chức phi lợi nhuận và chính phủ:
1.3.3 Ứng dụng có thể hỗ trợ các tổ chức phi lợi nhuận và cơ quan chính phủ trong việc theo dõi và kiểm soát dịch bệnh, đặc biệt ở các vùng sâu, vùng
Trang 10xa và các khu vực bị ảnh hưởng nặng nề bởi đại dịch.
Tóm lại, phạm vi nghiên cứu của đồ án tập trung vào việc phát triển một hệ thống nhận diện bệnh COVID-19 từ ảnh X-quang bằng cách sử dụng mô hình CNN nhỏ Đối tượng sử dụng chính của ứng dụng bao gồm các bác sĩ, nhân viên y tế, cơ sở y tế, nhà nghiên cứu, sinh viên và các tổ chức liên quan,với mục tiêu cung cấp một công cụ hỗ trợ chẩn đoán hiệu quả và đáng tin cậy
Tổng quan về lập trình ứng dụng desktop
1.4 Tổng quan về ứng dụng desktop trong lĩnh vực trí tuệ nhân tạo và khoa học
dữ liệu
1.4.1 Giới thiệu về ứng dụng desktop
Ứng dụng desktop là các phần mềm được cài đặt và chạy trực tiếp trên hệ điều hành của máy tính cá nhân Các ứng dụng này thường cung cấp giao diện người dùng thân thiện và tương tác trực quan, giúp người dùng dễ dàng sử dụng và quản lý các chức năng của phần mềm
Trong bối cảnh phát triển nhanh chóng của công nghệ thông tin, ứng dụng desktop vẫn giữ vai trò quantrọng trong nhiều lĩnh vực, bao gồm trí tuệ nhân tạo (AI) và khoa học dữ liệu (Data Science) Các ứng dụng này không chỉ hỗ trợ trong việc xử lý và phân tích dữ liệu mà còn giúp triển khai và sử dụng các
mô hình AI một cách dễ dàng và hiệu quả
1.4.2 Ứng dụng desktop trong lĩnh vực trí tuệ nhân tạo và khoa học dữ liệu
Trí tuệ nhân tạo (AI):
o AI bao gồm các công nghệ và kỹ thuật giúp máy tính thực hiện các nhiệm vụ thông minh như học máy (machine learning), xử lý ngôn ngữ tự nhiên (NLP), nhận dạng hình ảnh, và nhiều ứng dụng khác
o Các ứng dụng desktop trong AI giúp triển khai các mô hình học máy, cho phép người dùng tải lên dữ liệu, xử lý dữ liệu, và nhận kết quả phân tích một cách trực quan và dễ
sử dụng
o Ví dụ: Ứng dụng chẩn đoán bệnh từ ảnh y tế, ứng dụng phân tích dữ liệu tài chính, ứng dụng xử lý hình ảnh và video
Khoa học dữ liệu (Data Science):
o Khoa học dữ liệu liên quan đến việc thu thập, xử lý, phân tích và diễn giải dữ liệu để trích xuất thông tin hữu ích và hỗ trợ quyết định
o Các ứng dụng desktop trong khoa học dữ liệu cung cấp các công cụ và giao diện để làm việc với dữ liệu lớn, từ việc tiền xử lý, trực quan hóa dữ liệu đến xây dựng và triển khai các mô hình phân tích
o Ví dụ: Ứng dụng phân tích dữ liệu thị trường, ứng dụng dự báo doanh số bán hàng, ứng dụng phân tích dữ liệu khảo sát
1.4.3 Công cụ và ngôn ngữ lập trình sử dụng
Trang 11 Python:
o Python là ngôn ngữ lập trình phổ biến trong lĩnh vực AI và khoa học dữ liệu do cú pháp
dễ đọc, dễ học và có một hệ sinh thái thư viện phong phú
o Phiên bản Python 3.12 cung cấp nhiều cải tiến về hiệu năng và tính năng, hỗ trợ tốt cho việc phát triển các ứng dụng desktop trong lĩnh vực AI và khoa học dữ liệu
o Dữ liệu quang được sử dụng trong đồ án này được lấy từ Kaggle, bao gồm các ảnh quang của bệnh nhân mắc COVID-19, viêm phổi do virus và ảnh X-quang bình thường
X-Bộ dữ liệu này đã được cộng đồng kiểm chứng và đánh giá, đảm bảo chất lượng và độ tin cậy
o Việc sử dụng dữ liệu từ Kaggle giúp đảm bảo rằng tập dữ liệu được sử dụng là đa dạng
và phong phú, hỗ trợ tốt cho việc huấn luyện và đánh giá mô hình
1.4.4 Vai trò của ứng dụng desktop trong AI và khoa học dữ liệu
Dễ sử dụng và tương tác: Ứng dụng desktop cung cấp giao diện người dùng đồ họa, giúp
người dùng dễ dàng tương tác với các mô hình và dữ liệu mà không cần kiến thức sâu về lập trình
Tích hợp mạnh mẽ: Các ứng dụng desktop có thể tích hợp nhiều chức năng và công cụ khác
nhau, từ xử lý dữ liệu, trực quan hóa đến triển khai mô hình học máy, tạo nên một giải pháp toàn diện cho người dùng
Hiệu năng cao: Ứng dụng desktop có thể tối ưu hóa tài nguyên của máy tính cá nhân, giúp xử
lý các tác vụ nặng như huấn luyện mô hình AI và phân tích dữ liệu lớn một cách hiệu quả
Bảo mật và quản lý dữ liệu: Ứng dụng desktop giúp quản lý và bảo mật dữ liệu tốt hơn so với
các ứng dụng web, đặc biệt quan trọng trong các lĩnh vực yêu cầu bảo mật cao như y tế và tài chính
Tóm lại, ứng dụng desktop trong lĩnh vực trí tuệ nhân tạo và khoa học dữ liệu đóng vai trò quan trọng trong việc giúp người dùng triển khai và sử dụng các mô hình AI một cách hiệu quả và dễ dàng Với sự
hỗ trợ của các công cụ mạnh mẽ như Python, Google Colab và PyCharm, việc phát triển các ứng dụng này trở nên thuận tiện và hiệu quả hơn bao giờ hết Sử dụng dữ liệu từ Kaggle đảm bảo chất lượng và tính khả thi của các dự án AI và khoa học dữ liệu
4o
1.5 Công cụ và ngôn ngữ lập trình sử dụng cho đồ án
Trang 12Công cụ và ngôn ngữ lập trình được sử dụng cho đồ án nhận diện bệnh COVID-19 từ ảnh X-quang baogồm:
1.5.1 Công cụ
1 Google Colab và PyCharm:
o Google Colab: Sử dụng để thực thi và chạy các đoạn mã Python trực tuyến, hỗ trợ cho việc
huấn luyện mô hình trên nền tảng GPU miễn phí của Google
o PyCharm: Được sử dụng như môi trường phát triển tích hợp (IDE) để phát triển mã nguồn,
debug và quản lý dự án
1.5.2 Ngôn ngữ lập trình
2 Python (Phiên bản 3.12):
o Python là ngôn ngữ lập trình chính được sử dụng trong đồ án
o Phiên bản 3.12 của Python được sử dụng để viết các đoạn mã xử lý dữ liệu, xây dựng mô hình học máy, và thực hiện các thao tác tiền xử lý dữ liệu
1.5.3 Thư viện và Framework
3 Các thư viện chính:
o OpenCV: Sử dụng để xử lý và xử lý ảnh X-quang.
o NumPy và Pandas: Được sử dụng để xử lý dữ liệu và thao tác với mảng số học.
o TensorFlow và Keras: Được sử dụng để xây dựng và huấn luyện mô hình học sâu (deep
learning)
o Matplotlib và Seaborn: Được sử dụng để visualization và trực quan hóa dữ liệu.
Phân tích và Thiết kế hệ thống 1.6 Phân tích yêu cầu dữ liệu
Phân tích yêu cầu dữ liệu là quá trình xem xét các thông tin cơ bản về dữ liệu được sử dụng trong nghiên cứu Dưới đây là các yếu tố cần xem xét:
1 Mục đích sử dụng dữ liệu: Xác định mục đích sử dụng dữ liệu trong nghiên cứu, ví dụ như
nhận diện COVID-19 từ ảnh X-quang
2 Nguồn gốc và tính chất: Xác định nguồn gốc dữ liệu (Kaggle, cơ sở y tế, ) và các đặc điểm
như kích thước ảnh, số lượng mẫu, tỷ lệ các lớp (COVID-19, normal, viral pneumonia)
3 Phương pháp thu thập và tiền xử lý: Mô tả cách thu thập dữ liệu và các bước tiền xử lý như
chuẩn hóa, làm sạch, tăng cường dữ liệu
4 Sự đảm bảo và quản lý dữ liệu: Các biện pháp để đảm bảo chất lượng dữ liệu và tuân thủ các
quy định về bảo mật và quản lý dữ liệu
5 Đánh giá tính phù hợp: Xem xét tính phù hợp của dữ liệu đối với mục đích nghiên cứu.
6 Hạn chế: Những hạn chế của dữ liệu như số lượng mẫu không đủ, độ đa dạng chưa đủ.
Trang 13Phân tích này giúp đảm bảo rằng dữ liệu được sử dụng là phù hợp và đủ chất lượng cho nghiên cứu nhằm đạt được kết quả mong muốn.
2.1 Mô tả về dữ liệu ảnh X-quang COVID-19
Dữ liệu ảnh X-quang COVID-19 được sử dụng trong nghiên cứu là tập hợp các hình ảnh X-quang thu thập từ nhiều nguồn khác nhau, nhằm phục vụ cho mục đích nhận diện và phân loại các trường hợp COVID-19 Dưới đây là mô tả chi tiết về dữ liệu này:
1 Nguồn gốc: Dữ liệu được thu thập từ nhiều nguồn, bao gồm các cơ sở y tế, nghiên cứu khoa
học, và các nền tảng công khai như Kaggle
2 Số lượng và độ đa dạng: Tập dữ liệu bao gồm tổng cộng 1,506 hình ảnh X-quang, trong đó:
3 Kích thước ảnh: Mỗi ảnh được chuẩn hóa về kích thước 64x64 pixel và có 3 kênh màu (RGB),
phù hợp để đưa vào mô hình học sâu như Convolutional Neural Networks (CNNs)
4 Tiền xử lý: Trước khi sử dụng trong mô hình, dữ liệu đã được tiền xử lý như chuẩn hóa cường
độ pixel, cắt cạnh, và tăng cường dữ liệu (data augmentation) để tăng tính tổng quát và khả năng tổng quát hóa của mô hình
5 Quản lý và bảo mật: Dữ liệu được quản lý và bảo mật theo các tiêu chuẩn quy định, đảm bảo
sự riêng tư và tuân thủ các quy tắc về bảo vệ dữ liệu cá nhân
Mô tả này giúp hiểu rõ về nguồn gốc, đặc điểm và quản lý dữ liệu ảnh X-quang COVID-19, cũng như khả năng áp dụng vào các nghiên cứu và ứng dụng trong thực tế
1.7 Các thao tác tiền xử lý dữ liệu
Các thao tác tiền xử lý dữ liệu trong nghiên cứu nhận diện bệnh COVID-19 từ ảnh X-quang bao gồm các bước chuẩn bị dữ liệu trước khi đưa vào mô hình máy học Dưới đây là một số thao tác tiền xử lý
cơ bản:
1.7.1 Chuẩn bị dữ liệu
Thu thập dữ liệu: Dữ liệu ảnh X-quang được thu thập từ các nguồn khác nhau như cơ sở y tế,
nghiên cứu khoa học, hoặc các bộ dữ liệu công khai như Kaggle
Phân loại và gán nhãn: Các ảnh được phân loại vào các nhóm như COVID-19, viral
pneumonia và normal, và mỗi ảnh được gán nhãn tương ứng
1.7.2 Tiền xử lý dữ liệu
Trang 14 Đọc và xử lý ảnh: Sử dụng thư viện OpenCV (Open Source Computer Vision Library) để đọc
và xử lý ảnh từ định dạng gốc sang dạng mà mô hình có thể sử dụng được (ví dụ: RGB)
Chuẩn hóa dữ liệu: Đảm bảo rằng các giá trị pixel trong ảnh được chuẩn hóa về khoảng giá trị
phù hợp, thường từ 0 đến 1 hoặc -1 đến 1 để dễ dàng học và làm việc với mô hình
Resize ảnh: Đưa các ảnh về cùng kích thước, ví dụ như 64x64 pixel, để đơn giản hóa việc xử lý
và tiết kiệm tài nguyên tính toán
Data Augmentation (Tăng cường dữ liệu): Áp dụng các kỹ thuật như xoay, dịch chuyển, lật
ảnh, thay đổi tỷ lệ (scale), để tăng số lượng mẫu huấn luyện và cải thiện khả năng tổng quát hóacủa mô hình
Xáo trộn dữ liệu: Xáo trộn thứ tự các mẫu dữ liệu trước khi đưa vào mô hình để tránh việc mô
hình học theo thứ tự và có thể gây overfitting
1.7.3 Bảo mật và quản lý dữ liệu
Quản lý dữ liệu: Đảm bảo các dữ liệu được quản lý, lưu trữ và truy cập một cách bảo mật, tuân
thủ các quy định về bảo vệ dữ liệu cá nhân
Đánh giá và kiểm tra: Đảm bảo dữ liệu được kiểm tra và đánh giá chất lượng trước khi sử
dụng vào huấn luyện mô hình, bao gồm kiểm tra tính đầy đủ, sự thích hợp và tính nhất quán.Các thao tác tiền xử lý dữ liệu này giúp chuẩn bị dữ liệu tốt hơn cho quá trình huấn luyện và đánh giá
mô hình nhận diện bệnh COVID-19 từ ảnh X-quang, đồng thời cải thiện hiệu quả và độ chính xác của
mô hình
Xây dựng ứng dụng 1.8 Tiến trình xử lý và phân loại ảnh X-quang COVID-19
Trong đồ án "Nhận diện bệnh COVID-19 thông qua ảnh chụp X-quang", tiến trình xử lý và phân loại ảnh X-quang COVID-19 bao gồm các bước sau:
Tải xuống dữ liệu:
o Dữ liệu được tải xuống từ Kaggle và tổ chức thành các thư mục riêng biệt cho từng loại ảnh, tạo điều kiện thuận lợi cho việc xử lý và phân loại
1.8.2 Xử lý dữ liệu
Đọc và hiển thị ảnh:
o Sử dụng các thư viện như OpenCV và matplotlib để đọc và hiển thị ảnh, giúp kiểm tra chất lượng và tính nhất quán của dữ liệu