Đồ án chuyên ngành 2 (ad) xây dựng hệ thống dự Đoán giá nhà

Ảnh chụp X-quang ngực đã được chứng minh là một công cụ hỗ trợ quan trọng trong việc chẩn đoán các bệnh về phổi, bao gồm cả COVID-19.Ứng dụng trí tuệ nhân tạo AI và khoa học dữ liệu vào

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ

TRUYỀN THÔNG VIỆT – HÀN

Khoa Khoa Học Máy Tính

ĐỒ ÁN CHUYÊN NGÀNH 2 (AD)

Thành viên: Lê Huy Vũ – 21AD068

Trần Sinh Nhật – 21AD045 Nguyễn Lê Thanh Ba – 21AD003 GVHD : Lê Tân

Đà Nẵng – 11/2024

Trang 2

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ

TRUYỀN THÔNG VIỆT – HÀN

Khoa Khoa Học Máy Tính

ĐỒ ÁN CHUYÊN NGÀNH 2 (AD)

Thành viên: Lê Huy Vũ – 21AD068 Trần Sinh Nhật – 21AD045

Nguyễn Lê Thanh Ba – 21AD003 GVHD : Lê Tân

Đà Nẵng – 11/2024

Trang 3

MỤC LỤC

Contents

MỤC LỤC 3

LỜI CẢM ƠN 5

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 6

Mở đầu 7

1 Giới thiệu chung về đồ án và mục tiêu nghiên cứu 7

1.1.1 Giới thiệu chung về đồ án 7

1.1.2 1.2 Mục tiêu nghiên cứu 7

1.1.3 1.3 Ý nghĩa của nghiên cứu 7

1.2 Ý nghĩa và cần thiết của việc nhận diện bệnh COVID-19 từ ảnh X-quang 7

1.2.1 Ý nghĩa của việc nhận diện bệnh COVID-19 từ ảnh X-quang 7

1.2.2 Cần thiết của việc nhận diện bệnh COVID-19 từ ảnh X-quang 8

1.2.3 Tầm quan trọng trong nghiên cứu và phát triển trí tuệ nhân tạo 8

1.2.4 Phát triển các ứng dụng hỗ trợ chẩn đoán khác: 8

1.3 Phạm vi nghiên cứu và đối tượng sử dụng ứng dụng 8

1.3.1 Phạm vi nghiên cứu 9

1.3.2 Đối tượng sử dụng ứng dụng 9

1.3.3 Ứng dụng có thể hỗ trợ các tổ chức phi lợi nhuận và cơ quan chính phủ trong việc theo dõi và kiểm soát dịch bệnh, đặc biệt ở các vùng sâu, vùng xa và các khu vực bị ảnh hưởng nặng nề bởi đại dịch 9

Tổng quan về lập trình ứng dụng desktop 10

1.4 Tổng quan về ứng dụng desktop trong lĩnh vực trí tuệ nhân tạo và khoa học dữ liệu 10

1.4.1 Giới thiệu về ứng dụng desktop 10

1.4.2 Ứng dụng desktop trong lĩnh vực trí tuệ nhân tạo và khoa học dữ liệu 10

1.4.3 Công cụ và ngôn ngữ lập trình sử dụng 10

1.4.4 Vai trò của ứng dụng desktop trong AI và khoa học dữ liệu 11

1.5 Công cụ và ngôn ngữ lập trình sử dụng cho đồ án 11

1.5.1 Công cụ 12

1.5.2 Ngôn ngữ lập trình 12

1.5.3 Thư viện và Framework 12

Phân tích và Thiết kế hệ thống 12

1.6 Phân tích yêu cầu dữ liệu 12

2.1 Mô tả về dữ liệu ảnh X-quang COVID-19 13

1.7 Các thao tác tiền xử lý dữ liệu 13

1.7.1 Chuẩn bị dữ liệu 13

1.7.2 Tiền xử lý dữ liệu 13

1.7.3 Bảo mật và quản lý dữ liệu 14

Xây dựng ứng dụng 14

1.8 Tiến trình xử lý và phân loại ảnh X-quang COVID-19 14

1.8.1 Thu thập dữ liệu 14

1.8.2 Xử lý dữ liệu 14

1.8.3 Chuẩn hóa dữ liệu 15

1.8.4 Chia dữ liệu 15

1.8.5 Viết mô hình 15

1.8.6 Tiến hành huấn luyện (Train) 15

1.8.7 Đánh giá mô hình 16

1.8.8 Visualization 16

1.8.9 Test 16

Trang 4

1.9 Các kỹ thuật và mô hình học máy được áp dụng 16

1.9.1 Kỹ thuật Data Augmentation 17

Kỹ thuật làm sắc nét ảnh 17

Kỹ thuật Random Data 18

1.9.2 Mô hình học máy: Convolutional Neural Network (CNN) 18

1.9.3 Quy trình xây dựng và huấn luyện mô hình: 18

Thực hiện và đánh giá hiệu năng của ứng dụng 21

1.10 Thực hiện huấn luyện mô hình 21

1.11 Huấn luyện mô hình 22

1.12 Đánh giá hiệu năng của mô hình 22

1.13 Phân tích kết quả 22

1.14 Visualization và Test 23

Kết luận 25

1.15 Tóm tắt kết quả đạt được từ việc nhận diện bệnh COVID-19 từ ảnh X-quang 25

1.16 Đánh giá tổng quan về hiệu quả của hệ thống 25

1.16.1 Độ chính xác (Accuracy) 25

1.16.2 Giá trị mất mát (Loss) 26

1.16.3 Tính tổng quát hóa (Generalization) 26

1.16.4 Hiệu suất và ứng dụng thực tế 26

1.16.5 Những hạn chế và hướng phát triển 26

Hướng phát triển và ứng dụng tiếp theo của nghiên cứu 26

1.17 Mở rộng tập dữ liệu và nghiên cứu 27

1.17.1 Cải tiến và tối ưu hóa mô hình học máy 27

1.17.2 Triển khai và ứng dụng thực tế 27

1.18 Tổng kết 27

Tài liệu tham khảo 27

Trang 5

Chúng em cũng xin bày tỏ lòng biết ơn đến sự hỗ trợ nhiệt tình từ Cô trong việc chỉ bảo, giúp đỡ giải đáp các thắc mắc trong quá trình nghiên cứu và triển khai dự án.

Mọi điều tốt đẹp nhất chúng em xin gửi tới Cô, người đã là người cô giáo đáng kính và đáng quý trong quá trình học tập của chúng em.

Xin chân thành cảm ơn Cô!

Trân trọng,

Trang 6

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1: Data Augmentation 17

Hình 2: Kĩ thuật sắc nét ảnh 18

Hình 3: Model CNN 19

Hình 4: Tập dữ liệu 22

Hình 5: Biểu đồ kết quả 23

Hình 6: Biểu đồ đường của tập train và tập validation trên từng epochs 24

Hình 7: Biểu đồ biểu diễn kết quả theo từng loại dữ liệu 24

Trang 7

Mở đầu

1 Giới thiệu chung về đồ án và mục tiêu nghiên cứu

1.1.1 Giới thiệu chung về đồ án

Trong bối cảnh đại dịch COVID-19 toàn cầu, việc chẩn đoán nhanh chóng và chính xác bệnh nhân nhiễm COVID-19 là rất quan trọng để kiểm soát sự lây lan của virus Các phương pháp chẩn đoán hiện tại như PCR (Polymerase Chain Reaction) tuy có độ chính xác cao nhưng thường mất nhiều thời gian

và đòi hỏi cơ sở hạ tầng phòng thí nghiệm phức tạp Ảnh chụp X-quang ngực đã được chứng minh là một công cụ hỗ trợ quan trọng trong việc chẩn đoán các bệnh về phổi, bao gồm cả COVID-19.Ứng dụng trí tuệ nhân tạo (AI) và khoa học dữ liệu vào nhận diện bệnh từ ảnh chụp X-quang có thể giúp tăng tốc độ và độ chính xác của quá trình chẩn đoán Đồ án này tập trung vào việc xây dựng một ứng dụng desktop sử dụng các kỹ thuật học máy để nhận diện bệnh COVID-19 thông qua ảnh chụp X-quang, từ đó hỗ trợ các bác sĩ và nhân viên y tế trong việc chẩn đoán bệnh nhanh chóng và hiệu quả hơn

1.1.2 1.2 Mục tiêu nghiên cứu

 Xây dựng mô hình học máy: Phát triển và huấn luyện một mô hình học máy có khả năng phân

loại ảnh chụp X-quang để nhận diện bệnh COVID-19

 Tiền xử lý và phân tích dữ liệu: Tiến hành tiền xử lý dữ liệu ảnh X-quang để cải thiện chất

lượng dữ liệu và tăng độ chính xác của mô hình

 Phát triển ứng dụng desktop: Thiết kế và triển khai một ứng dụng desktop sử dụng mô hình

học máy đã phát triển để nhận diện bệnh COVID-19 từ ảnh X-quang

 Đánh giá hiệu năng của hệ thống: Thực hiện đánh giá hiệu năng của mô hình và ứng dụng

thông qua các chỉ số như độ chính xác, độ nhạy, độ đặc hiệu và thời gian xử lý

 Hỗ trợ chẩn đoán y tế: Cung cấp một công cụ hỗ trợ cho các bác sĩ và nhân viên y tế trong quá

trình chẩn đoán bệnh COVID-19, góp phần nâng cao hiệu quả và tốc độ chẩn đoán

1.1.3 1.3 Ý nghĩa của nghiên cứu

Việc phát triển một hệ thống tự động nhận diện bệnh COVID-19 từ ảnh chụp X-quang không chỉ giúp giảm tải công việc cho các bác sĩ mà còn cải thiện độ chính xác và tốc độ chẩn đoán Điều này đặc biệt quan trọng trong bối cảnh đại dịch khi nhu cầu chẩn đoán nhanh chóng và đáng tin cậy là rất cao Ngoài ra, nghiên cứu này còn mở ra hướng đi mới trong việc ứng dụng trí tuệ nhân tạo vào y tế, đóng góp vào sự phát triển của ngành khoa học dữ liệu và y học hiện đại

1.2 Ý nghĩa và cần thiết của việc nhận diện bệnh COVID-19 từ ảnh X-quang

1.2.1 Ý nghĩa của việc nhận diện bệnh COVID-19 từ ảnh X-quang

 Nâng cao hiệu quả chẩn đoán: Việc sử dụng ảnh X-quang để nhận diện bệnh COVID-19 giúp

giảm thiểu thời gian chờ đợi so với các phương pháp xét nghiệm truyền thống như PCR Điều này cho phép các bác sĩ đưa ra quyết định nhanh chóng, từ đó cải thiện tốc độ xử lý và điều trị cho bệnh nhân

Trang 8

 Giảm tải cho hệ thống y tế: Trong bối cảnh đại dịch, các cơ sở y tế thường xuyên bị quá tải do

số lượng bệnh nhân lớn Hệ thống nhận diện COVID-19 tự động từ ảnh X-quang có thể giảm áplực cho các phòng xét nghiệm và nhân viên y tế, cho phép họ tập trung vào việc điều trị và chăm sóc bệnh nhân

 Tiết kiệm chi phí: Việc chẩn đoán bệnh COVID-19 thông qua ảnh X-quang có thể giảm chi

phí xét nghiệm do không cần sử dụng các bộ kit PCR đắt tiền và các trang thiết bị phòng thí nghiệm phức tạp

 Ứng dụng rộng rãi: Công nghệ nhận diện bệnh từ ảnh X-quang có thể được áp dụng tại nhiều

địa điểm khác nhau, từ bệnh viện lớn đến các cơ sở y tế ở vùng sâu, vùng xa nơi mà các phươngpháp xét nghiệm tiên tiến có thể không sẵn có

1.2.2 Cần thiết của việc nhận diện bệnh COVID-19 từ ảnh X-quang

 Đáp ứng nhu cầu chẩn đoán nhanh chóng: Trong tình hình dịch bệnh lan rộng, nhu cầu chẩn

đoán nhanh chóng và chính xác để cách ly và điều trị bệnh nhân kịp thời là vô cùng cấp bách Công nghệ nhận diện từ ảnh X-quang đáp ứng nhu cầu này một cách hiệu quả

 Hỗ trợ các khu vực thiếu trang thiết bị y tế: Ở nhiều khu vực, đặc biệt là các nước đang phát

triển, việc thiếu hụt các bộ xét nghiệm và trang thiết bị y tế là một thách thức lớn Ảnh X-quang

là một công cụ phổ biến và dễ tiếp cận hơn, do đó việc sử dụng chúng để chẩn đoán COVID-19

sẽ giúp ích rất nhiều trong bối cảnh thiếu thốn

 Giảm thiểu sai sót trong chẩn đoán: Các bác sĩ thường phải đối mặt với áp lực lớn và có thể

mắc sai sót trong quá trình chẩn đoán thủ công Hệ thống tự động nhận diện bệnh COVID-19 từảnh X-quang sử dụng trí tuệ nhân tạo có thể giúp giảm thiểu những sai sót này, nhờ vào khả năng xử lý và phân tích hình ảnh chính xác

 Theo dõi và giám sát dịch bệnh: Hệ thống nhận diện bệnh COVID-19 tự động có thể được

tích hợp vào các hệ thống quản lý y tế để theo dõi và giám sát sự lây lan của dịch bệnh, từ đó hỗtrợ công tác quản lý và phòng chống dịch bệnh một cách hiệu quả hơn

1.2.3 Tầm quan trọng trong nghiên cứu và phát triển trí tuệ nhân tạo

 Đóng góp vào sự phát triển của AI trong y tế: Nghiên cứu và phát triển hệ thống nhận diện

COVID-19 từ ảnh X-quang giúp thúc đẩy sự ứng dụng của trí tuệ nhân tạo trong lĩnh vực y tế,

mở ra nhiều hướng nghiên cứu mới và cải tiến các phương pháp chẩn đoán hiện tại

 Cải thiện các thuật toán và mô hình AI: Quá trình phát triển và huấn luyện mô hình nhận

diện COVID-19 từ ảnh X-quang cũng giúp cải thiện các thuật toán và mô hình AI, tăng cường khả năng xử lý và phân tích hình ảnh y tế

1.3 Phạm vi nghiên cứu và đối tượng sử dụng ứng dụng

Trang 9

o Ảnh X-quang sẽ được tiền xử lý bằng các kỹ thuật như thay đổi kích thước, làm sắc nét,

và các kỹ thuật tăng cường dữ liệu để cải thiện chất lượng và độ phong phú của tập dữ liệu huấn luyện

o Các bước tiền xử lý dữ liệu sẽ được thực hiện để tối ưu hóa đầu vào cho mô hình CNN

 Phát triển và triển khai ứng dụng desktop:

o Ứng dụng desktop sẽ được phát triển bằng các công cụ và ngôn ngữ lập trình phù hợp,

có khả năng chạy trên các hệ điều hành phổ biến

o Giao diện người dùng thân thiện, cho phép người dùng dễ dàng tải ảnh X-quang và nhậnkết quả chẩn đoán nhanh chóng

 Đánh giá hiệu năng mô hình:

o Mô hình CNN sẽ được đánh giá dựa trên các chỉ số như độ chính xác, độ nhạy, độ đặc hiệu và thời gian xử lý

o Các kỹ thuật đánh giá chéo (cross-validation) sẽ được áp dụng để đảm bảo mô hình có khả năng tổng quát tốt trên dữ liệu chưa thấy

1.3.2 Đối tượng sử dụng ứng dụng

 Bác sĩ và nhân viên y tế:

o Ứng dụng được thiết kế để hỗ trợ các bác sĩ và nhân viên y tế trong việc chẩn đoán nhanh chóng và chính xác bệnh COVID-19 từ ảnh X-quang Họ có thể sử dụng ứng dụng như một công cụ hỗ trợ trong quá trình đánh giá tình trạng phổi của bệnh nhân

o Giảm tải áp lực công việc, đặc biệt trong các tình huống khẩn cấp và tại các khu vực có

số lượng lớn bệnh nhân cần chẩn đoán

 Các cơ sở y tế và bệnh viện:

o Ứng dụng có thể được triển khai tại các bệnh viện, phòng khám và các cơ sở y tế khác

để nâng cao khả năng chẩn đoán bệnh nhân

o Đặc biệt hữu ích tại các khu vực thiếu hụt trang thiết bị y tế tiên tiến hoặc phòng xét nghiệm PCR

 Các nhà nghiên cứu và sinh viên ngành y:

o Ứng dụng có thể phục vụ như một công cụ học tập và nghiên cứu, giúp các nhà nghiên cứu và sinh viên hiểu rõ hơn về các kỹ thuật học máy và ứng dụng của chúng trong y tế

o Hỗ trợ trong các dự án nghiên cứu và phát triển các phương pháp chẩn đoán mới

 Các tổ chức phi lợi nhuận và chính phủ:

1.3.3 Ứng dụng có thể hỗ trợ các tổ chức phi lợi nhuận và cơ quan chính phủ trong việc theo dõi và kiểm soát dịch bệnh, đặc biệt ở các vùng sâu, vùng

Trang 10

xa và các khu vực bị ảnh hưởng nặng nề bởi đại dịch.

Tóm lại, phạm vi nghiên cứu của đồ án tập trung vào việc phát triển một hệ thống nhận diện bệnh COVID-19 từ ảnh X-quang bằng cách sử dụng mô hình CNN nhỏ Đối tượng sử dụng chính của ứng dụng bao gồm các bác sĩ, nhân viên y tế, cơ sở y tế, nhà nghiên cứu, sinh viên và các tổ chức liên quan,với mục tiêu cung cấp một công cụ hỗ trợ chẩn đoán hiệu quả và đáng tin cậy

Tổng quan về lập trình ứng dụng desktop

1.4 Tổng quan về ứng dụng desktop trong lĩnh vực trí tuệ nhân tạo và khoa học

dữ liệu

1.4.1 Giới thiệu về ứng dụng desktop

Ứng dụng desktop là các phần mềm được cài đặt và chạy trực tiếp trên hệ điều hành của máy tính cá nhân Các ứng dụng này thường cung cấp giao diện người dùng thân thiện và tương tác trực quan, giúp người dùng dễ dàng sử dụng và quản lý các chức năng của phần mềm

Trong bối cảnh phát triển nhanh chóng của công nghệ thông tin, ứng dụng desktop vẫn giữ vai trò quantrọng trong nhiều lĩnh vực, bao gồm trí tuệ nhân tạo (AI) và khoa học dữ liệu (Data Science) Các ứng dụng này không chỉ hỗ trợ trong việc xử lý và phân tích dữ liệu mà còn giúp triển khai và sử dụng các

mô hình AI một cách dễ dàng và hiệu quả

1.4.2 Ứng dụng desktop trong lĩnh vực trí tuệ nhân tạo và khoa học dữ liệu

 Trí tuệ nhân tạo (AI):

o AI bao gồm các công nghệ và kỹ thuật giúp máy tính thực hiện các nhiệm vụ thông minh như học máy (machine learning), xử lý ngôn ngữ tự nhiên (NLP), nhận dạng hình ảnh, và nhiều ứng dụng khác

o Các ứng dụng desktop trong AI giúp triển khai các mô hình học máy, cho phép người dùng tải lên dữ liệu, xử lý dữ liệu, và nhận kết quả phân tích một cách trực quan và dễ

sử dụng

o Ví dụ: Ứng dụng chẩn đoán bệnh từ ảnh y tế, ứng dụng phân tích dữ liệu tài chính, ứng dụng xử lý hình ảnh và video

 Khoa học dữ liệu (Data Science):

o Khoa học dữ liệu liên quan đến việc thu thập, xử lý, phân tích và diễn giải dữ liệu để trích xuất thông tin hữu ích và hỗ trợ quyết định

o Các ứng dụng desktop trong khoa học dữ liệu cung cấp các công cụ và giao diện để làm việc với dữ liệu lớn, từ việc tiền xử lý, trực quan hóa dữ liệu đến xây dựng và triển khai các mô hình phân tích

o Ví dụ: Ứng dụng phân tích dữ liệu thị trường, ứng dụng dự báo doanh số bán hàng, ứng dụng phân tích dữ liệu khảo sát

1.4.3 Công cụ và ngôn ngữ lập trình sử dụng

Trang 11

 Python:

o Python là ngôn ngữ lập trình phổ biến trong lĩnh vực AI và khoa học dữ liệu do cú pháp

dễ đọc, dễ học và có một hệ sinh thái thư viện phong phú

o Phiên bản Python 3.12 cung cấp nhiều cải tiến về hiệu năng và tính năng, hỗ trợ tốt cho việc phát triển các ứng dụng desktop trong lĩnh vực AI và khoa học dữ liệu

o Dữ liệu quang được sử dụng trong đồ án này được lấy từ Kaggle, bao gồm các ảnh quang của bệnh nhân mắc COVID-19, viêm phổi do virus và ảnh X-quang bình thường

X-Bộ dữ liệu này đã được cộng đồng kiểm chứng và đánh giá, đảm bảo chất lượng và độ tin cậy

o Việc sử dụng dữ liệu từ Kaggle giúp đảm bảo rằng tập dữ liệu được sử dụng là đa dạng

và phong phú, hỗ trợ tốt cho việc huấn luyện và đánh giá mô hình

1.4.4 Vai trò của ứng dụng desktop trong AI và khoa học dữ liệu

 Dễ sử dụng và tương tác: Ứng dụng desktop cung cấp giao diện người dùng đồ họa, giúp

người dùng dễ dàng tương tác với các mô hình và dữ liệu mà không cần kiến thức sâu về lập trình

 Tích hợp mạnh mẽ: Các ứng dụng desktop có thể tích hợp nhiều chức năng và công cụ khác

nhau, từ xử lý dữ liệu, trực quan hóa đến triển khai mô hình học máy, tạo nên một giải pháp toàn diện cho người dùng

 Hiệu năng cao: Ứng dụng desktop có thể tối ưu hóa tài nguyên của máy tính cá nhân, giúp xử

lý các tác vụ nặng như huấn luyện mô hình AI và phân tích dữ liệu lớn một cách hiệu quả

 Bảo mật và quản lý dữ liệu: Ứng dụng desktop giúp quản lý và bảo mật dữ liệu tốt hơn so với

các ứng dụng web, đặc biệt quan trọng trong các lĩnh vực yêu cầu bảo mật cao như y tế và tài chính

Tóm lại, ứng dụng desktop trong lĩnh vực trí tuệ nhân tạo và khoa học dữ liệu đóng vai trò quan trọng trong việc giúp người dùng triển khai và sử dụng các mô hình AI một cách hiệu quả và dễ dàng Với sự

hỗ trợ của các công cụ mạnh mẽ như Python, Google Colab và PyCharm, việc phát triển các ứng dụng này trở nên thuận tiện và hiệu quả hơn bao giờ hết Sử dụng dữ liệu từ Kaggle đảm bảo chất lượng và tính khả thi của các dự án AI và khoa học dữ liệu

4o

1.5 Công cụ và ngôn ngữ lập trình sử dụng cho đồ án

Trang 12

Công cụ và ngôn ngữ lập trình được sử dụng cho đồ án nhận diện bệnh COVID-19 từ ảnh X-quang baogồm:

1.5.1 Công cụ

1 Google Colab và PyCharm:

o Google Colab: Sử dụng để thực thi và chạy các đoạn mã Python trực tuyến, hỗ trợ cho việc

huấn luyện mô hình trên nền tảng GPU miễn phí của Google

o PyCharm: Được sử dụng như môi trường phát triển tích hợp (IDE) để phát triển mã nguồn,

debug và quản lý dự án

1.5.2 Ngôn ngữ lập trình

2 Python (Phiên bản 3.12):

o Python là ngôn ngữ lập trình chính được sử dụng trong đồ án

o Phiên bản 3.12 của Python được sử dụng để viết các đoạn mã xử lý dữ liệu, xây dựng mô hình học máy, và thực hiện các thao tác tiền xử lý dữ liệu

1.5.3 Thư viện và Framework

3 Các thư viện chính:

o OpenCV: Sử dụng để xử lý và xử lý ảnh X-quang.

o NumPy và Pandas: Được sử dụng để xử lý dữ liệu và thao tác với mảng số học.

o TensorFlow và Keras: Được sử dụng để xây dựng và huấn luyện mô hình học sâu (deep

learning)

o Matplotlib và Seaborn: Được sử dụng để visualization và trực quan hóa dữ liệu.

Phân tích và Thiết kế hệ thống 1.6 Phân tích yêu cầu dữ liệu

Phân tích yêu cầu dữ liệu là quá trình xem xét các thông tin cơ bản về dữ liệu được sử dụng trong nghiên cứu Dưới đây là các yếu tố cần xem xét:

1 Mục đích sử dụng dữ liệu: Xác định mục đích sử dụng dữ liệu trong nghiên cứu, ví dụ như

nhận diện COVID-19 từ ảnh X-quang

2 Nguồn gốc và tính chất: Xác định nguồn gốc dữ liệu (Kaggle, cơ sở y tế, ) và các đặc điểm

như kích thước ảnh, số lượng mẫu, tỷ lệ các lớp (COVID-19, normal, viral pneumonia)

3 Phương pháp thu thập và tiền xử lý: Mô tả cách thu thập dữ liệu và các bước tiền xử lý như

chuẩn hóa, làm sạch, tăng cường dữ liệu

4 Sự đảm bảo và quản lý dữ liệu: Các biện pháp để đảm bảo chất lượng dữ liệu và tuân thủ các

quy định về bảo mật và quản lý dữ liệu

5 Đánh giá tính phù hợp: Xem xét tính phù hợp của dữ liệu đối với mục đích nghiên cứu.

6 Hạn chế: Những hạn chế của dữ liệu như số lượng mẫu không đủ, độ đa dạng chưa đủ.

Trang 13

Phân tích này giúp đảm bảo rằng dữ liệu được sử dụng là phù hợp và đủ chất lượng cho nghiên cứu nhằm đạt được kết quả mong muốn.

2.1 Mô tả về dữ liệu ảnh X-quang COVID-19

Dữ liệu ảnh X-quang COVID-19 được sử dụng trong nghiên cứu là tập hợp các hình ảnh X-quang thu thập từ nhiều nguồn khác nhau, nhằm phục vụ cho mục đích nhận diện và phân loại các trường hợp COVID-19 Dưới đây là mô tả chi tiết về dữ liệu này:

1 Nguồn gốc: Dữ liệu được thu thập từ nhiều nguồn, bao gồm các cơ sở y tế, nghiên cứu khoa

học, và các nền tảng công khai như Kaggle

2 Số lượng và độ đa dạng: Tập dữ liệu bao gồm tổng cộng 1,506 hình ảnh X-quang, trong đó:

3 Kích thước ảnh: Mỗi ảnh được chuẩn hóa về kích thước 64x64 pixel và có 3 kênh màu (RGB),

phù hợp để đưa vào mô hình học sâu như Convolutional Neural Networks (CNNs)

4 Tiền xử lý: Trước khi sử dụng trong mô hình, dữ liệu đã được tiền xử lý như chuẩn hóa cường

độ pixel, cắt cạnh, và tăng cường dữ liệu (data augmentation) để tăng tính tổng quát và khả năng tổng quát hóa của mô hình

5 Quản lý và bảo mật: Dữ liệu được quản lý và bảo mật theo các tiêu chuẩn quy định, đảm bảo

sự riêng tư và tuân thủ các quy tắc về bảo vệ dữ liệu cá nhân

Mô tả này giúp hiểu rõ về nguồn gốc, đặc điểm và quản lý dữ liệu ảnh X-quang COVID-19, cũng như khả năng áp dụng vào các nghiên cứu và ứng dụng trong thực tế

1.7 Các thao tác tiền xử lý dữ liệu

Các thao tác tiền xử lý dữ liệu trong nghiên cứu nhận diện bệnh COVID-19 từ ảnh X-quang bao gồm các bước chuẩn bị dữ liệu trước khi đưa vào mô hình máy học Dưới đây là một số thao tác tiền xử lý

cơ bản:

1.7.1 Chuẩn bị dữ liệu

 Thu thập dữ liệu: Dữ liệu ảnh X-quang được thu thập từ các nguồn khác nhau như cơ sở y tế,

nghiên cứu khoa học, hoặc các bộ dữ liệu công khai như Kaggle

 Phân loại và gán nhãn: Các ảnh được phân loại vào các nhóm như COVID-19, viral

pneumonia và normal, và mỗi ảnh được gán nhãn tương ứng

1.7.2 Tiền xử lý dữ liệu

Trang 14

 Đọc và xử lý ảnh: Sử dụng thư viện OpenCV (Open Source Computer Vision Library) để đọc

và xử lý ảnh từ định dạng gốc sang dạng mà mô hình có thể sử dụng được (ví dụ: RGB)

 Chuẩn hóa dữ liệu: Đảm bảo rằng các giá trị pixel trong ảnh được chuẩn hóa về khoảng giá trị

phù hợp, thường từ 0 đến 1 hoặc -1 đến 1 để dễ dàng học và làm việc với mô hình

 Resize ảnh: Đưa các ảnh về cùng kích thước, ví dụ như 64x64 pixel, để đơn giản hóa việc xử lý

và tiết kiệm tài nguyên tính toán

 Data Augmentation (Tăng cường dữ liệu): Áp dụng các kỹ thuật như xoay, dịch chuyển, lật

ảnh, thay đổi tỷ lệ (scale), để tăng số lượng mẫu huấn luyện và cải thiện khả năng tổng quát hóacủa mô hình

 Xáo trộn dữ liệu: Xáo trộn thứ tự các mẫu dữ liệu trước khi đưa vào mô hình để tránh việc mô

hình học theo thứ tự và có thể gây overfitting

1.7.3 Bảo mật và quản lý dữ liệu

 Quản lý dữ liệu: Đảm bảo các dữ liệu được quản lý, lưu trữ và truy cập một cách bảo mật, tuân

thủ các quy định về bảo vệ dữ liệu cá nhân

 Đánh giá và kiểm tra: Đảm bảo dữ liệu được kiểm tra và đánh giá chất lượng trước khi sử

dụng vào huấn luyện mô hình, bao gồm kiểm tra tính đầy đủ, sự thích hợp và tính nhất quán.Các thao tác tiền xử lý dữ liệu này giúp chuẩn bị dữ liệu tốt hơn cho quá trình huấn luyện và đánh giá

mô hình nhận diện bệnh COVID-19 từ ảnh X-quang, đồng thời cải thiện hiệu quả và độ chính xác của

mô hình

Xây dựng ứng dụng 1.8 Tiến trình xử lý và phân loại ảnh X-quang COVID-19

Trong đồ án "Nhận diện bệnh COVID-19 thông qua ảnh chụp X-quang", tiến trình xử lý và phân loại ảnh X-quang COVID-19 bao gồm các bước sau:

 Tải xuống dữ liệu:

o Dữ liệu được tải xuống từ Kaggle và tổ chức thành các thư mục riêng biệt cho từng loại ảnh, tạo điều kiện thuận lợi cho việc xử lý và phân loại

1.8.2 Xử lý dữ liệu

 Đọc và hiển thị ảnh:

o Sử dụng các thư viện như OpenCV và matplotlib để đọc và hiển thị ảnh, giúp kiểm tra chất lượng và tính nhất quán của dữ liệu

Tiêu đề	Đồ Án Chuyên Ngành 2 (Ad) Xây Dựng Hệ Thống Dự Đoán Giá Nhà
Tác giả	Lê Huy Vũ, Trần Sinh Nhật, Nguyễn Lê Thanh Ba
Người hướng dẫn	GVHD: Lê Tân
Trường học	Trường Đại Học Công Nghệ Thông Tin Và Truyền Thông Việt – Hàn
Chuyên ngành	Khoa Khoa Học Máy Tính
Thể loại	đồ án
Năm xuất bản	2024
Thành phố	Đà Nẵng

Định dạng
Số trang	28
Dung lượng	1,26 MB