Học viện Công nghệ Bưu chính Viễn thông Khoa Công nghệ thông tin 1 o TOT NGHIEP DAI HOC DE TAI PHAN LOAI ANH CHUP X QUANG PHOI TRONG HO TRO CHAN DOAN BENH SU DUNG HOC MAY Sinh viên thực hiện: LÊ TRƯỜNG LONG Mã sinh viên: B17DCAT115 Lớp: E17CN0I1-B Khóa: D17 Giảng viên hướng dẫn: PGS.TS NGUYEN MẠNH HUNG HÀ NỘI - 2021 Học viện Công nghệ Bưu chính Viễn thông Khoa Công nghệ thông tin 1 ĐÈ TÀI PHAN LOẠI ANH CHỤP X QUANG PHOI TRONG HỖ TRỢ CHAN DOAN BỆNH SỬ DỤNG HOC MAY Sinh viên thực hiện: LÊ TRƯỜNG LONG Mã sinh viên: B17DCAT115 Lớp: E17CN01-B Khóa: D17 Giảng viên hướng dẫn: PGS.TS NGUYEN MANH HUNG HÀ NỘI - 2021 Lời cảm ơn Loi cảm ơn Lời đầu tiên, em xin gửi lời cảm ơn chân thành và sâu sắc đến Thay giáo hướng dẫn — PGS.TS Nguyễn Mạnh Hùng - Trưởng Bộ môn Công nghệ phần mềm - Học viện Công nghệ Bưu chính Viễn thông đã tận tình hướng dẫn, chỉ bảo, tạo điều kiện học tập, nghiên cứu dé em có thé hoàn thành khóa luận tốt nghiệp này Điều đặc biệt mà em luôn trân trọng đó là sự nhiệt tình, nhẫn nại dành thời gian hướng dẫn, chỉ bảo, đóng góp, trả lời những thắc mắc và sửa chữa những vấn đề nhỏ nhặt mặc dù công việc của Thầy rất bận rộn Em cũng xin cảm ơn các giảng viên, giáo vụ trong bộ môn Công nghệ phần mềm cũng như hệ đào tạo chất lượng cao - Học viện Công nghê Bưu chính Viễn thông đã quan tâm giúp đỡ và tạo điều kiện tốt nhất cho em trong suốt thời gian học tập tại học viện va thực hiện đô án Cuối cùng em xin gửi lời biết ơn sâu sắc đến bố mẹ, gia đình và bạn bè thân thiết đã luôn ở bên suốt quãng thời gian đại học, là nguồn động viên tinh thần quý giá giúp em có thê hoàn thành được đồ án này Hà Nội, tháng 12 năm 2021 Sinh viên Lê Trường Long Lê Trường Long - B17DCAT115 i Mục lục Mục lục Lời cảm ơn i Muc luc ii Danh muc viết tắt Y Danh mục các bảng biểu vi Danh mục hình vẽ va đồ thị vii Mở đầu 1 Chương 1: Bài toán phân loại hình ảnh x-quang phối 3 1.1 _ Bài toán phân loại hình ảnh x-quang phổi trong hỗ trợ chân đoán bệnh 3 1.2 Các hướng tiếp cận giải quyết bài toán 3 1.2.1 Naive Bayes 4 1.2.2 K lang giéng gan nhat — K Nearest Neighbor 5 1.2.3 _ Cây quyết định - Decision Tree 7 1.2.4 Mang nơ ron tích chap - Convolutional neural network 9 1.3 Dé xuất hướng tiếp cận đồ án 10 1.4 Kết luận chương 12 Chương 2: Phân loại ảnh x-quang bằng mang nơ ron tích chập CNNs 13 2.1 Giới thiệu về CNNs 13 2.1.1 Mạng nơron 13 2.1.2 Mạng nơ-ron tích chập - CNNs 15 2.2 Kién trúc của mang CNNs l6 2.2.1 _ Lớp tính chập - Convolutional layer 16 2.2.2 _ Lớp gộp - Pooling layer 17 2.2.3 Lớp ReLU - ReLU layer 18 2.2.4 Lớp kết nói day đủ - Fully connected layer 19 Lê Trường Long - BI7DCAT115 ii Mục lục 2.3 Qua trình huấn luyện mạng CNNs 19 2.3.1 _ Tiền xử lý và tăng cường dữ liệu 19 2.3.2 Khởi tạo tham số 20 2.3.3 Chính quy hóa cho CNNs 21 2.3.4 Lua chọn trình tối ưu hóa 23 2.4 Mạng no ron VGG 25 2.4.1 Gidi thiéu vé mang VGG 25 2.4.2 Kién trúc mang VGG 26 2.5 Kết luận chương 27 Chương 3: Thử nghiệm và đánh giá 28 3.1 Công cu vả môi trường 28 3.1.1 Kaggle 28 3.1.2 Anaconda 28 3.1.3 — Jupyter Notebook 29 3.1.4 — TensorFlow 30 3.1.5 Môi trường 30 3.2 Các bước xử lý bải toán 31 3.2.1 | Thu thập dữ liệu 31 3.2.2 _ Tiền xử lý và tăng cường dit liệu 32 3.2.3 Xây dựng model huấn luyện 33 3.3 Phương pháp đánh giá model 39 3.3.1 | Phương pháp k-fold cross validation (đánh giá chéo) 39 3.3.2 _ Phương pháp phân tích kết quả model 40 3.4 Kết qua tính toán 42 3.5 _ Chương trình ứng dụng mô hình thu được 42 3.5.1 Môtảứng dụng 42 Lê Trường Long - BI7DCAT115 iii Mục lục 3.5.2 _ Kịch bản chuẩn của ứng dụng 43 3.5.3 — Trình bay ứng dụng 43 3.6 Kết luận chương 46 Kết luận 47 Tài liệu tham khảo 49 Lê Trường Long - B17DCAT115 iv Danh mục viết tắt Danh mục viết tắt 1 AI: Artificial Intelligence 2 ANN: Artificial Neural Network CAD: Computer Aided Detection CNNs: Convolutional Neural Networks DT: Decision Tree FN: False Negative FP: False Positive IDE: Integrated Development Environment KDD: Knowledge Discovery in Databases 10.k-NN: K-Nearest Neighbor 11 MDP: Markov Decision Process 12 ML: Machine Learning 13 NBC: Naive Bayes Classification 14.ReLU: Rectified Linear Units 15.RL: Reinforcement Learning 16.SVM: Support vector machines 17 TN: True Negative 18 TP: True Positive 19 VGG: Visual Geometry Group Lê Trường Long - B17DCAT115 Danh mục các bảng biểu Danh mục các bảng biêu Bang 1-1 So sánh các phương pháp tiếp cận giải quyết bài toán - 11 Bang 2-1 Các cấu hình của mạng VGG .ceeccescsssessesssessessessessessessesssessessessesssessesseeseens 26 Bảng 3-1 Môi trường huấn luyện model 22.+.¿2+.+2.x£+.£x.++£.++.£E+.ez-xez-rx-ezr2xe-es 30 Bảng 3-2 Bảng biểu diễn model CNNSI csssssssessesssesssesssesssessecasecsssssscsseeasecsseseessecs 33 Bang 3-3 Bảng biểu diễn model CNNs2 - 2-5.25.2 S22.EE‡.EEE.EEE.EEE.EEE.EE.EE2.EE2.1e2.Eec.Erk-ee 36 Bang 3-4 Các thông số TP, TN, FP, EN 2-.2 ¿+E.+SE.eEE.#EE.SEE.2EE.EEE.2E2.E 2.12.12.EE.krr.ree40 Bang 3-5 So sánh kết quả của các model 2.©.2 + E+.EE£.2E2.EE+.EE+.EE.ezE.EzE-xer-xer2xer-es42 Lê Trường Long - B17DCAT115 vi Danh mục hình vẽ và đồ thị Danh mục hình vẽ và đồ thị Hình 1-1 Sơ đồ cấu trúc DT ©++++2+k+t2E k2 Erreiee 8 Hình 2-1 Vi dụ về mạng nơ-ron có hai 6p w.scesceccessessssssessesseessessesseessessesseesesssessesseeseens 13 Hình 2-2 Mô hình mạng CNs -.Q H H H H.n.g H H H.ế-t- 15 Hình 2-3 Ba bước đầu cách hoạt động của lớp tích chập . :-¿-s¿-sz5-sz+: 16 Hình 2-4 Bản đồ đặc trưng sau thực hiện phép tính tích chập hoàn chỉnh 17 Hình 2-5 Biểu đồ biểu diễn hàm f(u) = max (0, U) 2 2.52.+E.2+.Ec.£E.e£.xe.re-rs-er2ee-e 18 Hình 2-6 Fully connected layer ccc ceececscceeseeseeceseeeeeeececeseaeeeseeeeeeeeeeesaeeeeaeeeneeeaes 19 Hình 2-7 Bên trai là mạng bình thường bên phải là mạng sau khi Dropout 22 Hình 2-8 Nguyên lý hoạt động của thuật toán học dựa trên Gradient 24 Hình 3-1 Biểu đồ tỷ lệ các loại ảnh trong tập dữ liệu 2.-.2.2.+s.+x.+z.+.ez.xe.rs.sx-ee-e 31 Hình 3-2 Kiến trúc model CNNsl 22.+.¿©2.+2+.£2E.E2E.Et2.EEE.EEE.SEE.SEE.EEE.ker-krs-rkr2rrr-ees 35 Hình 3-3 Kiến trúc model CINNs2 .2:.5£.©S.£+E.E+E.E9E.EEE.EEE.EE2.EEE.EE2.E12.212-212-1 2-1222.-cre.38 Hình 3-4 Hình biểu diễn phương pháp k-fold cross validation . -.: s:-: 39 Hình 3-5 Giao diện chính của Ứng dung -.- .c 1 S H ng k.g 44 Hình 3-6 Người dùng tải ảnh lên webapp - Á.c 1 S H ệ., 44 Hình 3-7 Giao diện đã được tải ảnh lên . . - 2 SE.2.22.22.11.1.11.12.5 E.EEE.ee.ss.sex-ee45 Hình 3-8 Giao điện kẾt quả 2.¿+.+E.+SE.9EE+.EE2.EE2E.E2E.EEEE.EEEE.1E1.1111.211-7121-11-11¿1 -xe,45 Hình 3-9 Thông tin chân đoán từng ảnh .2.-2.2.+.x£.SE+.EE.£EE.£EE.2E.2EE.Ee.rEe.rke.rx-rre-ee 46 Lê Trường Long - B17DCAT115 vii Mở đầu Mo đầu Đại dịch Covid-19 đã cho chúng ta thay rằng ta đang phải đối mặt với van dé thiếu hụt trầm trọng về nguồn nhân lực y tế, do đó chúng ta cần phải có những công cụ máy móc dé có thé giảm tải áp lực cho các bác sĩ và nhân viên y tế Van đề thiếu hụt này đã tồn tại từ trước và các chuyên gia đã tìm các giải pháp dé cải thiện van dé này Cùng với sự bùng nô của thời đại công nghiệp 4.0, cả thế giới đang bước vào thời dai của sự tự động hóa trong tất cả các lĩnh vực cùng với sự tiễn bộ vượt bậc của trí tuệ nhân tạo - AI đã tạo ra một cuộc cách mạng khi mà máy móc đã có thể thay thế con người trong những việc trước đây chỉ có con người mới có thê làm được với độ chính xác cao Do đó chúng ta đã có thể sử dụng máy móc hỗ trợ thay thế cho con người ngay cả trong lĩnh vực y tế - một lĩnh vực đòi hỏi rât cao vê độ chính xác Các bệnh về phổi là một trong những nguyên nhân gây tử vong cao ở một số nước trên thé giới Tuy nhiên nếu được chan đoán sớm và chữa trị kịp thời thì sẽ giảm được mức độ nguy hiểm và tăng tỷ lệ sống sót ở người bệnh Một trong những cách chân đoán bệnh phổ biến và thông dụng nhật đó là sử dung ảnh chụp X quang Tuy nhiên dé chan đoán bệnh dựa trên ảnh chụp X quang đòi hỏi bác sĩ cần có đủ kiến thức cũng như kinh nghiệm dé có thé chan đoán bệnh Nhung bác sĩ cũng là con người nên không thể tránh khỏi việc có những sai sót Do đó nhiều phương pháp Hỗ trợ phát hiện máy tính - Computer Aided Detection (CAD) được đề xuất được đề xuất dé phát hiện nốt phổi nhằm đưa ra ý kiến thứ hai cho các bác sĩ X quang và giúp họ chân đoán chính xác hơn Hệ thống CAD có thê xác định vị trí các chỉ tiết tinh vi có thé rất quan trọng và có thé bị các chuyên gia - con người bỏ sót Bài toán Phân loại ảnh chụp X quang phổi nhằm mục dich ứng dụng trong y tế hỗ trợ các bác sĩ trong việc chân đoán bệnh dựa trên ảnh chụp X quang Đây là nguồn tham khảo giúp tăng độ tin cậy trong việc xác định bệnh Lê Trường Long - B17DCAT115 1