1. Trang chủ
  2. » Tất cả

Dự báo và phân tích cơ sở dữ liệu về bệnh ung thư phổi dựa trên tỷ lệ giới tính

47 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 47
Dung lượng 1,69 MB

Nội dung

lOMoARcPSD|18034504 BỘ GIÁO DỤC & ĐÀO TẠO ĐẠI HỌC UEH TRƯỜNG KINH DOANH BÁO CÁO ĐỒ ÁN HỌC PHẦN MÔN HỌC: KHOA HỌC DỮ LIỆU ĐỀ TÀI: DỰ BÁO VÀ PHÂN TÍCH CƠ SỞ DỮ LIỆU VỀ BỆNH UNG THƯ PHỔI DỰA TRÊN TỶ LỆ GIỚI TÍNH Giảng viên giảng dạy: Nguyễn Văn Hồ Mã lớp HP: 22C1INF50905964 Nhóm sinh viên thực hiện: Văn Dương Hoài Anh Phạm Thị Quế Phương Huỳnh Hoa Thảo Lưu Xuân Vũ Phan Trần Như Ý Tháng 12 năm 2022 MSSV: 31211023942 MSSV: 31211025448 MSSV: 31211020721 MSSV: 31211026608 MSSV: 31211025489 lOMoARcPSD|18034504 MỤC LỤC DANH MỤC HÌNH ẢNH DANH MỤC BẢNG .5 DANH MỤC BIỂU ĐỒ CHƯƠNG TỔNG QUAN ĐỀ TÀI 1.1 Lý chọn đề tài 1.1.1 Khái quát ung thư phổi 1.1.2 Tình trạng ung thư phổi .7 1.2 Mục tiêu đề tài .7 1.3 Đối tượng phạm vi nghiên cứu đề tài 1.3.1 Đối tượng nghiên cứu 1.3.2 Phạm vi nghiên cứu đề tài .8 1.3.2.1 Phạm vi không gian 1.3.2.2 Phạm vi nội dung .8 1.4 Công cụ sử dụng 1.5 Ý nghĩa nghiên cứu 1.6 Cấu trúc đề tài CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 10 2.1 Tổng quan khoa học liệu: 10 2.2 Lợi ích Khoa học liệu kinh doanh quản lý: 10 2.3 Quy trình thực dự án Khoa học liệu 11 2.4 Lý thuyết phương pháp phân tích liệu 14 2.4.1 Lý thuyết phần mềm Orange 14 2.4.1.1 Khái niệm 14 2.4.1.2 Chức .14 lOMoARcPSD|18034504 2.4.2 Tổng quan phương pháp .15 2.4.2.1 Tiền xử lí liệu 15 2.4.2.2 Tích hợp liệu .15 2.4.2.3 Chuyển đổi liệu 16 2.4.2.4 Rút gọn liệu 16 2.4.3 Tổng quan toán phân lớp liệu 17 2.4.3.1 Định nghĩa 17 2.4.3.2 Các mơ hình phân lớp liệu 17 CHƯƠNG PHÂN TÍCH YÊU CẦU NGƯỜI DÙNG VÀ MÔ TẢ DỮ LIỆU 23 3.1 Xác định phân tích yêu cầu người dùng 23 3.2 Tổng quan sở liệu nguồn .23 3.2.1 Tiền xử lý liệu 23 3.2.2 Mô tả liệu nguồn .24 CHƯƠNG PHÂN TÍCH DỮ LIỆU VÀ KẾT QUẢ .32 4.1 Giới thiệu giải pháp quy trình thực 32 4.1.1 Phân lớp liệu 32 4.1.2 Quy trình thực 35 4.1.3 Dự báo 42 4.2 Thảo luận đánh giá kết phân tích đề xuất hỗ trợ định 44 CHƯƠNG KẾT LUẬN 45 5.1 Kết đạt 45 5.2 Hạn chế 45 5.3 Hướng phát triển đề tài 45 TÀI LIỆU THAM KHẢO 47 lOMoARcPSD|18034504 DANH MỤC HÌNH Ả Hình 2.1 Ví dụ minh họa mơ hình Logistic Regression 18 Hình 2.2 Ví dụ minh họa Decision Tree 18 Hình 2.3 Ví dụ mơ hình SVM 19 Hình 2.4 Ví dụ cấu trúc mơ hình Neural Network 20 Hình 2.5 Ví dụ minh họa ROC 21 Hình 2.6 Ví dụ minh họa AUC 21Y Hình 3.1 Các bước tiến hành xử lý liệu 23 Hình 3.2 Nạp liệu Lung cancer vào file 24 Hình 3.3 Quan sát liệu xử lý table Hình 4.1 Quá trình phân lớp liệu 32 Hình 4.2 Lấy mẫu từ liệu 33 Hình 4.3 Mẫu liệu thử nghiệm 30% 33 Hình 4.4 Lấy mẫu từ liệu 34 Hình 4.5 Mẫu liệu thử nghiệm 70% 34 Hình 4.6 Mơ hình lấy mẫu liệu 35 Hình 4.7 Chọn tập liệu huấn luyện 35 Hình 4.8 Mơ hình thuật tốn 36 Hình 4.9 Kết chia mẫu liệu thành phần .36 Hình 4.10 Kết chia liệu thành 10 phần 37 Hình 4.11 Kết chia mẫu liệu thành 50 - 90% 37 Hình 4.12 Kết chia mẫu liệu thành 20 - 70% 38 Hình 4.13 Kết chia liệu thành 50 - 66% 38 Hình 4.14 Kết ma trận nhầm lẫn phương pháp hồi quy Logistic 39 Hình 4.15 Kết ma trận nhầm lẫn phương pháp SVM 39 Hình 4.16 Kết ma trận nhầm lẫn phương pháp định (%) 40 lOMoARcPSD|18034504 Hình 4.17 Kết ma trận nhầm lẫn phương pháp định 40 Hình 4.18 Kết phân tích ROC biến (“Nam”) 41 Hình 4.19 Kết phân tích ROC biến “Nữ” 41 Hình 4.20 Đánh giá mơ hình phân lớp liệu 42 Hình 4.21 Dữ liệu thử nghiệm Data.xlsx 43 Hình 4.22 Kết dự báo table 43 DANH MỤC BẢNG Bảng 3.1 Nguyên nhân dự toán khác dẫn đến bệnh ung thư phổi .31 DANH MỤC BIỂU ĐỒ Biểu đồ 3.1 Biểu đồ thống kê độ tuổi 26 Biểu đồ 3.2 Biểu đồ thống kê giới tính .27 Biểu đồ 3.3 Biểu đồ thể mức độ nhiễm khơng khí 27 Biểu đồ 3.4 Biểu đồ thể mức độ sử dụng rượu bệnh nhân 28 Biểu đồ 3.5 Biểu đồ thể mức độ dị ứng bụi bệnh nhân 28 Biểu đồ 3.6 Biểu đồ thể mức độ rủi ro nghề nghiệp bệnh nhân 29 Biểu đồ 3.7 Biểu đồ thể mức độ hút thuốc bệnh nhân 29 Biểu đồ 3.8 Biểu đồ thể mức độ hút thuốc tự động bệnh nhân 30 lOMoARcPSD|18034504 Bảng phân công thành viên STT Họ tên Mức độ hoàn thành Văn Dương Hoài Anh 100% Phạm Thị Quế Phương 100% Huỳnh Hoa Thảo 100% Lưu Xuân Vũ 100% Phan Trần Như Ý 100% Xác nhận lOMoARcPSD|18034504 CHƯƠNG TỔNG QUAN ĐỀ TÀI 1.1 Lý chọn đề tài 1.1.1 Khái quát ung thư phổi Ung thư phổi khối u hình thành từ mô tế bào phổi, khối ung thư phổi chèn ép ống khí dây thần kinh gây cản trở lưu thông luồng khơng khí Căn bệnh ngun nhân gây tử vong hàng đầu loại bệnh ung thư nam nữ Tuy nhiên bệnh phịng ngừa thay đổi lối sống, phát sớm tiến hành điều trị thu kết khả quan 1.1.2 Tình trạng ung thư phổi Cùng với phát triển vượt bậc khoa học công nghệ đại đặc biệt lĩnh vực sinh học phân tử làm cho y học trải qua trình phát triển tiến bộ, nhiều bệnh kiểm soát dễ dàng nhờ hỗ trợ máy móc, thiết bị đại Tuy nhiên tỷ lệ tử vong người mắc bệnh ung thư cao, dựa số liệu từ cơng trình nghiên cứu Cơ quan Quốc tế Nghiên cứu ung thư (IARC) thuộc Tổ chức Y Tế Thế giới (WHO) tiến hành 185 quốc gia giới cho biết có 14,1 triệu ca mắc 8,2 triệu người tử vong ung thư vào năm 2012 khảo sát gần Ước tính người có người phát triển bệnh ung thư suốt đời, trung bình nam giới có người chết bệnh này, số nữ giới 11 Trong báo cáo khác WHO đề cập đến ung thư phổi bệnh có tỷ lệ mắc cao (ung thư phổi, ung thư vú, ung thư trực tràng) thuộc top bệnh ung thư dẫn đến tử vong Tỷ lệ tử vong ung thư phổi chiếm tỷ 18,4% trường hợp tử vong ung thư năm 2018 Ung Thư phổi nguyên nhân gây gây tử vong hàng đầu loại ung thư nam nữ Qua thấy nguy hiểm ung thư phổi người mắc phải cao, để phòng ngừa phát sớm bệnh đòi hỏi người phải cung cấp đầy đủ kiến thức phòng, chống ung thư phổi Mà hiểu nguyên nhân dẫn đến bệnh phương pháp để phòng tránh bệnh 1.2 Mục tiêu đề tài Đề tài nhóm chọn “Dự báo phân tích sở liệu bệnh ung thư phổi dựa tỷ lệ giới tính” với mục tiêu từ bảng liệu nguyên nhân dẫn đến ung thư phổi nam nữ, áp dụng mơ hình phân tích liệu để đưa số liệu khách quan nguyên nhân chủ yếu dẫn đến ung thư phổi giới Dựa vào kết phân tích để xác định yếu tố dẫn đến nguy ung thư phổi chủ yếu nam, nữ tỷ lệ mắc bệnh ung thư phổi, từ đưa phương pháp phòng tránh hiệu cho bệnh nhân ung thư phổi 1.3 Đối tượng phạm vi nghiên cứu đề tài 1.3.1 Đối tượng nghiên cứu: lOMoARcPSD|18034504 Đối tượng nghiên cứu bệnh nhân ung thư phổi theo dõi giám sát khoảng thời gian trung bình sáu năm Những người tham gia chia thành nhóm: người sống mơi trường có mức nhiễm khơng khí cao người sống mơi trường có mức nhiễm khơng khí thấp 1.3.2 Phạm vi nghiên cứu đề tài 1.3.2.1 Phạm vi không gian Đề tài tập trung nghiên cứu yếu tố nguy gây ung thư phổi đối tượng sống mơi trường có mức nhiễm khơng khí cao ngược lại Trung Quốc 1.3.2.2 Phạm vi nội dung Phần lớn đề tài phân tích yếu tố nguy gây ung thư phổi từ dự đốn khả bệnh nhân mắc ung thư phổi 1.4 Cơng cụ sử dụng Nhóm sử dụng phần mềm Orange để phân tích đề tài nguyên nhân dẫn đến ung thư phổi Dựa liệu lấy từ datasets tuổi, giới tính, mức nhiễm khơng khí, mức sử dụng rượu, mức độ dị ứng bụi, nguy hiểm nghề nghiệp, rủi ro di truyền, bệnh phổi mãn tính, chế độ ăn uống cân bằng, mức độ béo phì, tình trạng hút thuốc chủ động thụ động bệnh nhân khảo sát từ áp dụng thuật tốn phương pháp thích hợp tốt để áp dụng vào mơ hình phân tích 1.5 Ý nghĩa nghiên cứu Đến nay, ung thư phổi số bệnh ung thư phổ biến nhất, tỷ lệ mắc bệnh tỷ lệ tử vong cao Do việc tầm sốt nguy cơ, nguyên nhân dẫn đến ung thư vấn đề thiết yếu quan trọng Biết nguyên nhân gây ung thư phổi giúp người điều chỉnh thói quen lối sống nhằm giảm thiểu nguy mắc bệnh lý hô hấp Báo động cho người nằm nhóm đối tượng nguy trên, khám sức khỏe tổng quát tầm soát ung thư phổi định kỳ để phát điều trị kịp thời bệnh lý phổi ung thư phổi Giảm thiểu tỷ lệ tử vong bệnh ung thư gây Thông qua nghiên cứu, nhóm chúng em đưa tới người thông tin nguyên nhân gây ung thư phổi Từ giúp phát vấn đề ung thư phổi phòng tránh cách tốt 1.6 Cấu trúc đề tài Bao gồm chương: Chương 1: Tổng quan đề tài Chương 2: Cơ sở lý thuyết Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Chương 3: Phân tích yêu cầu người dùng mơ tả liệu Chương 4: Phân tích liệu kết Chương 5: Kết luận Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Tổng quan khoa học liệu: Khoa học liệu (Data Science) lĩnh vực thuộc khoa học có nhiệm vụ quản trị phân tích liệu để tìm kiến thức, hiểu biết, tri thức định để từ đưa hành động cách hợp lí hiệu Là lĩnh vực nghiên cứu có ý nghĩa quan trọng lĩnh vực sống đặc biệt kinh doanh quản lý Việc phân tích khoa học liệu hỗ trợ bạn việc thực khảo sát, đặt câu hỏi, phân tích kết kết thu trả lời câu hỏi đặt ví dụ điều xảy ra, ngun nhân từ đâu, điều xảy tương lai có ảnh hưởng phải làm gì, làm để từ đưa định hành động phù hợp Đây mục tiêu ngành Khoa học liệu - Khoa học liệu bao gồm ba phần là: tạo quản trị liệu, phân tích liệu phân tích thành giá trị hành động Việc phân tích dùng liệu dựa ba nguồn tri thức gồm: toán học (thống kê toán học), tri thức lĩnh vực ứng dụng cụ thể công nghệ thông tin (máy học) - Khoa học liệu mang nhiệm vụ chính: + Một là, thu thập liệu để tìm kết thật sâu sắc có giá trị; + Hai là, giải thích trình bày kết thật có giá trị để chuyển hóa giá trị thành hành động áp dụng nhiều lĩnh vực sống - Khoa học liệu tập hợp đa dạng lĩnh vực khác hay nói phương thức tiếp cận đa ngành Một số lĩnh vực khoa học liệu nói đến là: Khai thác liệu (Data Mining), thống kê (Statistic), học máy (machine learning), học sâu (deep learning), phân tích (analyze), lập trình (programming) 2.2 Lợi ích Khoa học liệu kinh doanh quản lý: - Cuộc cách mạng công nghiệp lần thứ IV với xu hướng cơng nghệ số trí tuệ nhân tạo làm cho sống ngày tiến đại Vì thế, ngành Khoa học liệu có vai trị quan trọng sử dụng rộng rãi hầu hết lĩnh vực sống Chúng ta kể đến số lĩnh vực tiêu biểu như: + Ứng dụng ngành y tế: Từ lúc có xuất khoa học liệu, ngành y tế nói chung chăm sóc sức khỏe nói riêng có bước phát triển quan trọng Và nhiều nhà nghiên cứu khoa học tập trung vào lĩnh vực đặc biệt giai đoạn dịch bệnh Covid-19 phức tạp vừa qua Họ phân tích hình ảnh y khoa dựa hình ảnh, hoạt động virus để xem cách thức hoạt động để xác 10 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 4.2 Lấy mẫu từ liệu Hình 4.3 Mẫu liệu thử nghiệm 30% Kết tập liệu sau lấy 30% có 300 mẫu liệu, 12 biến không tồn liệu bị lỗi · Tiếp tục sử dụng Data Sampler để thực lấy mẫu liệu · Lấy 70% mẫu liệu từ file liệu xử lý tiền liệu trước Chọn Save Data (1) để lưu liệu file DuLieuThuNghiem_70.xls 33 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 4.4 Lấy mẫu từ liệu Hình 4.5 Mẫu liệu thử nghiệm 70% · Kết tập liệu sau lấy mẫu có 700 mẫu liệu, 12 biến khơng tồn liệu bị lỗi 34 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 4.6 Mơ hình lấy mẫu liệu 4.1.2 Quy trình thực Do liệu sau lấy mẫu đạt chuẩn, không xuất liệu lỗi nên bước bỏ qua mô hình tiền xử lý liệu Sử dụng cơng cụ Test and Score để so sánh, đánh giá thuật toán nhằm lựa chọn thuật toán tốt với độ xác cao phục vụ cho việc dự báo Sử dụng Lung cancer.xlsx tập huấn luyện, chọn biến “Gender” làm biến mục tiêu “Target” Hình 4.7 Chọn tập liệu huấn luyện 35 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 4.8 Mơ hình thuật tốn Tại bảng Test and Score, chọn tỷ lệ để lấy mẫu Sử dụng công cụ Cross Validation Random Sampling để thu số đẹp Chọn tỷ lệ lấy mẫu Cross Validation Hình 4.9 Kết chia mẫu liệu thành phần 36 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 4.10 Kết chia liệu thành 10 phần Hình 4.11 Kết chia mẫu liệu thành 50 - 90% 37 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 4.12 Kết chia mẫu liệu thành 20 - 70% Hình 4.13 Kết chia liệu thành 50 - 66% Nhận xét: Evaluation results cho ta biết kết định lượng mơ hình Hồi quy Logistic (Logistic regression), Cây định (Decision Tree), SVM (Support Vector Machines) giá trị cao Khi xem xét số từ việc lựa chọn lấy mẫu ngẫu nhiên qua trường hợp ta thấy mơ hình Cây định (Decision Tree) trường hợp chia lấy mẫu liệu theo kiểu Random Sampling với Tính xác (CA): 0,903 Giá trị trung bình điều hịa (F1):0.903 38 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Độ xác (Precision): 0,903 Độ phủ (Recall): 0.903 Diện tích đường cong (AUC) là: 0,913 đạt số liệu tốt trường hợp khác nêu Ma trận nhầm lẫn (Confusion Matrix) Hình 4.14 Kết ma trận nhầm lẫn phương pháp hồi quy Logistic Hình 4.15 Kết ma trận nhầm lẫn phương pháp SVM 39 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 4.16 Kết ma trận nhầm lẫn phương pháp định (%) Hình 4.17 Kết ma trận nhầm lẫn phương pháp định Độ xác tổng thể = TP / (TP + FP) = 1268 / (1268 + 132) = 0,906 Độ nhạy = TP / (TP + FN) = 1268 / (1268 + 807) = 0,61 Nhận xét: Kết phân tích từ ma trận nhầm lẫn (Confusion Matrix) số cần quan sát sai lầm loại sai lầm loại Mơ hình đánh giá tốt mơ hình có tỷ lệ sai lầm loại sai lầm loại thấp Dựa vào kết ma trận nhầm lẫn thấy mơ hình định (Decision Tree) mơ hình có tỷ lệ sai lầm nhỏ với tỷ lệ sai lầm loại 14,1% tỷ lệ sai lầm loại 12,0% Do phương pháp định (Decision Tree) phù hợp ROC Analysis: 40 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 4.18 Kết phân tích ROC biến (“Nam”) Hình 4.19 Kết phân tích ROC biến “Nữ” Nhận xét: Một mơ hình ROC đánh giá hiệu có FPR cao TPR thấp, hay có đường cong ROC tiệm cận với điểm (0;1) đồ thị mơ hình hiệu Nhìn vào kết mơ hình ROC ta thấy mơ hình định (Decision Tree) có đường cong ROC tiệm cận với điểm (0;1) nên mơ hình hiệu Kết luận: Phương pháp định (Decision Tree) phương pháp hiệu Giải thích: 41 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Phương pháp có diện tích phần nằm đường cong ROC lớn nhất, nói cách khác có mơ hình tốt Phương pháp có CA (Accuracy) lớn hay có tính xác cao nhất; Là phương pháp có tỷ lệ sai lầm loại nhỏ Là phương pháp hiệu có đường cong ROC tiệm cận với điểm (0;1) Hình 4.20 Đánh giá mơ hình phân lớp liệu 4.1.3 Dự báo Dựa vào kết mơ hình phân tích liệu đánh giá hiệu mơ hình phân lớp thấy mơ hình Cây định (Decision Tree) mơ hình đạt hiệu cao Từ lựa chọn mơ hình để dự báo nguyên nhân chủ yếu gây ung thư phổi nam nữ Sử dụng liệu Data.xlsx làm tập liệu thử nghiệm sau cho nghiên cứu dự báo 42 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 4.21 Dữ liệu thử nghiệm Data.xlsx Sau sử dụng cơng cụ Predictions để dự báo kết theo phương pháp Cây định (Decision Tree) Kết dự báo Hình 4.22 Kết dự báo table 43 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 4.2 Thảo luận đánh giá kết phân tích đề xuất hỗ trợ định Để lựa chọn phương pháp tối ưu nhất, nhóm phân tích số Test and Score bên cạnh cịn đồng thời dựa vào ma trận nhầm lẫn: - Trong Test and Score: Theo kết nhận từ bảng Model Comparison by AUC, ta thấy chia liệu thành 10 phần tốt chia liệu thành phần số AUC liệu chia thành 10 phần có kết lớn số AUC liệu chia làm phần Vì theo lý thuyết, mơ hình có số AUC cao mơ hình tốt từ đưa định để chọn mơ hình hiệu tối ưu Và đồng thời theo kết nhận từ bảng Evaluation Result trường hợp chia liệu thành 50-90%, 20-70% 50-66% ta thấy mơ hình chia thành 50-90% mơ hình hiệu số AUC mơ hình cao Và qua ta thấy phương pháp định (Tree) phù hợp số AUC, CA, F1, Precision Recall phương pháp Tree trường hợp cho kết cao so với số tương ứng hai phương pháp lại SVM Logistic Regression Mà số cao mơ hình phân tích tốt - Trong ma trận nhầm lẫn (Confusion Matrix): phương pháp cho tỷ lệ sai lầm nhỏ phương pháp tối ưu Dựa vào đó, ta thấy phương pháp định (Tree) phù hợp + Ở phương pháp định (Tree): có tỷ lệ sai lầm loại 14,1% tỷ lệ sai lầm loại 12,0% + Ở phương pháp SVM: có tỷ lệ sai lầm loại 45,4% tỷ lệ sai lầm loại 26,9% + Ở phương pháp hồi quy logistic (Logistic Regression): có tỷ lệ sai lầm loại 39% tỷ lệ sai lầm loại 31,3% Từ số cho ta thấy phương pháp phù hợp hiệu định (Tree) Kết dự báo từ 30% liệu ngẫu nhiên từ tệp liệu ban đầu cho thấy tỷ lệ nam giới có tỷ lệ mắc bệnh ung thư (57,3%) cao so với nữ giới ( 42,7%) Nguyên nhân tỷ lệ hút thuốc lá, mức sử dụng rượu nam giới cao so với nữ giới nhiên tỷ lệ chênh lệch không lớn mức sử dụng rượu hút thuốc nữ có xu hướng tăng 44 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 CHƯƠNG KẾT LUẬN 5.1 Kết đạt Để thực mơ hình phân lớp sau phân tích phương pháp khác nhau, nhóm chúng em định chọn phương pháp định (Tree) phương pháp thích hợp tối ưu với độ xác 91% tỷ lệ sai lầm loại 13,6% tỷ lệ sai lầm loại 11,4% Và nhóm hồn thành mục tiêu ban đầu nhóm đề phân tích liệu nguyên nhân dẫn đến bệnh ung thư phổi dự đoán tỉ lệ mắc bệnh theo giới tính dựa liệu để từ có điều chỉnh lối sống biện pháp ngăn chặn hiệu 5.2 Hạn chế Hạn chế đề tài chọn liệu thu thập từ nơi có mức độ nhiễm mơi trường cao thấp Trung Quốc nên bỏ qua số vấn đề như: Bức xạ (từ bom nguyên tử, xạ trị, xét nghiệm chẩn đốn hình ảnh (chụp CT, Radon) bị nhiễm phóng xạ sau vụ nổ bom nguyên tử, điều trị bệnh phương pháp xạ trị (xạ trị sử dụng tia X tia Gamma xạ khác), người chụp CT tiếp xúc với chất xạ nhỏ chụp nhiều lần có nguy dẫn đến ung thư, khí phóng xạ sinh từ phân hủy Uranium đá đất Radon gây tổn thương ADN phát triển thành ung thư phổi người sống tầng hầm, mơi trường làm việc lịng đất lâu ngày 5.3 Hướng phát triển đề tài Ung thư phổi vấn đề nan giải bệnh biết đến có tỷ lệ tử vong hàng đầu, dễ dàng mắc bệnh khơng có hiểu biết định nguyên nhân dẫn đến ung thư biện pháp phòng, tránh cần cần thiết Từ kết thu thập dự đoán nguyên nhân chủ yếu dẫn đến bệnh ung thư phổi, từ kết áp dụng cho quốc gia, khu vực có đặc điểm khí hậu, mơi trường, tương tự Trung Quốc Thấy tác nhân dẫn đến ung thư phổi xuất với mật độ cao xung quanh ta từ việc bình thường (như việc ăn uống không sạch, hút thuốc chủ động thụ động, không khám sức khỏe định kỳ, ) Thông qua mô hình này, người đọc nhận định đâu nguyên nhân dẫn đến bệnh, từ phòng, tránh cách thay đổi lối sống lành mạnh hơn, chẳng hạn như:  Đeo đồ bảo hộ lao động cơng việc có tiếp xúc với chất độc hại, môi trường bị ô nhiễm nặng  Khám sức khỏe định kỳ tối thiểu tháng lần để kịp thời phát mầm bệnh vừa mắc phải để kịp thời chữa trị, từ giảm tỷ lệ mắc bệnh nặng tỷ lệ tử vong 45 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504  Đảm bảo có sức khỏe tốt cách phòng bệnh tối ưu nhất, để làm điều cần q trình lâu dài: trì tập thể dục thường xuyên, phần ăn hợp lý, cân chất dinh dưỡng có nguồn gốc từ thức ăn TÀI LIỆU THAM KHẢO (5% thời lượng) EDUSHINE Truy cập ngày 17/12/2022 tại: https://bom.so/apTBHY Craig Stedman (2021) What is data science? The ultimate guide https://www.techtarget.com/searchenterpriseai/definition/data-science 46 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Ths.Bs Minh Thiện(15/03/2022) Ung thư phổi: Nguyên nhân, yếu tố nguy gây bệnh điều trị https://suckhoedoisong.vn/ung-thu-phoi-nguyen-nhan-yeu-to-nguy-co-gay-benh-va-dieutri-169220314210024281.htm TRƯỜNG ĐẠI HỌC CẦN THƠ Truy cập ngày 17/12/2022 tại: https://bom.so/YnoHsH 47 Downloaded by vu ga (vuchinhhp2@gmail.com) ... đến bệnh phương pháp để phòng tránh bệnh 1.2 Mục tiêu đề tài Đề tài nhóm chọn ? ?Dự báo phân tích sở liệu bệnh ung thư phổi dựa tỷ lệ giới tính? ?? với mục tiêu từ bảng liệu nguyên nhân dẫn đến ung thư. .. rõ, dự đoán khả bệnh nhân mắc bệnh, tỉ lệ mắc bệnh nam nữ, xác định đâu nguyên nhân chủ yếu có nguy cao dẫn đến ung thư phổi dựa chúng em dựa vào thông tin từ liệu Trung Quốc bệnh nhân ung thư phổi, ... tính người có người phát triển bệnh ung thư suốt đời, trung bình nam giới có người chết bệnh này, số nữ giới 11 Trong báo cáo khác WHO đề cập đến ung thư phổi bệnh có tỷ lệ mắc cao (ung thư phổi,

Ngày đăng: 23/02/2023, 21:57

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w