Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 96 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
96
Dung lượng
4,51 MB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƢỜNG ĐẠI HỌC SƢ PHẠM TRẦN VĂN ĐỒNG ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ XÂY DỰNG HỆ THỐNG CHẨN ĐOÁN BỆNH HEN PHẾ QUẢN VÀ VIÊM PHẾ QUẢN CHO TRẺ EM LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Đà Nẵng - Năm 2017 ĐẠI HỌC ĐÀ NẴNG TRƢỜNG ĐẠI HỌC SƢ PHẠM TRẦN VĂN ĐỒNG ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ XÂY DỰNG HỆ THỐNG CHẨN ĐOÁN BỆNH HEN PHẾ QUẢN VÀ VIÊM PHẾ QUẢN CHO TRẺ EM Chuyên ngành Mã số : HỆ THỐNG THÔNG TIN : 61.49.01.04 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Ngƣời hƣớng dẫn khoa học: TS NGUYỄN HOÀNG HẢI Đà Nẵng - Năm 2017 LỜI CAM ĐOAN Tôi xin cam đoan: - Những nội dung luận văn thực hướng dẫn trực tiếp TS Nguyễn Hoàng Hải - Mọi tham khảo dùng luận văn trích dẫn rõ ràng trung thực tên tác giả, tên cơng trình, thời gian địa điểm cơng bố - Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tơi xin chịu hồn toàn trách nhiệm Tác giả luận văn Trần Văn Đồng MỤC LỤC MỞ ĐẦU 1 Lý chọn đề tài Mục tiêu nhiệm vụ nghiên cứu đề tài Đối tƣợng phạm vi nghiên cứu Phƣơng pháp nghiên cứu Kết dự kiến Ý nghĩa khoa học thực tiễn luận văn Bố cục luận văn CHƢƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1.1 Sơ lƣợc khai phá liệu 1.1.2 Quy trình khai phá liệu 1.1.3 Các kỹ thuật khai phá liệu 1.1.4 Ứng dụng khai phá liệu 10 1.2 PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU 12 1.2.1 Phân lớp liệu 12 1.2.2 Quá trình phân lớp liệu 12 1.2.3 Đánh giá độ xác mơ hình phân lớn 15 1.3 KỸ THUẬT KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH 16 1.3.1 Giới thiệu chung 16 1.3.2 Biểu diễn định 17 1.3.3 Các bƣớc xây dựng định 17 1.3.4 Ƣu điểm nhƣợc điểm định 18 1.4 THUẬT TOÁN ID3 19 1.4.1 Giới Thiệu 19 1.4.2 Xây dựng giải thuật 19 1.4.3 Ví dụ thuật toán ID3 21 1.4.4 Nhận xét thuật toán 26 1.5 THUẬT TOÁN C4.5 26 1.5.1 Giới thiệu thuật toán 26 1.5.2 Xây dựng giải thuật 27 1.5.3 Ví dụ thuật tốn C4.5 28 1.5.4 Nhận xét thuật toán 32 KẾT LUẬN CHƢƠNG 36 CHƢƠNG NGHIÊN CỨU VỀ BỆNH HEN PHẾ QUẢN VÀ VIÊM PHẾ QUẢN 37 2.1 ĐẶC ĐIỂM HỆ HÔ HẤP Ở TRẺ EM 37 2.1.1 Đặc điểm giải phẩu 37 2.1.2 Đặc điểm sinh lí 41 2.2 KHÁI NIỆM BỆNH HEN PHẾ QUẢN VÀ VIÊM PHẾ QUẢN 44 2.2.1 Khái niệm bệnh hen phế quản 44 2.2.2 Khái niệm bệnh viêm phế quản 45 2.3 BỆNH NGUYÊN – CƠ CHẾ SINH BỆNH HEN PHẾ QUẢN VÀ VIÊM PHẾ QUẢN 46 2.3.1 Nguyên nhân bệnh hen phế quản 46 2.3.2 Nguyên nhân bệnh viêm phế quản 49 2.3.3 Chẩn đoán bệnh 50 2.4 KHAI PHÁ DỮ LIỆU CÓ CANH TÁC DỮ LIỆU 52 2.4.1 Khái niệm 52 2.4.2 Mục đích phƣơng pháp luận canh tác liệu 53 2.4.3 Vai trò canh tác liệu khám phá tri thức khai phá liệu 53 2.4.4 Lựa chọn áp dụng phƣơng pháp CTDL 54 2.4.5 Phƣơng pháp canh tác liệu đánh giá đặc tính 54 2.5 ỨNG DỤNG CANH TÁC DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU Y KHOA 55 2.5.1 Vai trò điều dƣỡng, bác sĩ canh tác liệu y khoa 55 2.5.2 Ứng dụng canh tác liệu khai phá liệu bệnh HPQ VPQ 56 KẾT LUẬN CHƢƠNG 59 CHƢƠNG XÂY DỰNG HỆ THỐNG CHẨN ĐOÁN BỆNH HEN PHẾ QUẢN VÀ VIÊM PHẾ QUẢN 60 3.1 DỮ LIỆU 60 3.1.1 Thu thập liệu 60 3.1.2 Xử lý liệu-Chuyển đổi liệu 61 3.1.3 Chọn lựa thuật toán ngơn ngữ lập trình để tiến hành khai phá 62 3.2 XÂY DỰNG CHƢƠNG TRÌNH 62 3.2.1 Dữ liệu đầu vào 62 3.2.2 Dữ liệu đầu 62 3.2.3 Các chức chƣơng trình 63 3.2.4 Phân tích u cầu tốn 64 3.3 DEMO CHƢƠNG TRÌNH 67 3.4 KẾT QUẢ ĐẠT ĐƢỢC 70 3.5 SO SÁNH VỚI CÁC ĐỀ TÀI TƢƠNG TỰ 73 KẾT LUẬN CHƢƠNG 75 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 76 TÀI LIỆU THAM KHẢO QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (Bản sao) DANH MỤC CÁC KÝ HIỆU VÀ TỪ VIẾT TẮT Từ viết tắt Ý nghĩa CNTT Công nghệ thông tin CSDL Cơ sở liệu CTDL Canh tác liệu DT Decision Tree (cây định) Gain Information Gain (Gia lƣợng thông tin) HPQ Hen phế quản HSBA Hồ sơ bệnh án KPDL Khai phá liệu VPQ Viêm phế quản DANH MỤC CÁC BẢNG Số hiệu bảng Tên bảng Trang 1.1 Tập liệu ví dụ thuật tốn ID3 21 1.2 Tập liệu ví dụ thuật tốn C4.5 28 1.3 Giá trị gain cho thuộc tính độ ẩm 33 2.1 Chỉ số chức hô hấp (theo Barnett H) 41 3.1 Cơ sở liệu chẩn đoán bệnh 20 bệnh nhân 61 DANH MỤC CÁC HÌNH VẼ Số hiệu Tên hình hình Trang 1.1 Khai phá liệu tập liệu 1.2 Quy trình khám phá tri thức từ sở liệu 1.3 Xây dựng mơ hình phân lớp 13 1.4 Ƣớc lƣợng độ xác 14 1.5 Phân lớp liệu 14 1.6 Ƣớc lƣợng độ xác mơ hình phƣơng pháp 15 holdout 1.7 Cây định cho việc chơi Tennis 16 1.8 Cây định chẩn đoán bệnh thuật toán ID3 25 1.9 Cây định chơi tennis thuật toán C4.5 32 2.1 Bệnh viêm phế quản 45 2.2 Yếu tố thuận lợi gây bệnh hen phế quản 48 3.1 Giấy giới thiệu mƣợn hồ sơ bệnh án nghiên cứu 60 3.2 Biểu đồ ca sử dụng hệ thống 64 3.3 Biểu đồ hoạt động huấn luyện liệu 65 3.4 Biểu đồ hoạt động chẩn đoán bệnh 65 3.5 Biểu đồ cho hoạt động đăng nhập 66 3.6 Biểu đồ cho hoạt động huấn luyện liệu 66 3.7 Biểu đồ cho hoạt động chẩn đốn bệnh 67 3.8 Màn hình đăng nhập vào hệ thống 67 3.9 Màn hình lựa chọn chức 68 3.10 Màn hình huấn luyện liệu 68 Số hiệu hình Tên hình Trang 3.11 Màn hình huấn luyện liệu với giải thuật C4.5 69 3.12 Màn hình chẩn đoán bệnh 69 3.13 Kết huấn luyện liệu hệ thống 71 3.14 Kết chẩn đoán bệnh 73 72 Kết mơ hình định KetLuan = HPQ | KhoKhe = Co | | Dam = Khong | | | NangNguc = Khong | | | | Sot = Co | | | | | NhipTho = Nhanh | | | | | | SoMui = Khong: Co (48.0/8.0) | | | | | | SoMui = Co: Khong (43.0) | | | | | NhipTho = BinhThuong: Co (36.0) | | | | | NhipTho = KhoTho: Co (0.0) | | | | Sot = Khong: Khong (182.0/43.0) | | | NangNguc = Co | | | | NhipTho = Nhanh: Khong (24.0) | | | | NhipTho = BinhThuong: Co (74.0) | | | | NhipTho = KhoTho: Co (37.0) | | Dam = MauXanh: Khong (73.0) | | Dam = MauTrang | | | NhipTho = Nhanh: Co (19.0) | | | NhipTho = BinhThuong: Co (6.0) | | | NhipTho = KhoTho: Khong (48.0) | KhoKhe = Khong: Co (97.0) KetLuan = VPQ | Dam = Khong: Khong (542.0) | Dam = MauXanh | | NhipTho = Nhanh | | | LiBiQuayKhoc = Khong: Khong (206.0) | | | LiBiQuayKhoc = Co | | | | Sot = Co: Khong (74.0) | | | | Sot = Khong | | | | | RutLomLongNguc = Khong: Khong (10.0) | | | | | RutLomLongNguc = Co: Co (32.0) | | NhipTho = BinhThuong: Co (184.0) | | NhipTho = KhoTho: Co (33.0) | Dam = MauTrang: Khong (44.0) Kết chẩn đốn bệnh hệ thống 73 Hình 3.14 Kết chẩn đoán bệnh 3.5 SO SÁNH VỚI CÁC ĐỀ TÀI TƢƠNG TỰ Thời gian qua có nhiều đề tài ứng dụng KPDL để xây dựng hệ thống nhằm chẩn đốn bệnh nhƣ: Hồng Thị Thanh Hiền, ứng dụng khai phá liệu để xây dựng hệ thống chẩn đoán bệnh trầm cảm cho học sinh phổ thông, Đại học Đà Nẵng Trƣơng Minh Văn, ứng dụng khai phá liệu chẩn đoán bệnh sốt xuất huyết, Đại học Lạc Hồng Nguyễn Đức Phong, ứng dụng khai phá liệu xây dựng thống hỗ trợ chẩn đoán bệnh tim mạch, Đại học Đà Nẵng Mục tiêu đề tài nghiên cứu KPDL ứng dụng vào xây dựng hệ thống chẩn đoán bệnh, đạt đƣợc kết khả quan Cịn ứng dụng KPDL vào chẩn đốn bệnh HPQ VPQ cho đối tƣợng trẻ em chƣa có tác giả nghiên cứu Chính tác giả nghiên cứu khai phá liệu, định đặc biệt thuật toán C4.5 để làm sở lý thuyết xây dựng nên hệ thống, với CSDL HSBA Trong luận văn tác giả có sử dụng phƣơng pháp CTDL KPDL y khoa, lựa chọn đặc tính theo kinh nghiệm chuyên gia (y bác sỹ) Luận văn đạt đƣợc độ xác huấn luyện liệu 74 95.64% so với đề tài Hoàng Thanh Hiền 97,23% [4], đề tài Trƣơng Minh Văn 88,88%[9] Luận văn tác giả xây dựng thêm chức huấn luyện liệu tích hợp vào hệ thống làm cho ngƣời sử dụng tiện cần huấn luyện liệu thay phải sử dụng phần mềm weka hay phần mềm khác hỗ trợ 75 KẾT LUẬN CHƢƠNG Trong chƣơng này, luận văn trình bày chức hệ thống, sử dụng thuật toán C4.5 xây dựng kiểm thử hệ thống dựa số liệu cụ thể Hệ thống đáp ứng đầy đủ yêu cầu chuyên môn việc chẩn đốn bệnh cho ngƣời dùng Nó giúp cho ngƣời dùng đặc biệt cán y tế thôn chẩn đốn đƣợc bệnh cách chích xác từ có hƣớng điều trị phù hợp 76 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN CỦA ĐỀ TÀI Kết đạt đƣợc Luận văn trình bày đƣợc sở lý thuyết liên quan đến KPDL, phân lớp liệu, thuật toán định ID3, C4.5, nghiên cứu hai bệnh HPQ VPQ Nghiên cứu đƣợc quy trình triển khai ứng dụng KPDL, ứng dụng thuật toán C4.5 để tạo hệ thống chẩn đoán bệnh Đối với toán chẩn đoán bệnh HPQ VPQ cho trẻ em luận văn xây dựng mô hình chẩn đốn bệnh dựa kỹ thuật định Hệ thống đáp ứng đầy đủ yêu cầu chun mơn việc chẩn đốn bệnh cho ngƣời dùng Nó giúp cho ngƣời dùng đặc biệt cán y tế thơn chẩn đốn đƣợc bệnh cách xác từ có hƣớng điều trị phù hợp Hạn chế luận văn Nhìn chung luận văn hoàn thành mục tiêu đề Tuy nhiên hạn chế sau Số lƣợng mẫu liệu hồ sơ bệnh án chƣa nhiều, cần tiếp tục thu thập liệu hồ sơ bệnh án nhiều Chƣa áp dụng kỹ thuật khai phá liệu khác để so sánh lựa chọn kỹ thuật tối ƣu Hƣớng phát triển đề tài Hệ thống chẩn đoán đƣợc bệnh HPQ VPQ cho đối tƣợng trẻ em Trong thời gian tới tiếp tục thu thập thêm liệu cho đối tƣợng khác từ mở rộng cho hệ thống chẩn đoán đƣợc bệnh HPQ VPQ cho đối tƣợng khác 77 Tiếp tục nghiên cứu thuật toán KPDL định nhƣ thuật toán CHAID, thuật toán MARS, thuật toán ADTNDA (dựa vào độ phụ thuộc thuộc tính) để nâng cao hiệu mơ hình định từ chẩn đốn bệnh cách xác TÀI LIỆU THAM KHẢO Tiếng Việt [1] Chƣơng trình nhiễm khuẩn hơ hấp cấp tính (ARI), "Xử trí nhiễm khuẩn hơ hấp cấp tính trẻ em bệnh viện huyện" Bộ y tế [2] Nguyễn Việt Cồ, Trần Quị (2000), Giáo trình nhiễm khuẩn hơ hấp cấp tính trẻ em, Y học [3] Đại Học Y Dƣợc Thành Phố Hồ Chí Minh (2011), Giáo Trình Nhi Khoa [4] Hồng Thị Thanh Hiền (2016), ứng dụng khai phá liệu để xây dựng hệ thống chẩn đoán bệnh trầm cảm cho học sinh phổ thông, Đại học Đà Nẵng [5] Hồng Kiếm, Đỗ Phúc (2005), Giáo Trình khai phá liệu, Trung tâm nghiên cứu phát triển công nghệ thông tin Đại học Quốc gia TP HCM [6] Tô Thị Minh (2009), Nghiên cứu thực trạng bệnh hen phế quản số Peakflow học sinh tiểu học Trung học sở thành phố Thái Nguyên, Trƣờng Đại học Y Dƣợc Thái Nguyên [7] Lê Thu Phong (2012), Thực trạng phân loại xử lý ban đầu bệnh nhân suy hô hấp cấp Khoa cấp cứu, Đại học Thăng Long [8] Hoàng Trọng Quang (2000), Bài giảng nhi khoa, Nhà xuất Y Học [9] Trƣơng Minh Văn (2012), ứng dụng khai phá liệu chẩn đoán bệnh sốt xuất huyết, Đại học Lạc Hồng Tiếng Nƣớc Ngoài [10] A KusiaK (2001), "Data Farming Methods for Temporal Data Mining" [11] IJCSI International Journal of Computer Science Issues, Vol 9, Issue 5, No3, September 2012, Random Forests and Decision Trees Trang web [12] https://vi.wikipedia.org/wiki/cây_quyết_định [13] https://en.wikipedia.org/wiki/C4.5_algorithm TRANG THÔNG TIN LUẬN VĂN THẠC SĨ Tên đề tài: Ứng dụng khai phá liệu xây dựng hệ thống chẩn đoán bệnh hen phế quản viêm phế quản cho trẻ em Ngành: Hệ thống thông tin Họ tên học viên: Trần Văn Đồng Người hướng dẫn khoa học: TS Nguyễn Hoàng Hải Cơ sở đào tạo: Trường Đại học Sư phạm, Đại học Đà Nẵng Tóm tắt: Luận văn trình bày sở lý thuyết liên quan khai phá liệu, quy trình khai phá liệu, kỹ thuật khai phá định, tổng quan hai bệnh HPQ (hen phế quản) VPQ (viêm phế quản) Trong đặc biệt kỹ thuật khai phá liệu định trình bày chi tiết giải thuật ID3 C4.5 đồng thời nêu điểm cải tiến thuật toán C4.5 so với ID3 Nghiên cứu quy trình triển khai ứng dụng KPDL, tiến hành thu thập, tiền xử lý liệu ứng dụng thuật toán C4.5 để tạo hệ thống chẩn đoán bệnh Đối với toán chẩn đoán bệnh HPQ VPQ cho trẻ em luận văn xây dựng mơ hình chẩn đoán bệnh dựa kỹ thuật định Hệ thống đáp ứng đầy đủ yêu cầu chuyên mơn việc chẩn đốn bệnh cho người dùng Nó giúp cho người dùng đặc biệt cán y tế thơn chẩn đốn bệnh cách chích xác từ có hướng điều trị phù hợp Với trợ giúp máy tính, đề tài đóng góp biện pháp thực hỗ trợ cho người nhà bệnh nhân cán y tế chẩn đoán bệnh cho bệnh nhân Kết quả, kinh nghiệm thu thực đề tài giúp cán y tế phát sớm bệnh cho bệnh nhân, đồng thời mong muốn người công tác lĩnh vực Y học công nghệ thông tin hợp tác lại với để tìm giải pháp tốt vấn đề chẩn đoán điều trị bệnh Chẩn đoán bệnh phát bệnh trình quan trọng Nếu chẩn đoán bệnh sai đưa đến điều trị sai, không phát bệnh cho bệnh nhân Sẽ dẫn đến tổn thất lớn tinh thần lẫn vật chất cho bệnh nhân gia đình họ Việc phát bệnh sớm khả thất bại điều trị giảm giúp bệnh nhân gia đình họ đưa định điều trị thích hợp Vì đề tài giúp cán y tế chẩn đoán phát bệnh sớm để đưa phác đồ điều trị hiệu đồng thời theo dõi, cảnh báo tư vấn giúp bệnh nhân tránh biến chứng nguy hiểm, giảm gánh nặng kinh tế cho gia đình xã hội Hệ thống chẩn đoán bệnh HPQ VPQ cho đối tượng trẻ em Trong thời gian tới tiếp tục thu thập thêm liệu cho đối tượng khác từ mở rộng cho hệ thống chẩn đoán bệnh HPQ VPQ cho đối tượng khác Tiếp tục nghiên cứu thuật toán khai phá liệu khác để nâng cao hiệu mơ hình định từ chẩn đốn bệnh cách xác Xác nhận người hướng dẫn TS Nguyễn Hoàng Hải Người thực đề tài Trần Văn Đồng INFORMATION PAGE OF MASTER THESIS Name of thesis: Data Mining Application for Building Diagnosis System for Bronchial Major: Information Systems Full name of Master student: Tran Van Dong Supervisors: Dr Nguyen Hoang Hai Training institution: Danang Education University, the University of Danang Summary: The thesis presents the theoretical background related to data mining, data mining procedures, decision tree mining techniques, overview of two bronchial asthma and inflammation Bronchial Particularly, the decision tree data mining technique details the algorithms of ID3 and C4.5 and concludes the improvement of algorithm C4.5 versus ID3 Research on the application of data mining, data collection, data reprocessing and application of C4.5 algorithm to develop a disease diagnosis system For the bronchial asthma and inflammation Bronchial diagnostic problems for pediatric children, a diagnostic model was developed based on decision tree technique The system fully meets the professional requirements for diagnosing the user It helps users and especially village health workers diagnose the disease in an accurate way, from which providing an appropriate treatment With the help of a computer, the subject contributes a measure of support to the patient's family and the medical staff to diagnose the patient The results obtained during this research project will help health workers to identify patients early and at the same time expect those working in the field of medicine and information technology to cooperate and to find better solutions to the problem of diagnosis and treatment Diagnosis and detection is a very important process If the diagnosis is inaccurate, it will lead to inaccurate treatment, so no disease is diagnosed for the patient Especially, it will lead to great mental and material losses for patients and their families Early detection of the disease is likely to reduce treatment failure or may help the patient and his family make appropriate treatment decisions Thus, this topic will help health workers diagnose and detect early disease to provide effective treatment regimens while monitoring, warning and counseling to help patients avoid dangerous complications, reduce the economic burden on families and society The system only diagnoses bronchial asthma and inflammation Bronchial for children In the future, we will continue to collect additional data for other subjects, thereby extending our coverage to other bronchial asthma and inflammation Bronchial diagnostic systems Continuing to study other data mining algorithms to improve the efficiency of the decision tree model from which the disease diagnosis is more accurate Supervisor’s confirmation Student Dr Nguyen Hoang Hai Tran Van Dong ... phá liệu ứng dụng vào khai phá liệu y khoa Chƣơng 3: Xây dựng hệ thống chẩn đoán bệnh hen phế quản viêm phế quản cho trẻ em 6 CHƢƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ... chẩn đốn bệnh hen phế quản viêm phế quản trẻ em dựa khai phá liệu Ý nghĩa thực tiễn Việc xây dựng ứng dụng chẩn đoán bệnh hen phế quản viêm phế quản hỗ trợ cho bác sĩ, cha mẹ bé phát đƣợc bệnh. .. VĂN ĐỒNG ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ XÂY DỰNG HỆ THỐNG CHẨN ĐOÁN BỆNH HEN PHẾ QUẢN VÀ VIÊM PHẾ QUẢN CHO TRẺ EM Chuyên ngành Mã số : HỆ THỐNG THÔNG TIN : 61.49.01.04 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG