1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai thác dữ liệu phân lớp bệnh nhân điều trị tại bệnh viện theo mã ICD

75 138 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 75
Dung lượng 3,03 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - LÊ ANH TUẤN KHAI THÁC DỮ LIỆU PHÂN LỚP BỆNH NHÂN ĐIỀU TRỊ TẠI BỆNH VIỆN - Theo mã ICD LUẬN VĂN THẠC SĨ Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã số ngành: 60480201 TP HỒ CHÍ MINH, năm 2018 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - LÊ ANH TUẤN KHAI THÁC DỮ LIỆU PHÂN LỚP BỆNH NHÂN ĐIỀU TRỊ TẠI BỆNH VIỆN - Theo mã ICD LUẬN VĂN THẠC SĨ Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã số ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS LÊ THỊ NGỌC THƠ TP HỒ CHÍ MINH, năm 2018 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hướng dẫn khoa học: TS LÊ THỊ NGỌC THƠ (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày 17 tháng 06 năm 2018 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) T T C ứ P S P P G bi T P S bi T Ng T Ủ Vă v Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV CÁN BỘ HƯỚNG DẪN KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) (Họ tên chữ ký) TRƯỜNG ĐH CÔNG NGHỆ TP HCM VIỆN ĐÀO TẠO SAU ĐẠI HỌC CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc TP HCM, ngày … tháng… năm 20 … NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: LÊ ANH TUẤN Giới tính: Nam Ngày, tháng, năm sinh: 01/01/1980 Nơi sinh: TP Hồ Chí Minh Chun ngành: Cơng Nghệ Thơng Tin MSHV: 1541860045 I- Tên đề tài: KHAI THÁC DỮ LIỆU PHÂN LỚP BỆNH NHÂN ĐIỀU TRỊ TẠI BỆNH VIỆN - Theo mã ICD II- Nhiệm vụ nội dung: - Nghiên cứu kỹ thuật phân lớp liệu theo định cơng trình nghiên cứu có liên quan - Thu thập, xử lý liệu - Áp dụng thuật giải phân lớp vào thực tế toán phân lớp bệnh nhân xây dựng từ nguồn liệu thực tế bệnh viện Phạm Ngọc Thạch Dự đoán loại bệnh (ICD) phát triển theo bệnh nhân - Đánh giá hiệu thực nghiệm III- Ngày giao nhiệm vụ: 15/03/2017 IV- Ngày hoàn thành nhiệm vụ: ./12/2017 V- Cán hướng dẫn: TS LÊ THỊ NGỌC THƠ CÁN BỘ HƯỚNG DẪN KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) (Họ tên chữ ký) i LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu Luận văn trung thực chưa công bố cơng trình khác Tơi xin cam đoan giúp đỡ cho việc thực Luận văn cảm ơn thơng tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn (Ký ghi rõ họ tên) Lê Anh Tuấn ii LỜI CÁM ƠN Trước tiên, xin phép gởi lời cám ơn đến Ban Giám hiệu, phòng Sau đại học, Thầy Cơ khoa Công nghệ thông tin Trường Đại học Công Nghệ TPHCM truyền đạt kiến thức cách học tập nghiên cứu khoa học Tôi xin chân thành cám ơn Ban Giám đốc Bệnh viện Phạm Ngọc Thạch, TS BS Đặng Thị Minh Hà Trưởng phòng Kế hoạch tổng hợp, TS BS Nguyễn Thị Bích Yến, KTV Nguyễn Trần Hoài Diễm khoa Vi Sinh tư vấn giúp đỡ tơi cách nhiệt tình q trình thực nghiên cứu Đặc biệt, tơi xin gởi lời cám ơn sâu sắc tới TS Lê Thị Ngọc Thơ Cô hướng dẫn định hướng, giúp tơi hồn thành đề tài nghiên cứu Ngồi q trình thực luận văn, tơi nhận giúp đỡ từ bạn bè đồng nghiệp Bệnh viện Phạm Ngọc Thạch Mặc dù cố gắng khơng thể tránh thiếu sót q trình thực hiện, tơi mong nhận ý kiến đóng góp từ Thầy Cơ chun gia Lê Anh Tuấn TĨM TẮT Khi thơng tin hồ sơ số hóa trở thành tiêu chuẩn ngành y, cho phép xây dựng giải pháp phân tích liệu hồ sơ bệnh nhân Các giải pháp hỗ trợ cải thiện quy trình chăm sóc sức khỏe điều trị người bệnh từ việc xây dựng mơ hình tới triển khai hoạt động Sau chúng áp dụng thơng tin thu để phát dự báo xu hướng liệu Đồng thời công cụ trợ giúp định nhanh xác cho quan cung cấp dịch vụ chăm sóc y tế Bệnh lao: Trong bệnh truyền nhiễm nước ta nay, bệnh lao bệnh thường gặp có tỷ lệ tử vong đứng hàng thứ sau HIV Ảnh hưởng đến 1/3 dân số, hầu hết trường hợp nhiễm khuẩn lao tiềm ẩn không nhận thấy triệu chứng bệnh Bệnh lao có khả lây lan từ người bệnh sang người lành, khơng chẩn đốn điều trị kịp thời gây ảnh hưởng xấu đến tình hình sức khỏe cá nhân cộng đồng Ở người này, làm việc sức, thiếu dinh dưỡng điều kiện thuận lợi cho vi trùng lao bùng phát hoành hành Khả lây truyền phụ thuộc vào mức độ nhiễm khuẩn người mắc phải, môi trường thời gian phơi nhiễm mức độc lực vi khuẩn Việc lây truyền chấm dứt cách cách ly người bệnh giai đoạn bệnh hoạt động áp dụng biện pháp điều trị lao hiệu Việc ứng dụng phần mềm thay cách làm thủ cơng để phân tích tình trạng bệnh nhân, phân tích khả khả diễn tiến bệnh khác nhau, sở cho bác sĩ chun gia tìm hiểu, chẩn đốn, đánh giá ngun nhân cách thức điều trị, dự phòng bệnh hiệu Do yêu cầu khai thác liệu để phân tích, dự đốn tình hình phát triển bệnh Qua trình nghiên cứu luận văn đóng góp việc xây dựng luật áp dụng cho việc hỗ trợ sử dụng phác đồ điều trị phù hợp với bệnh nhân, hạn chế tình trạng kháng thuốc; so sánh độ đo thời gian thực thuật toán; so sánh thuộc tính lựa chọn chuyên gia với tồn thuộc tính liệu tốn ABSTRACT As information and digitized records become the standard in the medical profession, it allows the development of medical record review and analysis These solutions help in improving patient health from operational deployment model Then, they can apply the information obtained to detect or predict trends in data They are also tools to help making decisions faster and more accurately for health care providers Tuberculosis (TB): Among the infectious diseases in our country nowadays, tuberculosis is a common disease and Additionally, TB is the second highest mortality rate after HIV Affecting by up to one third of the population, most latent TB infections are not able to detect symptoms of the disease TB is possible to spread from patients to healthy person, and if not diagnosed and treated promptly, it can adversely affect the health of the individual and the community In these people, overwork, under-nutrition can be an advantage condition for TB germs to break out The ability to transmit depends on the level of infection of the infected person, the environment, the time of exposure and the virulence level of the bacteria Transmission can be terminated by isolating the patient at the disease stage and applying effective TB treatment The software application replacing manual labor in analyzing patient status as well as the possibility of disease progression will support doctors and experts to study, diagnose, evaluate the cause as well as the way to treat and prevent the disease effectively Therefore, one of the data mining requirements is to analyze and predict the lead time bias of the disease The thesis researching process has contributed to the development of a code that applies to the support of the treatment regimens, limiting drug resistance, comparison of the measurements and the execution time of algorithms, comparison of attributes selected by experts with all attributes of problem data MỤC LỤC LỜI CAM ĐOAN i LỜI CÁM ii TẮT ƠN TÓM iii ABSTRACT .iv MỤC LỤC v DANH MỤC CÁC TỪ VIẾT TẮT viii DANH MỤC CÁC BẢNG .ix DANH MỤC CÁC HÌNH x CHƯƠNG 1: TỔNG QUAN 1.1 Lý chọn đề tài 1.2 Mục tiêu, nội dung nghiên cứu 1.3 Phương pháp nghiên cứu 1.4 Cấu trúc luận văn CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Khai phá liệu 2.2 Quy trình phương pháp khai phá liệu 2.3 Khai phá liệu áp dụng loại liệu: 2.4 Một số kỹ thuật khai phá liệu 2.5 Các ứng dụng khai phá liệu 2.6 Một số kỹ thuật phân lớp 2.6.1 k-Láng giềng gần (k-Nearest Neighbor) 2.6.2 Mạng Nơron 2.6.3 Mạng Bayesian 2.6.4 Tập mờ tập thô 2.6.5 Cây định 2.6.6 Thuật toán ID3 2.6.7 Thuật toán C4.5 CHƯƠNG 3: NGHIÊN CỨU VÀ ÁP DỤNG CHƯƠNG TRÌNH MƠ PHỎNG TRONG KHAI THÁC DỮ LIỆU Y KHOA 11 3.1 Mục tiêu 11 3.2 Đối tượng phạm vi 11 3.3 Phương pháp xử lý 11 3.4 Ứng dụng khai thác liệu khai phá liệu y khoa 11 3.4.1 Vai trò bác sĩ, điều dưỡng khai phá liệu y khoa 11 3.4.2 Tập liệu y khoa 12 3.4.3 Phương pháp giải 12 3.5 Ứng dụng khai phá liệu khai phá liệu bệnh nhân theo mã ICD 13 3.5.1 Thuộc tính ban đầu 14 3.5.2 Phương pháp giải 15 3.5.3 Tập thuộc tính sau khai phá liệu 15 3.6 Quy trình thực nghiệm 16 3.6.1 Tìm hiểu nhiệm vụ toán 16 3.6.2 Thu thập liệu 16 3.6.3 Chọn lựa kỹ thuật khai phá 17 CHƯƠNG 4: THỰC NGHIỆM VÀ KẾT QUẢ THỰC NGHIỆM 18 4.1 Phần mềm WEKA 18 4.1.1 Giới thiệu Weka, lịch sử phát triển 18 4.1.2 Các chức năng, thuật toán, kiểu liệu Weka 18 4.1.3 Môi trường thực thi 19 4.2 Dữ liệu y khoa bệnh viện Phạm Ngọc Thạch thực nghiệm 19 4.3 Xây dựng định 23 4.4 Kết thực nghiệm 27 4.5 Đánh giá kết thực nghiệm 29 4.5.1 Đánh giá theo phương pháp Holdout (Splitting), chia liệu thành phần 80% huấn luyện 20% kiểm tra 29 4.5.2 Đánh giá theo phương pháp k-fold cross validation, chọn k=10 30 Hình 7: Giao diện Weka KnowledgeFlow Hình 8: Giao diện Weka SimpleCLI Hình 9: Dữ liệu đưa vào Weka Hình 10: Thực phân lớp Hình 11: Kết thực phân lớp thuật tốn Naive Bayes Hình 13: Kết thực phân lớp thuật toán KNN DỮ LIỆU THỰC TẾ K Q 0_ A + + + 19 19 19 19 19191919 119 2+ 3+ + 19 19191919 19 19 19 119 + + + 1+ 1+ 2+ 2+ 2+ + + + 3+ + C T n_ ul n ul n ul n ul 1/ 2/ 3/ 4/ 5/ 16/ 17/ 18/ 9/ n1 nul nul ul 1/ 2/ 13/ 14/ 15/ 6/ 7/ 8/ 9/ n1 ul n ul n ul n nul nul nul nul nul ul n ul n ul n nul ul C A Y n ul n ul n ul n nul nul nul nul nul ul n ul n ul n nul ul D u D u D u D u D uD uD uD u D u D u D u D u D uD uD uD u D u D u D u D u D uD uD uD u D u C A nY ul n ul n ul n nul nul nul nul nul ul n ul n ul n nul nul nul nul nul nul ul n ul n ul n nul nul nul nul 1ul + + + + 15 615 2+ 3+ + + 15615 + H Xa P n Si ul n S ul n S ul n S nul S nul S nul S nul S nul S ul n S ul n S ul n S nul S nul S nul S nul S nul S nul S ul n S ul n S ul n S nul S nul S nul S nul S nul S ul n S ul n S ul n S nul S nul S nul S nul S nul S ul n S ul n S ul n S nul S ul H Sn S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S K S n ul n ul n ul n nul nul nul nul nul ul n ul n ul n nul nul nul nul nul nul ul n ul n ul n nul nul nul nul nul ul n ul n ul n nul nul nul nul nul ul n ul n ul n nul ul I C R 05 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 + + + + + 19 19 19 19 19191919 119 2+ 3+ + 19191919 19 19 19 19 191 + + + 19 19 19 19 19 n ul n ul n ul n ul n ul 1/ 2/ 3/ 4/ 5/ 16/ 17/ 18/ 9/ n1 nul nul ul 1/ 12/ 13/ 14/ 5/ 6/ 7/ 8/ 9/ 1n ul nl ul ln ul l1/ 2/ 03/ 4/ 05/ D uD uD uD uD u D u D u D u D u D uD uD uD u D u A m A m A m A m A m A m A m A m A m A m A m A m n ul nl ul ln ul ln ul nl ul ln ul nl ul ln ul l + + + 156n5 nul nul nul nul ul n ul n ul n nul nul nul nul nul ul n ul n ul n nul nul nul nul nul ul n ul nl ul ln ul ln ul nl ul ln ul nl ul ln ul l n ul n ul n ul n ul n nul nul nul nul nul ul n ul n ul n nul nul nul nul nul ul n ul n ul n nul nul nul nul nul ul D u o D u oD u oD u o D u oD u o D u oD u o S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S n ul n ul n ul n ul n nul nul nul nul nul ul n ul n ul n nul nul nul nul nul ul n ul n ul n nul nul nul nul nul ul n ul nl ul ln ul ln ul nl ul ln ul nl ul ln ul l A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 R 05 R 05 R 05 R 05 R 05 R 05 R 05 R 05 R 05 R 05 R 05 R 05 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 19 19 19 19 2+ 3+ + 19 19191919 19 19 19 119 + + + 19 19 19 19 19 191919119 2+ 3+ + 19 1919191919 19 6/ 07/ 8/ 09/ n0 nul nul ul 1/ 2/ 13/ 14/ 15/ 6/ 7/ 8/ 9/ n1 ul n ul n ul 1/ 2/ 3/ 4/ 5/ 6/ 17/ 18/ 19/ n1 nul nul ul 1/ 2/ 13/ 14/ 15/ 16/ 7/ n ul ln ul nl ul ln ul nl nul nul nul nul ul n ul n ul n nul nul nul nul nul ul n ul n ul n nul nul nul nul nul ul n ul n ul n nul nul nul nul nul ul n ul n ul n ul n nul ul n ul ln ul nl ul ln ul nl nul nul nul nul ul n ul n ul n nul nul nul nul nul ul n ul n ul n nul nul nul nul nul ul n ul n ul n nul nul nul nul nul ul n ul n ul n ul n nul ul D u oD u o D u oD u no nul nul nul nul ul n ul n ul n nul nul nul nul nul ul n ul n ul n nul nul nul nul nul ul n ul n ul n ul D u D u D u D u D uD uD uD uD u D u S S n ul S S ln ul S S nl ul S S ln ul R S nl R S nul R S nul R S nul R S nul R S ul n R S ul n R S ul n R S nul R S nul R S nul R S nul S R nul S R ul n S R ul n S R ul n S R nul S R nul S R nul S R nul S R nul S R ul n S R ul n S R ul n ul S S E S S E S S E S S E S S E S S E S S E S S E S S E S S E A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 19191 + + + 19 19 19 19 19191919 119 2+ 3+ + 19191919 19 19 19 19 191 + + + 19 19 19 19 19 8/ 19/ 1n ul n ul n ul 1/ 2/ 3/ 4/ 5/ 16/ 17/ 18/ 9/ n1 nul nul ul 1/ 12/ 13/ 14/ 5/ 6/ 7/ 8/ 9/ 1n ul nl ul ln ul l1/ 2/ 03/ 4/ 05/ n ul n ul n ul n ul n nul nul nul nul nul ul n ul n ul n nul nul nul nul nul ul n ul n ul n nul nul nul nul nul ul n ul nl ul ln ul ln ul nl ul ln ul nl ul ln ul l n ul n ul n ul n ul n nul nul nul nul nul ul n ul n ul n nul nul nul nul nul ul n ul n ul n nul nul nul nul nul ul n ul nl ul ln ul ln ul nl ul ln ul nl ul ln ul l D uD uD uD uD u D u D u D u D u D uD uD uD u D u D u D u D u D uD uD uD u D u D u D u D u D uD u o D u oD u oD u o D u oD u o D u oD u o S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S E E E S E S E S E S E S E S E S E S E S E S E S E S H H H H H H H H H H H H H E H E H E H E H E H E H E H E A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 19 19 19 19 + + + 19 19 19 19 19 19 19 19 19 + + + 19 19 19 6/ 07/ 8/ 09/ n0 ul ln ul ln ul l 1/ 02/ 3/ 04/ 05/ 6/ 07/ 8/ 09/ 0n ul nl ul ln ul l 1/ 02/ 03/ n ul ln ul nl ul ln ul nl ul ln ul ln ul nl ul ln ul nl ul ln ul ln ul nl ul ln ul nl ul ln ul ln ul nl ul ln ul nl ul ln ul ln ul n ul ln ul nl ul ln ul nl ul ln ul ln ul nl ul ln ul nl ul ln ul ln ul nl ul ln ul nl ul ln ul ln ul nl ul ln ul nl ul ln ul ln ul D u oD u o D u oD u o D u oD u oD u o D u oD u o D u oD u oD u o D u oD u o D u oD u oD u o D u oD u o D u oD u oD u S S H E S S H E S S H E S S H E S S H E S S S H E S S S H E S S S H E S S S H E S S S H E S S S H E S S S H E S S S H E S S S H E S S S H E S S S H E S S S H R S S H R S S H R S S H R S S H R S S H R A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 19 19 19 19 19 19 + + + 19 19 19 19 19 19 19 19 19 + + + 4/ 5/ 06/ 07/ 8/ 09/ n0 ul ln ul ln ul l 1/ 02/ 3/ 04/ 05/ 6/ 07/ 8/ 09/ 0n ul nl ul ln ul l n ul nl ul ln ul ln ul nl ul ln ul nl ul ln ul ln ul nl ul ln ul nl ul ln ul ln ul nl ul ln ul nl ul ln ul ln ul nl ul ln ul l n ul nl ul ln ul ln ul nl ul ln ul nl ul ln ul ln ul nl ul ln ul nl ul ln ul ln ul nl ul ln ul nl ul ln ul ln ul nl ul ln ul l D u o D u oD u oD u o D u oD u o D u oD u oD u o D u oD u o D u oD u oD u o D u oD u o D u oD u oD u o D u oD u o S S H R S S H R S S H R S S H R S S H R S S H R S S H R S S E H R S S E H R E S S H R S S E H R E S S H R S S E H R S S E H R E S S H R S S E H R E S S H R S S E H R S S E H R S S S H R S S S H R S ) A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 19 19 19 19 19 19 19 19 19 + + + 19 19 19 19 19 19 19 19 19 + 1/ 02/ 3/ 04/ 5/ 06/ 07/ 8/ 09/ n0 ul ln ul ln ul l 1/ 02/ 3/ 04/ 05/ 6/ 07/ 8/ 09/ 0n ul n ul ln ul nl ul ln ul nl ul ln ul ln ul nl ul ln ul nl ul ln ul ln ul nl ul ln ul nl ul ln ul ln ul nl ul ln ul nl ul ln ul ln ul n ul ln ul nl ul ln ul nl ul ln ul ln ul nl ul ln ul nl ul ln ul ln ul nl ul ln ul nl ul ln ul ln ul nl ul ln ul nl ul ln ul ln ul D u oD u o D u oD u o D u oD u oD u o D u oD u o D u oD u oD u o D u oD u o D u oD u oD u o D u oD u o D u oD u oD u S S H R S S S H R S S S H R S S S H R S S S H R S S S H R S S S H R S S S H R S S S H R S S S H S S S H S S S H S S S H S S S H S S S H S S S H S S S H S S S H S S S H S S S H S S S H S S S H S A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 + + 19 19 19 19 19 19 19 19 19 2+ 3+ + 19 1919191919 19 19 119 + + + 19 n ul nl ul l1/ 02/ 3/ 04/ 5/ 06/ 07/ 8/ 09/ n0 nul nul ul 1/ 2/ 13/ 14/ 15/ 16/ 7/ 8/ 9/ n1 ul ln ul nl ul l1/ n ul nl ul ln ul ln ul nl ul ln ul nl ul ln ul ln ul nl ul ln ul nl nul nul nul nul ul n ul n ul n ul n nul nul nul nul ul ln ul nl ul ln ul n ul nl ul ln ul ln ul nl ul ln ul nl ul ln ul ln ul nl ul ln ul nl nul nul nul nul ul n ul n ul n ul n nul nul nul nul ul ln ul nl ul ln ul D u o D u oD u oD u o D u oD u o D u oD u oD u o D u oD u o D u D u D u D u D uD uD uD uD u D u D u D u D u oD u o D u oD u S S H S R S S H S S S R H S S S R H S R S S H S S S R H S R S S H S S S R H S S S R H S R S S H S S S R H S S S R S S R S S R S S R S S R S S R S S R S S R S S R S S R S S R S S R S S R E S S R E S S R E S S R E H S A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 19 19 19 19 19 19 19 19 + + + 19 19 19 19 19 19 19 19 19 2/ 3/ 04/ 05/ 6/ 07/ 8/ 09/ 0n ul nl ul ln ul l 1/ 02/ 03/ 4/ 05/ 6/ 07/ 08/ 9/ n ul nl ul ln ul ln ul nl ul ln ul nl ul ln ul ln ul nl ul ln ul nl ul ln ul ln ul nl ul ln ul nl ul ln ul ln ul nl ul l n ul nl ul ln ul ln ul nl ul ln ul nl ul ln ul ln ul nl ul ln ul nl ul ln ul ln ul nl ul ln ul nl ul ln ul ln ul nl ul l D u o D u oD u oD u o D u oD u o D u oD u oD u o D u oD u o D u oD u oD u o D u oD u o D u oD u oD u o D u o S S R E S S R E S S R E S S R E S S R E S S R E S S R E S S R E S S R E S S S R E S S S R E S S S R E S S S R E S S S R E S S S R E S S S R E S S S R E S S S R E S S S R E S S S R E S ) A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 A 15 Bảng 1: Dữ liệu huấn luyện mẫu === Run information === Scheme:weka.classifiers.trees.J48 -C 0.25 -M Relation: He chuyen gia 19_10 csv Instances: 256 Attributes: 10 ICD_NV KQ_SOI CT_SOI CAY_MGIT CAY_OG XPERT Hain_R Hain_I KSD ICD_RV Test mode:10-fold cross-validation === Classifier model (full training set) === J48 pruned tree -KSD = null | Hain_I = S | | CAY_MGIT = null | | | XPERT = null | | | | Hain_R = S: A15.0 (13.0/1.0) | | | | Hain_R = R: A15.0 ( R ) (12.0) | | | XPERT = Duong tinh - R: A15.0 ( R ) (12.0) | | | XPERT = Duong tinh: A15.0 ( R ) (0.0) | | CAY_MGIT = Duong tinh: A15.0 (39.0) | | CAY_MGIT = Am tinh: R05 (12.0) | Hain_I = R: A15.0 ( I ) (12.0) KSD = E: A15.0 ( E ) (12.0) KSD = ES: A15.0 ( ES ) (12.0) KSD = H: A15.0 ( H ) (12.0) KSD = HE: A15.0 ( HE ) (12.0) KSD = HES: A15.0 ( HES ) (12.0) KSD = HR: A15.0 ( HR ) (12.0) KSD = HRE: A15.0 ( HRE ) (12.0) KSD = HRSE: A15.0 ( HRSE ) (12.0) KSD = HS: A15.0 ( HS ) (12.0) KSD = HSR: A15.0 ( HSR ) (12.0) KSD = R: A15.0 ( R ) (12.0) KSD = RE: A15.0 ( RE ) (12.0) KSD = RES: A15.0 ( RES ) (12.0) Number of Leaves : Size of the tree : 20 25 Time taken to build model: 0.04 seconds === Stratifi ed Corre 25 ctly Incorr 09 ectly Ka 0.9957 pp M 0.00 ea 090.0 Ro ot 22 Re 0.80 lat 9.6 % Ro ot 15 To 256 tal === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.923 0.923 0.96 0.96 R05 0.005 0.981 0.99 0.997 A15.0 1 1 A15.0 ( R ) 1 1 A15.0 ( I ) 1 1 1A 1 1 1A 1 1 1A 1 1 1A 1 1 1A 1 1 1A 1 1 1A 1 1 1A 1 1 1A 1 1 1A 1 1 1A 1 1 1A W 0.0 0 10 ei === Confusion 01 9Matrix === a b c d e f g h i j k l 12 0 0 0 0 51 0 0 0 0 36 0 0 0 0 12 0 0 0 0 12 0 0 0 0 12 0 0 0 0 12 0 0 0 0 0 12 0 0 0 0 0 12 0 0 0 0 0 12 00 0 0 0 00 0 0 0 00 0 0 0 00 0 0 0 00 0 0 0 00 0 0 0 m 0 0 0 n o p < classified as 0 0 0| a 0 0 0| = b 0 0 0 | c= 0 0 0| = d 0 0 0 | e= 0 0 0| = f= 0 0 0| A g 0 0 0 | h= 0 0 0 | i== 0 0 0| A j= A 12 0 0 | k 0 12 0 0 | l== A 0 12 0 | m 0 0 12 0 | n= = 0 0 12 | o = 0 0 0 12 | p = A Bảng 2: Kết xây dựng mơ hình định Weka ... MSHV: 1541860045 I- Tên đề tài: KHAI THÁC DỮ LIỆU PHÂN LỚP BỆNH NHÂN ĐIỀU TRỊ TẠI BỆNH VIỆN - Theo mã ICD II- Nhiệm vụ nội dung: - Nghiên cứu kỹ thuật phân lớp liệu theo định cơng trình nghiên cứu... TP HCM - LÊ ANH TUẤN KHAI THÁC DỮ LIỆU PHÂN LỚP BỆNH NHÂN ĐIỀU TRỊ TẠI BỆNH VIỆN - Theo mã ICD LUẬN VĂN THẠC SĨ Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã số ngành: 60480201 CÁN BỘ HƯỚNG... liệu định để tiến hành chẩn đoán bệnh nhân 3.5 Ứng dụng khai phá liệu khai phá liệu bệnh nhân theo mã ICD Tập liệu y khoa bệnh đường hô hấp sử dụng luận văn trích xuất từ liệu thật phần mềm bệnh

Ngày đăng: 02/01/2019, 10:55

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[4] J. R. Quinlan (1996). "Improved Use of Continuous Attributes in C4.5", Volume 4, pages 77-90 Sách, tạp chí
Tiêu đề: Improved Use of Continuous Attributes in C4.5
Tác giả: J. R. Quinlan
Năm: 1996
[12] Powers, David M W (2011). "Ev a lu a tion: Fr o m Precis i on, Recall and F- Measure to ROC, In f o r m edness, M a rkedn e ss &amp; Correlation" (PDF). Journal of Machine Learning Technologies. 2 (1): 37–63 Sách, tạp chí
Tiêu đề: Ev a lu a tion: Fr o m Precis i on, Recall and F-Measure to ROC, In f o r m edness, M a rkedn e ss & Correlation
Tác giả: Powers, David M W
Năm: 2011
[1] PGS.TS. Võ Đình Bảy (2016). Bài giảng Phân lớp và dự đoán. Đại học Công nghệ TP.HCM Khác
[2] Ths. Trịnh Minh Tuấn (2014). Bài giảng Khai phá dữ liệu. Đại học công nghệ thông tin Khác
[3] Tom M. Mitchell (1997). Machine Learning. McGraw Hill , New York, pp. 55–58 Khác
[5] Divya Tomar, Sonali Agarwal (2013). A survey on Data Mining approaches for Healthcare, India Khác
[6] Mohammed Abdul Khaleel, Sateesh Kumar Pradham, G.N. Dash (2013). A Survey of Data Mining Techniques on Medical Data forFinding Locally Frequent Diseases, India Khác
[7] Jason Brownlee (2013). A Tour of Machine Learning Algorithms Khác
[8] Sunny Sharma (2016). Role of Data Mining Techniques in Human Disease Diagnosis, Punjab Khác
[9] Kirubha, Manju Priya (2016). Survey on Data Mining Algorithms in Disease Prediction, India Khác
[10] G. Purusothaman, P. Krishnakumari (2015). A Survey of Data Mining echniques on Risk Prediction: Heart Disease, India Khác
[11] Olson, David L.; and Delen, Dursun (2008); Advanced Data Mining Techniques, Springer, 1st edition (February 1, 2008), page 138 Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w