1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai phá dữ liệu hồ sơ bệnh nhân ứng dụng hỗ trợ chuẩn đoán bệnh tại bệnh viện đa khoa y học cổ truyền tuệ tĩnh (tt)

35 32 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 35
Dung lượng 1,02 MB

Nội dung

i DANH MỤC CÁC TỪ VIẾT TẮT CLS Cận lâm sàng CSDL Cơ sở liệu DL Dữ liệu DM Data Mining HSBA Hồ sơ bệnh án ICD10 Danh mục bệnh quốc tế KDD Knowledge Discovery in Databaes KPDL Khai phá liệu LS Lâm sàng WHO Tổ chức Y tế giới YHCT Y học cổ truyền CTDL Canh tác liệu ii DANH MỤC HÌNH VẼ Hình 1.1: Các bước Data Mining & KĐ [3] Hình 2.1: Biểu diễn định .22 Hình 3.1: Giao diện hệ thống chương trình 22 Hình 3.2: Lấy liệu xử lý 23 Hình 3.3: Hiển thị liệu chạy chương trình 24 Hình 3.4: Kết thử nghiệm với bệnh án huyết áp cao 27 iii DANH MỤC BẢNG BIỂU Bảng 1: Phân độ THA theo Hội THA Việt Nam (2008) [8] 11 Bảng 2: Phân tầng nguy tăng huyết áp 17 Bảng 3: Tệp liệu đầu vào .21 Bảng 4: Kết chẩn đoán huyết áp cao Error! Bookmark not defined LỜI MỞ ĐẦU Tăng huyết áp ngày vấn đề thời gia tăng nhanh chóng cộng đồng Tỷ lệ tăng huyết áp khác Ở nghiên cứu bệnh nhân cao tuổi tỷ lề tăng huyết áp cao nhiều so với nhóm khác Theo ước tính nhà khoa học Mỹ tỷ lệ tăng huyết áp giới năm 2000 26,4% (tương đương 972 triệu người, riêng nước phát triển chiếm 639 triệu) tăng lên 29,2% vào năm 2025 với tổng số người mắc bệnh tăng huyết áp toàn giới khoảng 1,56 tỷ người mà 3/4 số người thuộc nước phát triển Các số liệu điều tra thống kê tăng huyết áp Việt Nam cho thấy tỷ lệ tăng huyết áp năm 1960 chiếm 1,6% dân số, 1982 1,9%, năm 1992 tăng lên 11,79% dân số, 2002 Miền Bắc 16,3%, riêng thành phố Hà Nội có tỷ lệ 23,2%, cịn năm 2004 Thành phố Hồ Chí Minh 20,5% năm 2007 Thừa thiên -Huế 22,77% Công việc chẩn đoán bệnh tăng huyết áp tương đối dễ dàng dựa vào trị số đo sau đo huyết áp quy trình Ngưỡng chẩn đốn tăng huyết áp thay đổi tùy theo cách đo huyết áp phác đồ điều trị bệnh tăng huyết áp Bộ Y tế Việt Nam để dự đoán bệnh nhân tăng huyết áp cịn nhiều khó khăn thực tế lâm sàng Do bệnh nhân tử vong cao, chi phí điều trị cao cho bệnh nhân vào sốc, toán nan giải cho Y tế cộng đồng nói chung bệnh viện Tuệ tĩnh nói riêng Với mục đích mong muốn đưa số giải pháp hỗ trợ công việc cán y tế, nhằm rút ngắn thời gian, tăng tính logic chẩn đốn bệnh, mà tác giả xin đề xuất thực đề tài “Khai phá liệu hồ sơ bệnh nhân ứng dụng hỗ trợ chẩn đoán bệnh bệnh viện Đa khoa Y học cổ truyền Tuệ Tĩnh” nhằm nghiên cứu áp dụng vấn đề nhỏ lĩnh vực y học khai phá liệu nói chung Mục đích nghiên cứu: Tìm quy luật từ liệu thực tế nhằm chẩn đoán số bệnh thường gặp bệnh viện YHCT Tuệ Tĩnh (Tăng huyết áp, Rối loạn chức tiền đình): xây dựng thuật toán hỗ trợ chẩn đoán số bệnh thường gặp Bệnh viện YHCT Tuệ Tĩnh; ứng dụng thuật tốn vào cơng việc chẩn đốn bệnh bệnh viện YHCT Tuệ Tĩnh Sử dụng phương pháp: tìm hiểu nghiệp vụ y tế liên quan đến số bệnh cụ thể phân chia theo độ tuổi, giới tính, …; thu thập tiền xử lý liệu bệnh viện YHCT Tuệ Tĩnh; tìm hiểu tốn phân lớp khai phá liệu, lựa chọn thuật toán phù hợp (cây định thuật toán C4.5); Phân tích đánh giá Cấu trúc luận văn gồm chương: Chương I: Tổng quan khai phá liệu y khoa Nội dung chương bao gồm phần sau: - Giới thiệu khai phá liệu: Khái niệm khai phá liệu; Quy trình phương pháp khai phá liệu; Một số kỹ thuật khai phá liệu thông dụng; Ứng dụng khai phá liệu y khoa; Tri thức khai phá liệu y khoa; Các nghiên cứu trước khai phá liệu y khoa Chương II: Khai phá liệu bệnh án Chương giới thiệu cụ thể liệu nghiên cứu phương pháp khai phá liệu, phương pháp trích chọn đặc trưng Nội dung cụ thể bao gồm: giới thiệu liệu thu thập từ bệnh viện YHCT Tuệ Tĩnh; tìm hiểu định thuật toán C4.5; ứng dụng định thuật toán C4.5 vào khai phá liệu bệnh án Chương III: Thử nghiệm đánh giá Quá trình thu thập liệu Bệnh viện Đa khoa Y học cổ truyền Tuệ Tĩnh: Qua kho liệu để rà sốt hồ sơ bệnh án; phân tích cụ thể đặc điểm đặc trưng liệu; Các kết thực nghiệm chẩn đoán bệnh từ liệu thực tế sử dụng định thuật tốn C4.5; Phân tích đánh giá kết thực nghiệm CHƯƠNG I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU TRONG Y KHOA 1.1 Giới thiệu khai phá liệu 1.1.1 Sự cần thiết phải khai phá liệu (datamining) Khoảng thập kỷ trở lại đây, lượng thông tin lưu trữ thiết bị điện tử (đĩa cứng, CD-ROM, băng từ, v.v.) khơng ngừng tăng lên Sự tích lũy liệu xảy với tốc độ bùng nổ Người ta ước đốn lượng thơng tin tồn cầu tăng gấp đơi sau khoảng hai năm theo số lượng kích cỡ sở liệu (CSDL) tăng lên cách nhanh chóng Nói cách hình ảnh “ngập” liệu lại “đói” tri thức Câu hỏi đặt liệu khai thác từ “núi” liệu tưởng chừng “bỏ đi” không ? “Necessity is the mother of invention” - Data Mining đời hướng giải hữu hiệu cho câu hỏi vừa đặt Khá nhiều định nghĩa Data Mining đề cập phần sau, nhiên tạm hiểu Data Mining công nghệ tri thức giúp khai thác thơng tin hữu ích từ kho liệu tích trữ suốt q trình hoạt động cơng ty, tổ chức 1.1.2 Khai phá liệu Định nghĩa: Khai phá liệu tập hợp kỹ thuật sử dụng để tự động khai thác tìm mối quan hệ lẫn liệu tập hợp liệu khổng lồ phức tạp, đồng thời tìm mẫu tiềm ẩn tập liệu Khai phá liệu bước bảy bước trình KDD (Knowleadge Discovery in Database) KDD xem trình khác theo thứ tự sau: Làm liệu (data cleaning & preprocessing): loại bỏ nhiễu liệu không cần thiết Tích hợp liệu (data integration): q trình hợp liệu thành kho liệu (data warehouse & data marts) sau làm tiền xử lý (data cleaning & preprocessing) Trích chọn liệu (data selection): trích chọn liệu từ kho liệu sau chuyển đổi dạng thích hợp cho trình khai thác tri thức Quá trình bao gồm việc xử lý với liệu nhiễu (noisy data), liệu không đầy đủ (incomplete data), vv Chuyển đổi liệu: liệu chuyển đổi sang dạng phù hợp cho trình xử lý Khai phá liệu (data mining): bước quan trọng nhất, sử dụng phương pháp thông minh để chắt lọc mẫu liệu Ước lượng mẫu (knowledge evaluation): trình đánh giá kết tìm thơng qua độ đo Biểu diễn tri thức (knowledge presentation): trình sử dụng kỹ thuật để biểu diễn thể trực quan cho người dùng Hình 1.1: Các bước Data Mining & KĐ 1.1.3 Các tốn khai phá liệu Data Mining chia nhỏ thành số hướng sau: - Mơ tả khái niệm (concept description); luật kết hợp (association rules); phân lớp dự đoán (classification & prediction); Phân cụm (clustering); khai phá chuỗi (sequential/ temporal patterns) 1.1.4 Ứng dụng khai phá liệu Phân tích liệu hỗ trợ định (data analysis & decision support); điều trị y học (medical treatment): giúp tìm mối liên hệ triệu chứng lâm sàng, chẩn đoán bệnh; text mining & Web mining; tin-sinh (bio-infomatics): tìm kiếm, so sánh hệ Gen thơng tin di truyền, tìm mối liên hệ hệ Gen chẩn đoán số bệnh di truyền; tài thị trường chứng khốn (finance & stock market): để phân tích tình hình tài chính, phân tích đầu tư, phân tích cổ phiếu; bảo hiểm (insurance); nhận dạng (patten recognition); thông tin kỹ thuật: phân tích sai hỏng, điều khiển lập lịch trình; thơng tin thương mại: phân tích liệu người dùng, phân tích liệu marketing, phân tích đầu tư, phát gian lận 1.2 Các nghiên cứu liên quan 1.2.1 Các dạng liệu khai phá Phân tích liệu tài (financial data analysis); công nghiệp bán lẻ (Retail Industry); công nghiệp viễn thông (telecommunication industry); phân tích liệu sinh học (Biological Data Analysis); phát xâm nhập bất hợp pháp (Intrusion Detection); phân tích dịng liệu (Analysis of Stream data) 1.2.2 Các phương pháp khai phá liệu y học trước a Nghiên cứu nước Tác giả Đinh Thị Thu Hương nghiên cứu 123 người Việt Nam khỏe mạnh trung niên với tuổi 51,2 ± 13,9 phương pháp không xâm nhập Complior thấy vận tốc sóng mạch cảnh đùi 10,2 ± 1,6 m/s tương quan thuận với tuổi r= 18 với nhãn theo phương pháp học có giám sát (supervised learning) có sử dụng để chẩn đoán bệnh nhân đưa kết lớp 19 CHƯƠNG III: THỬ NGHIỆM VÀ ĐÁNH GIÁ 3.1 Quy trình xây dựng hệ thống 3.1.1 Tìm hiểu nghiệp vụ toán Để xây dựng hệ hỗ trợ chẩn đốn thành cơng cần phải hiểu biết kiến thức y học đặc biệt lĩnh vực y học có liên quan đáp ứng chun mơn điều trị, “ngành y ngành chuyên sâu, phục vụ sức khỏe cho nhân dân Khi nghiên cứu khoa học lĩnh vực này, đòi hỏi người nghiên cứu phải hiểu có kiến thức y học kiến thức sâu kết nghiên cứu đạt hiệu quả” 3.1.2 Tập liệu a Quá trình thu thập hồ sơ, bệnh án Trong luận văn này, cho phép lãnh đạo Bệnh viên Y Tuệ Tính, học viên tiếp cận hồ sơ bệnh án bệnh nhân > = 40 tuổi có bệnh tăng huyết áp theo tiêu chuẩn WHO 1997 theo Bộ y tế Việt Nam ban hành lưu trữ kho lưu trữ hồ sơ bệnh án bệnh viện YHCT Tuệ Tĩnh Các bệnh án lựa chọn thực nghiệm chọn theo kinh nghiệm chuyên gia theo gợi ý chuyên gia Bác sĩ, Điều dưỡng tư vấn thuộc tính có liên quan đến bệnh nhân có triệu chứng bệnh tăng huyết áp vào sốc Ngoài tham khảo thêm tài liệu có liên quan bệnh tăng huyết áp Sau thu thập HSBA, học viên tiến hành bước sau: Bước 1: Hoàn thành thủ tục mượn HSBA theo quy định Bước 2: Xuất liệu HSBA file Excel để dễ theo dõi, quan sát Bước 3: Xử lý liệu dư thừa nhiễu (tin lọc liệu) Tại bước học viên tham khảo thêm góp ý chuyên gia Bước 4: Chuyển đổi thành dạng liệu thích hợp (ARFF) để thuật tốn C4.5 thư viện WEKA hiểu 20 b Các thuộc tính liệu đầu vào - Thuộc tính 1: Gồm có nhóm tuổi định nghĩa theo khoảng tuổi (khoangtuoi) sau: + Từ 40 đến 50 tuổi: có giá trị + Từ 51 đến 60 tuổi: có giá trị + Từ 61 đến 70 tuổi : có giá trị + Từ 71 tuổi trở lên: có giá trị 10 - Thuộc tính 2: nhập viện(nhapvien) + Nhập viện ngày thứ đến bệnh sớm : + Nhập viện ngày thứ trở bệnh trễ: - Thuộc tính 3: Huyết áp (HATT), tùy theo giá trị kết phép đo - Thuộc tính 4: Dung tích hồng cầu (HCT) + Bình thường bt: + Cao vừa CV: + Quá cao: - Thuộc tính 5: Cholesterol tồn phần - Thuộc tính 6: Axit Uric máu- Creatimin máu (kết hợp đánh giá mức lọc cầu thận) - Thuộc tính 7: tổng phân tích nước tiểu - Thuộc tính 8: điện tâm đồ - Thuộc tính 9: nhãn liệu Gồm nhãn lớp kết định: + Huyết áp bình thường: + Huyết áp bình thường cao: 21 + Huyết áp cao độ 1: + Huyết áp cao độ 2: + Huyết áp cao độ 3: @relation huyet_ap_cao @attribute 'Do tuoi' real @attribute 'nhap vien' real @attribute 'Huyet ap' real @attribute 'Dung tich hong cau' real @attribute 'cholesterol toan phan' real @attribute 'Axit uric mau' real @attribute 'phân tich nuoc tieu' real @attribute 'Dien tam do' real @attribute 'class' {huyet_ap_binh_thuong, huyet_ap_binh_thuong_cao, huyet_ap_cao_do_1, huyet_ap_cao_do_2, huyet_ap_cao_do_3} Bảng 3: Ví dụ số liệu đầu vào Ngày Độ Huyet Dung Cholesterrol Axit phân tich Dien nhập tuổi ap tích tồn phần uric nuoc tieu tam viện hồng Kết luận mau cầu 10 154 0.98 71 33.6 0.987 36 huyet_ap_cao_do_3 10 159 0.99 85 34.9 0.957 38 huyet_ap_cao_do_3 124 0.9 61 33.6 0.89 32 huyet_ap_cao_do_2 127 0.81 61 33.6 0.927 32 huyet_ap_cao_do_2 111 0.68 58 31.6 0.77 31 huyet_ap_cao_do_1 114 0.68 58 30.6 0.78 31 huyet_ap_cao_do_1 98 0.68 55 26.6 0.672 28 huyet_ap_binh_thuong_cao 108 0.679 56 26.6 0.727 29 huyet_ap_binh_thuong_cao 22 67 0.41 46 21.9 0.551 23 huyet_ap_binh_thuong 77 0.41 40 21.1 0.485 22 huyet_ap_binh_thuong 3.1.3 Xây dựng hệ thống Bước 1: Khởi động phần mềm Hệ thống hiển thị giao diện hình Hình 3.1: Giao diện hệ thống chương trình Bước 2: Mở file, lấy liệu xử lý 23 Hình 3.2: Lấy liệu xử lý Bước 3: Chuyển sang tab Classify, chọn J48 chạy chương trình: 24 Hình 3.3: Hiển thị liệu chạy chương trình 3.1.4 Kết đánh giá a Kết xây dựng mơ hình định C4.5 Kết xây dưng mơ hình định (bằng công cụ WEKA) sau: === Run information === Scheme: weka.classifiers.trees.J48 -C 0.25 -M Relation: huyet_ap_cao Instances: 120 Attributes: Do tuoi 25 nhap vien Huyet ap Dung tich hong cau cholesterol toan phan Axit uric mau phân tich nuoc tieu Dien tam class Test mode: 10-fold cross-validation === Classifier model (full training set) === J48 pruned tree -nhap vien 109 | nhap vien 138: huyet_ap_cao_do_3 (27.0) Number of Leaves : Size of the tree : b Kết chẩn đoán định C4.5 Kết chẩn đoán định C4.5 (từ WEKA) sau: 26 Time taken to build model: 0.03 seconds === Stratified cross-validation === === Summary === Correctly Classified Instances 111 Incorrectly Classified Instances Kappa statistic 92.5 7.5 % 0.9058 Mean absolute error 0.0356 Root mean squared error 0.1727 Relative absolute error 11.1801 % Root relative squared error 43.2686 % Total Number of Instances 120 Hình % Hiển thị định dạng treeview === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure MCC Weighted Avg ROC Area PRC Area Class 0.957 0.021 0.917 0.957 0.936 0.921 0.955 0.820 huyet_ap_binh_thuong 0.862 0.022 0.926 0.862 0.893 0.861 0.916 0.822 huyet_ap_binh_thuong_cao 0.857 0.030 0.857 0.857 0.857 0.827 0.913 0.760 huyet_ap_cao_do_1 0.950 0.000 1.000 0.950 0.974 0.970 0.975 0.958 huyet_ap_cao_do_2 1.000 0.022 0.931 1.000 0.964 0.954 0.989 0.931 huyet_ap_cao_do_3 0.925 0.019 0.926 0.925 0.925 0.906 0.950 0.858 === Confusion Matrix === a b c d e < classified as 22 0 | a = huyet_ap_binh_thuong 25 0 | b = huyet_ap_binh_thuong_cao 18 | c = huyet_ap_cao_do_1 0 19 | d = huyet_ap_cao_do_2 27 0 0 27 | e = huyet_ap_cao_do_3 c Nhận xét kết Với kết độ xác 92% cho thấy định phù hợp với khai phá liệu bệnh án Đây kết tiềm ứng dụng thực tế Cụ thể tổng số 120 mẫu bệnh nhân tăng huyết áp kết chẩn đốn sau: Kết tính theo Độ xác (Precision) Độ bao phủ (Recall) cho mức độ bệnh huyết áp cao trình bầy hình (4) Và với kết cho ta thấy luận văn đạt mục tiêu đề Nó có khả hỗ trợ bác sĩ dự đoán bệnh tăng huyết áp giảm chi phí điều trị cho bệnh nhân Quan thấy tầm quan trọng vấn đề KPDL lĩnh vực y khoa, mở hướng chẩn đoán điều trị mới: kết hợp tri thức chuyên gia bác sĩ tri thức trích lọc từ kho liệu HSBA giúp cho việc chẩn đốn bệnh mức xác cao 98 96 94 92 90 88 86 84 82 80 78 76 Độ xác Độ bao phủ huyết áp bình thường huyết áp bình thường cao huyết áp cao độ huyết áp cao độ huyết áp cao độ Hình 3.4: Kết thử nghiệm với bệnh án huyết áp cao 28 3.2 Kết luận Qua kết thực nghiệm hệ thống chương trình bảng kết thực nghiệm nói tơi nhận thấy rằng, hệ thống đưa chẩn đốn tương đối xác 92 % phần phân lớp đối tượng bệnh tăng huyết áp Tuy nhiên qua kết nhận xét rằng, luận văn đạt mục tiêu đề Là giải pháp có khả hỗ trợ bác sĩ dự đoán bệnh tăng huyết áp Làm giảm tỉ lệ từ vong chi phí điều trị, cho tất bệnh nhân mắc phải bệnh tăng huyết áp Và quan trọng thấy tầm quan trọng vấn đề KPDL lĩnh vực y khoa, mở hướng chẩn đoán điều trị mới: kết hợp tri thức chuyên gia bác sĩ tri thức trích lọc từ kho liệu HSBA giúp cho việc chẩn đốn bệnh mức xác cao 29 KẾT LUẬN Luận văn đưa cách nhìn kết hợp Cơng nghệ thơng tin vào lĩnh vực y tế Kết đề tài hệ hỗ trợ chẩn đốn tự động mang tính chất cộng đồng, giúp nhiều mặt chuyên mơn tuyến y tế chưa có đội ngũ bác sĩ có trình độ chun mơn cao, thiếu trang thiết bị y tế, tuyến y tế vùng sau vùng xa Ngoài sinh viên y khoa bác sĩ trẻ, hệ hỗ trợ chẩn đốn giúp ơn lại kiến thức mức độ bệnh tăng huyết áp để có hướng điều trị xác Hướng phát triển: Nghiên cứu số thuật toán khai phá liệu định, tìm hiểu sâu kỹ thuật khai phá liệu khác tìm phương pháp (thuật toán mới) cải tiến nhược điểm thuật toán sinh định trình bày chương 30 31 32 ... logic chẩn đốn bệnh, mà tác giả xin đề xuất thực đề tài ? ?Khai phá liệu hồ sơ bệnh nhân ứng dụng hỗ trợ chẩn đoán bệnh bệnh viện Đa khoa Y học cổ truyền Tuệ Tĩnh? ?? nhằm nghiên cứu áp dụng vấn đề nhỏ... Ứng dụng khai phá liệu y khoa; Tri thức khai phá liệu y khoa; Các nghiên cứu trước khai phá liệu y khoa Chương II: Khai phá liệu bệnh án Chương giới thiệu cụ thể liệu nghiên cứu phương pháp khai. .. quan khai phá liệu y khoa Nội dung chương bao gồm phần sau: - Giới thiệu khai phá liệu: Khái niệm khai phá liệu; Quy trình phương pháp khai phá liệu; Một số kỹ thuật khai phá liệu thông dụng; Ứng

Ngày đăng: 19/03/2021, 17:58

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w