1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Ứng dụng khai phá dữ liệu trong hỗ trợ chuẩn đoán bệnh đái tháo đường tuyp 2

63 62 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Hoàng Văn Thắng ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG HỖ TRỢ CHẨN ĐOÁN BỆNH ĐÁI THÁO ĐƯỜNG TUÝP LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI – 2020 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG - Hoàng Văn Thắng ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG HỖ TRỢ CHẨN ĐOÁN BỆNH ĐÁI THÁO ĐƯỜNG TUÝP CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN MÃ SỐ: 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC TS ĐỖ THỊ BÍCH NGỌC HÀ NỘI - 2020 i LỜI CAM ĐOAN Tôi cam đoan rằng luận văn này: “Ứng dụng khai phá liệu hỗ trợ chẩn đoán bệnh đái tháo đường tuýp 2” là bài nghiên cứu của chính Ngoại trư những tài liệu tham khảo được trích dẫn luận văn này, cam đoan rằng toàn phần hay những phần nhỏ của luận văn này chưa tưng được công bố hay được sư dụng để nhận bằng cấp ở những nơi khác Không có sản phẩm/nghiên cứu nào của người khác được sư dụng luận văn này mà không được trích dẫn theo đúng quy định Luận văn này chưa bao giờ được nộp để nhận bất kỳ bằng cấp nào tại các trường Đại học hoặc sở đào tạo khác Hà Nội, ngày tháng 12 năm 2019 Tác giả luận văn Hoàng Văn Thắng ii LỜI CẢM ƠN Trước hết, xin được tỏ lòng biết ơn và gưi lời cám ơn chân thành đến TS Đỗ Thị Bích Ngọc người trực tiếp hướng dẫn luận văn, tận tình bảo và hướng dẫn tơi tìm hướng nghiên cứu, tiếp cận thực tế, tìm kiếm tài liệu, xư lý và phân tích số liệu, giải vấn đề nhờ đó có thể hoàn thành luận văn cao học của Ngoài ra, quá trình học tập, nghiên cứu và thực hiện đề tài tơi cịn nhận được nhiều quan tâm, góp ý, hỗ trợ quý báu của quý thầy cô, đồng nghiệp, bạn bè và người thân Tơi xin bày tỏ lịng biết ơn sâu sắc đến: Ban giám hiệu, Ban lãnh đạo Khoa Sau đại học, Ban lãnh đạo Khoa Công nghệ thông tin cùng các quý thầy cô – Học viện Công nghệ Bưu chính Viễn thông tạo điều kiện giúp hoàn thành Luận văn này Ban giám đốc Học viện Y Dược học cổ truyền Việt Nam, Ban giám đốc Bệnh viện Tuệ Tĩnh và đội ngũ cán bộ, y bác sĩ, sinh viên và các bệnh nhân tại Bệnh viện Tuệ Tĩnh rất nhiệt tình tham gia trả lời phỏng vấn nghiên cứu cho đề tài Cuối cùng, chân thành cảm ơn Cha mẹ và những người thân gia đình hỡ trợ, tạo điều kiện tḥn lợi cho suốt thời gian qua và đặc biệt thời gian theo học khóa thạc sỹ tại Học viện Công nghệ Bưu chính Viễn thông iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN .ii MỤC LỤC .iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v DANH SÁCH BẢNG vi DANH SÁCH HÌNH VE viii MỞ ĐẦU 1 Lý chọn đề tài Tổng quan vấn đề nghiên cứu Mục đích nghiên cứu Đối tượng và phạm vi nghiên cứu Phương pháp nghiên cứu CHƯƠNG 1: BÀI TOÁN HỖ TRỢ CHẨN ĐOÁN BỆNH ĐÁI THÁO ĐƯỜNG 1.1 1.2 1.3 Bệnh đái tháo đường là ? .4 1.1.1 Các loại bệnh đái tháo đường 1.1.2 Tiêu chuẩn chẩn đoán bệnh Đái tháo đường .5 Khai phá dữ liệu hỗ trợ chẩn đoán bệnh đái tháo đường 1.2.1 Học máy và khám phá tri thức 1.2.2 Học có giám sát 1.2.3 Học không có giám sát 1.2.4 Học giám sát một phần 10 1.2.5 Học tăng cường 11 Bài toán hỗ trợ chẩn đoán bệnh đái tháo đường 11 Kết luận chương .12 iv CHƯƠNG 2: KHẢO SÁT MỘT SỐ THUẬT TOÁN CHO HỖ TRỢ CHẨN ĐOÁN BỆNH ĐÁI THÁO ĐƯỜNG TUÝP 13 2.1 Giới thiệu chung 13 2.2 Khảo sát mơ hình Decision tree 14 2.3 Khảo sát thuật toán C4.5 16 2.4 Khảo sát thuật toán SVM 19 2.5 Khảo sát thuật toán Naïve Bayes .22 Kết luận chương .25 CHƯƠNG 3: CÀI ĐẶT VÀ THỬ NGHIỆM 26 3.1 Khảo sát và lựa chọn bộ dữ liệu để thư nghiệm 26 3.2 Tiền xư lý dữ liệu 26 3.3 Thư nghiệm và đánh giá kết quả 29 3.4 3.3.1 Đánh giá thuật toán C4.5 30 3.3.2 Đánh giá thuật toán SVM 35 3.3.3 Đánh giá thuật toán Naïve Bayes 39 Đánh giá hiệu suất các thuật toán được áp dụng .43 Kết luận chương .47 Kết luận 48 Tài liệu tham khảo 49 v DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết Tiếng A tắt LADA FPG Fasting Plasma G OGTT Oral Glucose Tole HbA1c Glycated Hemogl DNA Axit đêôxyribônu Robot Locomotio Supervised Learn Agent Classification Input Output Maximum Margin NBC Naive Bayes Clas Training data SMO Sequential Minim Optimization SVM Support Vector M Class CSDL vi DANH SÁCH BẢNG Bảng 1: Bảng thuộc tính và gán nhãn giá trị 26 Bảng 2: Tập dữ liệu khách hàng mua máy tính 18 Bảng 3: Dữ liệu có dạng văn bản tập huấn luyện 23 Bảng 4: Bộ dữ liệu được sư dụng để thư nghiệm 26 Bảng 5: Bảng thống kê số lượng mẫu bị khuyết của các đặc trưng .27 Bảng 6: Kết quả thuật toán phân lớp J48 31 Bảng 7: Kết quả khác của thuật toán phân lớp J48 32 Bảng 8: Ma trận hỗn loại thuật toán phân lớp J48 32 Bảng 9: Kết quả sau chạy kiểm thư phân lớp n lần với thuật toán J48 30 Bảng 10: Kết quả thuật toán phân lớp J48 (90:10) 33 Bảng 11: Kết quả khác của thuật toán phân lớp J48 (90:10) 34 Bảng 12: Ma trận hỗn loại thuật toán phân lớp J48 (90:10) 34 Bảng 13: Kết quả sau chạy kiểm thư phân lớp n lần với thuật toán J48 (90:10) 33 Bảng 14: Kết quả thuật toán phân lớp SMO 36 Bảng 15: Kết quả khác của thuật toán phân lớp SMO 36 Bảng 16: Ma trận hỗn loại thuật toán phân lớp SMO 37 Bảng 17: Kết quả sau chạy kiểm thư phân lớp n lần với thuật toán SMO .35 Bảng 18: Kết quả thuật toán phân lớp SMO (90:10) 38 Bảng 19: Kết quả khác của thuật toán phân lớp SMO (90:10) 38 Bảng 20: Ma trận hỗn loại thuật toán phân lớp SMO (90:10) 39 Bảng 21: Kết quả sau chạy kiểm thư phân lớp n lần với thuật toán SMO (90:10) 37 Bảng 22: Kết quả thuật toán phân lớp Naïve Bayes 40 Bảng 23: Kết quả khác của thuật toán phân lớp Naïve Bayes .41 Bảng 24: Ma trận hỡn loại tḥt toán phân lớp Nạve Bayes 41 vii Bảng 25: Kết quả sau chạy kiểm thư phân lớp n lần với thuật toán Naïve Bayes Bảng 26: Kết quả thuật toán phân lớp Naïve Bayes (90:10) Bảng 27: Kết quả khác của thuật toán phân lớp Naïve Bayes (90:10) Bảng 28: Ma trận hỗn loại thuật toán phân lớp Naïve Bayes (90:10) Bảng 29: Kết quả sau chạy kiểm thư phân lớp n lần với thuật toán Naïve Bayes (90:10) 42 38 Với lần chạy thứ 2: Trong đó tỷ lệ dự đoán chính xác Dương tính với bệnh là 13 mẫu, âm tính là 52 mẫu Có tỷ lệ chính xác đạt 83,33% đối với bộ dữ liệu Tỷ lệ dự đoán không chính xác là 13 mẫu với tỷ lệ 16,67% Với lần chạy thứ 7: Trong đó tỷ lệ dự đoán chính xác Dương tính với bệnh là mẫu, âm tính là 57 mẫu Có tỷ lệ chính xác đạt 83,33% đối với bộ dữ liệu Tỷ lệ dự đoán không chính xác là 13 mẫu với tỷ lệ 16,67% Kết quả có hiệu suất tốt nhất các lần chạy tập dữ liệu: Bảng 18: Kết quả thuật toán phân lớp SMO (90:10) Trường hợp phân lớp chính xác Trường hợp phân lớp không chính xác Các kết quả khác của thuật toán phân lớp SMO: Bảng 19: Kết quả khác của thuật toán phân lớp SMO (90:10) Kappa statistic Mean absolute error Root mean squared error Total Number of Instances Ma trận hỗn loạn: 39 Bảng 20: Ma trận hỗn loại thuật toán phân lớp SMO (90:10) 3.3.3 Đánh giá thuật tốn Nạve Bayes 3.3.3.1 Phân loại đầu dựa tập huấn lụn toàn bợ Tḥt toán Nạve Bayes cho kết quả sau tư tập dữ liệu cho: Ở Bảng 21 là kết quả chạy với chế độ huấn luyện toàn bộ bộ dữ liệu training chia sau tiền xư lý dữ liệu Bảng 21: Kết quả sau chạy kiểm thư phân lớp n lần với thuật toán Naïve Bayes K=10 (n lần) 40 10 Tư Bảng 21 ta có thể thấy được với lần chạy thứ cho tỷ lệ không chính xác thấp nhất và lần chạy thứ tỷ lệ dự đoán chính xác là tốt nhất với 690 trường hợp Với lần chạy đầu tiên: Trong đó tỷ lệ dự đoán chính xác Dương tính với bệnh là 147 mẫu, âm tính là 388 mẫu Có tỷ lệ chính xác đạt 77,54% đối với bộ dữ liệu Tỷ lệ dự đoán không chính xác là 155 mẫu với tỷ lệ 22,46% Với lần chạy thứ 4: Trong đó tỷ lệ dự đoán chính xác Dương tính với bệnh là 144 mẫu, âm tính là 387 mẫu Có tỷ lệ chính xác đạt 76,96% đối với bộ dữ liệu Tỷ lệ dự đoán không chính xác là 159 mẫu với tỷ lệ 23,04% Bảng 22: Kết quả thuật toán phân lớp Naïve Bayes Trường hợp phân lớp chính xác Trường hợp phân lớp không chính xác Các kết quả khác của thuật toán phân lớp Naïve Bayes: 41 Bảng 23: Kết quả khác của thuật toán phân lớp Naïve Bayes Kappa statistic Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances Ma trận hỗn loạn: Bảng 24: Ma trận hỗn loại thuật toán phân lớp Naïve Bayes A - Dương tín B – Âm tính Ở Bảng 25 là kết quả chạy huấn luyện tập test 10% bộ dữ liệu training chia sau tiền xư lý dữ liệu 42 Bảng 25: Kết quả sau chạy kiểm thư phân lớp n lần với thuật toán Naïve Bayes (90:10) K=10 Trườ (n lần) x 10 Tư Bảng 25 ta có thể thấy được với lần chạy thứ tỷ lệ dự đoán chính xác là tốt nhất với 78 trường hợp Với lần chạy thứ 8: Trong đó tỷ lệ dự đoán chính xác Dương tính với bệnh là 45 mẫu, âm tính là 19 mẫu Có tỷ lệ chính xác đạt 82,05% đối với bộ dữ liệu Tỷ lệ dự đoán không chính xác là 14 mẫu với tỷ lệ 17,95% Kết quả có hiệu suất tốt nhất các lần chạy tập dữ liệu: 43 Bảng 26: Kết quả thuật toán phân lớp Naïve Bayes (90:10) Trường hợp phân lớp chính xác Trường hợp phân lớp không chính xác Các kết quả khác của thuật toán phân lớp Naïve Bayes : Bảng 27: Kết quả khác của thuật toán phân lớp Naïve Bayes (90:10) Kappa statistic Mean absolute error Root mean squared error Total Number of Instances Ma trận hỗn loạn: Bảng 28: Ma trận hỡn loại tḥt toán phân lớp Nạve Bayes (90:10) 3.4 Đánh giá hiệu suất thuật toán áp dụng Tư các kết quả ở mục 3.3 ta thấy được tỷ lệ dự đoán tốt nhất để áp dụng vào cho bài toán hệ hỗ trợ chẩn đoán bệnh Đái tháo đường thuật toán J48 cho kết quả với hiệu suất tốt nhất với độ chính xác cao nhất và tỷ lệ lỗi thấp nhất 44 Biểu đồ so sánh hiệu suất các thuật toán 100 90 80 70 60 50 40 30 20 10 J48 Xây dựng định dựa thuật toán J48 tư bộ dữ liệu: SVM 45 Hình 9: Cây định được sinh bằng thuật toán J48 46 Các luật sinh ra: plas 123 47 | plas 165: tested_positive (77.0/9.0) Số lượng lá: 22 Kích thước của cây: 43 Kết luận chương Sau áp dụng các thuật toán khai phá dữ liệu kết quả cho thấy thuật toán J48 cho kết quả khả quan nhất, có tỷ lệ chính xác cao nhất thuật toán, và tỷ lệ lỗi cũng ít nhất Trong đó thuật toán Naïve Bayes cho kết quả có tỷ lệ dự đoán chính xác thấp nhất so với các thuật toán lại 48 Kết luận Luận văn thực hiện được các công việc tìm hiểu bệnh Đái tháo đường, hướng điều trị bệnh Đái tháo đường theo tiêu chuẩn của Bợ Y tế Học viên tìm hiểu học máy, đặc biệt các thuật toán học có giám sát, áp dụng một số thuật toán học máy (Decision tree, C4.5, SVM, Nạve Bayes) vào bài toán hỡ trợ chẩn đoán bệnh Đái tháo đường Thực nghiệm một số thuật toán và đánh giá dựa kết quả của các thuật toán Trong tương lai, hệ hỗ trợ chẩn đoán đái tháo đường có thêm giao diện để giao tiếp với người sư dụng và đưa một mô hình có đợ chính xác tớt để chẩn đoán bệnh đái tháo đường Có thể tập trung vào việc thu thập thông tin tư bệnh án của bệnh nhân được theo dõi qua quá trình điều trị để đưa chẩn đoán bệnh một cách chính xác nhất Đề tài này có thể được mở rộng và cải thiện để tự động hóa phân tích bệnh đái tháo đường một cách chính xác nhất 49 DANH MỤC TÀI LIỆU THAM KHẢO [1] Hướng dẫn chẩn đoán và điều trị đái tháo đường típ Quyết định số 3319/QĐ-BYT ngày 19 tháng năm 2017 của Bộ trưởng Bộ Y tế [2] Điều tra quốc gia yếu tố nguy bệnh không lây nhiễm Việt Nam, năm 2015 [3] Hồ Tú Bảo (2017), Khoa học Dữ liệu và Cách mạng Công nghiệp lần thứ Tư [4] Lê Hữu Lập (2014), Bài giảng Phương pháp nghiên cứu khoa học, Học viện Công nghệ BCVT [6] Nguyễn Đức Cường, “Slide bài giảng môn học BI & DM: Bussiness Intellegent and Data Mining”, 2011-2012 [5] Tư Minh Phương (2011), Giáo trình trí tuệ nhân tạo, Học viện Công nghệ BCVT [7] Trần Đình Quế (2019), Bài giảng Khai phá dữ liệu (Data Mining) , Học viện Công nghệ BCVT [8] Arnold Berk, Harvey Lodish, Chris A Kaiser, Monty Krieger, Anthony Bretscher (Bản dịch: Nhiều tác giả) (2012) “4” Molecular Cell Biology (Sinh học phân tư của tế bào) Tập Di truyền học và sinh học phân tư (ấn bản 7) Hoa Kỳ (Bản dịch: Việt Nam): W H Freeman (Bản dịch: Nhà xuất bản Trẻ) tr ISBN 9781429234139 Truy cập ngày tháng năm 2017 [19] Bonora E, Calcaterra F, Lombardi S, Bonfante N, Formentini G, Bonadonna RC, Muggeo M: “Plasma glucose levels throughout the day and HbA1c interrelationships in type diabetes: implications for treatment and monitoring of metabolic control” Diabetes Care 24:2023– 2029, 2001 [17] Class for generating a pruned or unpruned C4.5 decision tree For more information, see Ross Quinlan (1993) C4.5: Programs for Machine Learning Morgan Kaufmann Publishers, San Mateo, CA 50 [9] John C Platt, Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines, Technical Report MSR-TR-98-14 April 21, 1998 [12] Karegowda, Asha Gowda, A S Manjunath, and M A Jayaram "Application of genetic algorithm optimized neural network connection weights for medical diagnosis of pima Indians diabetes." International Journal on Soft Computing 2.2 (2011): 15-23 [15] K Rajalakshmi, Dr S S Dhenakaran, “Analysis of Datamining Prediction Techniques in Healthcare Management System”, International Journal of Advanced Research in Computer Science and Software Engineering, Volume 5, Issue 4, ISSN: 2277 128X, April 2015 [11] Lekkas, Stavros and Ludmil Mikhailov "Evolving fuzzy medical diagnosis of Pima Indians diabetes and of dermatological diseases." Artificial Intelligence in Medicine 50.2 (2010): 117-126 [13] Ms Nilam chandgude, Prof Suvarna pawar, “A survey on diagnosis of diabetes using various classification algorithm”, International Journal on Recent and Innovation Trends in Computing and Communication, Volume: Issue: 12, ISSN: 2321-8169, 6706 – 6710, December 2015 [16] Pragati Agrawal, Amit kumar Dewangan, “A Brief Survey on the Techniques used for the Diagnosis of Diabetes-Mellitus” International Research Journal of Engineering and Technology (IRJET), Volume: 02 Issue: 03, e-ISSN: 2395 - 0056, p-ISSN: 2395-0072, June 2015 [10] T Mitchell, Machine Learning and Data Mining, Communications of the ACM, Vol 42 (1999), No 11, pp 30 36.s [14] Thirumal P C, Nagarajan N, ―Utilization of Data Mining Techniques for Diagnosis of Diabetes Mellitus- A Case Study”, ARPN Journal of Engineering and Applied Sciences, VOL 10, NO 1, ISSN 1819-6608, January 2015 [18] V Anuja Kumari, R.Chitra “Classification Of Diabetes Disease Using Support Vector Machine”, Vol 3, Issue 2, March -April 2013, pp.1797-1801 Website: [21] Class J48 http://weka.sourceforge.net/doc.dev/weka/classifiers/trees/J48.html 51 [20] IDF Diabetes Atlas, Seventh Edition, 2015 Available at:http://www.diabetesatlas.org/component/attachments/?task=download&id=11 [22] Pima-indians-diabetes https://data.world/data-society/pima-indiansdiabetes-database 52 DỰ KIẾN KẾ HOẠCH THỰC HIỆN Kế hoạch thực hiện luận văn thể hiện bản sau: Nội dung TT Nghiên cứu, chọn đề tài, xây dựng đề cương luận văn Nộp đề cương luận văn Bảo vệ đề cương, sưa chữa hoàn thiện, nộp đề cương sau bảo vệ Nghiên cứu, viết, hoàn thiện luận văn Nộp quyển luận văn và hồ sơ bảo vệ luận văn Ý KIẾN CỦA NGƯỜI HƯỚNG DẪN KHOA HỌC (Ký ghi rõ họ tên) TS Đỗ Thị Bích Ngọc Hồng Văn Thắng DUYỆT CỦA TRƯỞNG TIỂU BAN ĐÁNH GIÁ ĐỀ CUƠNG (Ký ghi rõ họ tên) ... Văn Thắng ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG HỖ TRỢ CHẨN ĐOÁN BỆNH ĐÁI THÁO ĐƯỜNG TUÝP CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN MÃ SỐ: 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI... KHOA HỌC TS ĐỖ THỊ BÍCH NGỌC HÀ NỘI - 20 20 i LỜI CAM ĐOAN Tôi cam đoan rằng luận văn này: ? ?Ứng dụng khai phá liệu hỗ trợ chẩn đoán bệnh đái tháo đường tuýp 2? ?? là bài nghiên cứu của chính... nhu cầu thực tế và đó là những lý học viên chọn đề tài ? ?Ứng dụng khai phá liệu hỗ trợ chẩn đoán bệnh đái tháo đường tuýp 2? ?? Tổng quan vấn đề nghiên cứu Xuất phát tư thực trạng các

Ngày đăng: 29/10/2020, 19:23

Xem thêm:

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w