Bài viết Ứng dụng kỹ thuật cây quyết định xây dựng hệ thống dự đoán bệnh đái tháo đường tập trung nghiên cứu kỹ thuật cây quyết định trong khai phá dữ liệu để xây dựng mô hình dự đoán nhằm giúpngười dùng có thể tự kiểm tra nguy cơ mắc bệnh đái tháo đường của mình.
Nguyễn Văn Chức, Trần Thị Kim Hằng ỨNG DỤNG KỸ THUẬT CÂY QUYẾT ĐỊNH XÂY DỰNG HỆ THỐNG DỰ ĐOÁN BỆNH ĐÁI THÁO ĐƯỜNG APPLYING DECISION TREE TECHNIQUE TO BUILD A SYSTEM FOR PREDICTING DIABETES MELLITUS Nguyễn Văn Chức1, Trần Thị Kim Hằng2 Trường Đại học Kinh tế, Đại học Đà Nẵng; Email: chuc1803@gmail.com; Lớp 36K14 Trường Đại học Kinh tế, Đại học Đà Nẵng; Email: hangtran.0709@gmail.com Tóm tắt - Hiện nay, bệnh đái tháo đường ngày trở nên phổ biến khắp giới, có Việt Nam Bệnh gây nhiều biến chứng nguy hiểm không phát chữa trị kịp thời Tuy nhiên, vấn đề phát sớm bệnh đái tháo đường Việt Nam có gặp nhiều khó khăn, vùng sâu, vùng xa, nơi khơng có đầy đủ trang thiết bị y tế cần thiết [3] Bài báo tập trung nghiên cứu kỹ thuật định khai phá liệu để xây dựng mơ hình dự đốn nhằm giúpngười dùng tự kiểm tra nguy mắc bệnh đái tháo đường Trên sở tri thức phát từ mơ hình dự đốn, nhóm nghiên cứu xây dựng giao tiếp web để người dùng dễ dàng sử dụng tri thức vào việc dự đoán nguy mắc bệnh thân nhằm kịp thời phát có biện pháp chữa trị thích hợp Abstract - Nowadays, diabetes mellitus has become a common condition in the world, including Vietnam This disease causes a variety of serious complications if it is not diagnosed and treated in time However, Vietnam has encountered many difficulties in early detection of diabetes, especially in remote areas where there are lack of standard medical equipments [3] This paper focuses on analyzing the decision tree technique in data mining and a predictive model to help people find out the risks of getting diabetes mellitus by themselves Basing on the knowledge learnt from the predictive model, the research group also built an interface on a web platform to help users learn the knowledge about the risk factors, predict how they are likely to develop this disease, to detect and decide appropriate treatments Từ khóa - định; dự đốn bệnh; đái tháo đường; khai phá liệu; mơ hình dự đốn Key words - decision tree; disease prediction; diabetes mellitus; data mining; predictive model Đặt vấn đề Thông thường, để chuẩn đốn người có mắc bệnh đái tháo đường hay không, phải thông qua xét nghiệm đường máu, biện pháp tốn địi hỏi phải có đủ trang thiết bị y tế hỗ trợ Chính điều nên đa số người dân không chủ động làm kiểm tra định kỳ hay xét nghiệm để chuẩn đoán sớm nguy mắc bệnh đái tháo đường, mà thực có dấu hiệu phát bệnh, giai đoạn có biến chứng nghiêm trọng [3] Vì vậy, cần thiết phải có cơng cụ dễ sử dụng tốn cho phép người dùng thường xuyên tự kiểm tra nguy mắc bệnh đái tháo đường mình, nhằm phát có biện pháp chữa trị kịp thời Hệ thống cho phép người dùng cung cấp thông tin lên quan đến sức khỏe cá nhân giới tính, chiều cao, cân nặng, huyết áp, tiền sử bệnh tật yếu tố di truyền kiểm tra nguy mắc bệnh đái tháo đường thân Bài báo tập trung nghiên cứu kỹ thuật định khai phá liệu để xây dựng mơ hình dự đốn nguy mắc bệnh đái tháo đường nhằm giúp người dùng phát sớm nguy mắc bệnh cho giá trị dự đoán Cây định học để dự đoán giá trị biến phân loại cách dựa vào tập liệu huấn luyện (training data) để chọn nút gốc (root node) để phân tách cách tính độ lợi thơng tin (Information Gain - IG), q trình phân tách thực cách đệ qui tiếp tục thực việc phân tách [1], [4] Cây định chia thành hai loại: Cây hồi quy dùng để dự đốn giá trị biến phân loại có kiểu liệu giá trị dự đoán doanh thu, lợi nhuận, giá thành sản phẩm… Thuật toán phổ biến dùng để xây dựng hồi qui CART [5] Cây phân lớp dùng để dự đoán giá trị biến phân loại có kiểu liệu phi giá trị dự đoán khả mua hàng, khả bị bệnh, kết học tập sinh viên (xuất sắc, giỏi, khá, trung bình, yếu) Thuật tốn phổ biến dùng để xây dựng phân lớp ID3, J48, C4.5, C5.0 [5] Giới thiệu kỹ thuật phân lớp liệu dựa vào định Trong lĩnh vực khai phá liệu, định (Decision Tree – DT) mơ hình dự đốn thuộc lớp toán phân lớp dùng để xác định lớp đối tượng cần dự đoán [1] Bản chất định dựa vào dãy luật IF … THEN để dự đoán lớp đối tượng Mỗi nút (internal node) DT tương ứng với biến, đường nối nút với nút thể giá trị cụ thể biến Mỗi nút (leaf) đại diện Xây dựng hệ thống dự đốn bệnh đái tháo đường 3.1 Mơ tả hệ thống Mục đích: Ứng dụng định xây dựng mơ hình dự đốn nguy mắc bệnh đái tháo đường Đầu vào: Gồm đặc trưng liên quan như: giới tính, chiều cao, cân nặng, huyết áp, …; thông tin tiền sử bệnh; yếu tố di truyền Đầu ra: Dự đốn nguy mắc bệnh: bình thường, tiền đái tháo đường, đái tháo đường 3.2 Kịch triển khai hệ thống dự đoán bệnh Hệ thống dự đoán bệnh đái tháo đường tiến hành theo bước Hình ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(85).2014, QUYỂN Thu thập tiền xử lý liệu Xây dựng mơ hình định dự đoán bệnh đái tháo đường Phát tri thức từ mơ hình dự đốn Ứng dụng tri thức phát vào dự đoán bệnh đái tháo đường Hình Kịch triển khai hệ thống dự đoán bệnh Bước Thu thập và tiền xử lý liệu Dữ liệu thu thập gần 8100 mẫu, thông tin bệnh nhân Trung tâm Phòng chống Sốt rét - Bướu cổ tỉnh Quảng Nam, nơi thực chương trình “Sàng lọc đái tháo đường” dưới đạo chuyên môn, nghiệp vụ Bệnh viện Nội tiết Trung ương Ban điều hành dự án chống bệnh đái tháo đường quốc gia, thu thập qua năm 2012-2013 [3] Dữ liệu điều tra ban đầu gồm nhiều thuộc tính, sau trình tiền xử lý liệu (sử dụng phương pháp trích chọn thuộc tính) để đánh giá mức độ ảnh hưởng thuộc tính đến nguy mắc bệnh đái tháo đường, mơ hình xác định thuộc tính có ảnh hưởng đến nguy mắc bệnh đái tháo đường Bảng Bảng Mô tả liệu Tên thuộc tính ID GioiTinh Tuoi TCCongViec Kiểu liệu Miền giá trị Nominal 000001-008084 Nominal Nu, Nam Interval 64 Nominal HTTT, Nhe, TB, Nang TDHV Nominal TDHV1, TDHV2, TDHV3, TDHV4, TDHV5, TDHV6 MacBenhHA ChuaHA1 Nominal Nominal Co, Khong Da, Chua, KhongMBHA ChuaHA2 Nominal Da, Chua, KhongMBHA 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 ChuaHA3 BoMeDTD ACEDTD OngBaNoiDTD ConDTD TS1 TS2 TS3 TS4 TS5 RLMM CanNangNhat TuoiCanNangNhat DaMangThai ConNang ConNhe DTDMT Nominal Nominal Nominal Nominal Nominal Nominal Nominal Nominal Nominal Nominal Nominal Interval Interval Nominal Interval Interval Nominal 26 27 28 29 30 31 32 ChieuCao CanNang BMI BMINangNhat VE VH HATTh Interval Interval Interval Interval Interval Interval Interval 33 34 HATTr KQ Interval Nominal Da, Chua, KhongMBHA Co, Khong Co, Khong Co, Khong Co, Không Co, Khong Co, Khong Co, Khong Co, Khong Co, Khong Co, Khong 90 59 Da, Chua, GTNam 3600 3600 Co, Khong, KhongBiet, GioiTinhNamHoacChuaMangThai 1.69 90 27 27 90 100 180 129 Huyết áp tâm trương bệnh nhân (mmHg) BT, TienDTD, DTD Kết quả, biến phân lớp STT Giải thích Mã bệnh nhân, khóa Giới tính bệnh nhân Độ tuổi bệnh nhân Tính chất cơng việc bệnh nhân: Hoàn toàn tĩnh tại, nhẹ, trung bình hay nặng Trình độ học vấn bệnh nhân: Không biết đọc, viết; Biết đọc, biết viết; Tốt nghiệp tiểu học; Tốt nghiệp trung học sở; Tốt nghiệp phổ thông trung học; Tốt nghiệp trung học chuyên nghiệp, CĐ, ĐH cao Bệnh nhân có mắc bệnh huyết áp hay khơng Bệnh nhân chữa bệnh tăng huyết áp phương pháp ăn uống luyện tập hay chưa Bệnh nhân chữa bệnh tăng huyết áp thuốc đông y, thuốc nam hay chưa Bệnh nhân chữa bệnh tăng huyết áp thuốc tây y hay chưa Bố mẹ đẻ có bị mắc bệnh DTD hay khơng Anh, chị, em ruột có bị mắc bệnh DTD hay khơng Ơng, bà nội ruột có bị mắc bệnh DTD hay khơng Con ruột có bị mắc bệnh DTD hay khơng Đã có tiền sử bệnh đột qụy hay khơng Đã có tiền sử bệnh đau thắt ngực hay khơng Đã có tiền sử bệnh suy tim hay khơng Đã có tiền sử bệnh lt bàn chân hay khơng Có bị cắt cụt chi hay không Đã bị chuẩn đoán rối loạn mỡ máu hay chưa Lúc nặng kg? (ĐVT: Kg) Tuổi có cân nặng cao nhất? Đã mang thai chưa? Cân nặng lúc sinh bao nhiêu? (ĐVT: gam) Cân nhẹ lúc sinh bao nhiêu? (ĐVT: gam) Đã chẩn đoán bị đái tháo đường mang thai không? Chiều cao bệnh nhân (ĐVT: mét) Cân nặng bệnh nhân (ĐVT: Kg) Chỉ số BMI bệnh nhân Chỉ số BMI lúc cân nặng bệnh nhân Vòng eo bệnh nhân (cm) Vịng hơng bệnh nhân (cm) Huyết áp tâm thu bệnh nhân (mmHg) Nguyễn Văn Chức, Trần Thị Kim Hằng Bước Xây dựng mơ hình dự đốn nguy mắc bệnh Mơ hình định dự đoán nguy mắc bệnh đái tháo đường xây dựng công cụ khai phá liệu Business Intelligence Development Studio (BIDS) Microsoft BIDS công cụ mạnh cho phép triển khai mơ hình khai phá liệu, sử dụng rộng rãi khả kết nối dễ dàng với nhiều nguồn liệu, giao diện dễ sử dụng khả biểu diễn tri thức phát trực quan dễ hiểu, dễ sử dụng BIDS tích hợp vào SQL SERVER 2005 trở sau phiên Enterprise Development [2], [6] Sau thực thao tác tiền xử lý liệu để phù hợp với mơ hình khai phá liệu, sử dụng Microsoft Decision Tree BIDS để xây dựng định dự đoán nguy mắc bệnh đái tháo đường Kết định dự đoán nguy mắc bệnh đái tháo đường Hình Bước Phát tri thức từ mơ hình định Từ định xây dựng, tri thức phát cho dưới dạng luật IF … THEN sau: IF L1 ANDL2 AND … AND Ln THEN Kết = M Trong đó: L1, L2, …, Ln biểu thức logic mà vế trái thuộc tính vế phải giá trị có thuộc tính M giá trị biến kết cần dự đốn (bình thường, tiền đái tháo đường, đái tháo đường) Chẳng hạn, luật trích từ định dự đoán bệnh đái tháo đường xây dựng sau: IF VE = '>90' and HAT Th = '161-180' and TC Cong Viec = 'TB' and Gioi Tinh = 'Nam' and Tuoi Can Nang Nhat = '4959' and Can Nang Nhat = '67-78' THEN KQ = “DTD” (Nếu người có vịng eo 90cm, có huyết áp tâm thu đo nằm khoảng 161-180 mmHg, tính chất cơng việc trung bình, giới tính Nam, tuổi lúc cân nặng nằm khoảng 49-59 trọng lượng nặng khoảng 67-78kg người có khả mắc bệnh đái tháo đường với xác suất 60%) Hình Mạng phụ thuộc mơ hình Ngồi ra, mạng phụ thuộc mơ hình cho biết trọng số nhân tố ảnh hưởng đến nguy mắc bệnh đái tháo đường Hình Từ mạng phụ thuộc mơ hình, ta biết mức độ ảnh hưởng nhân tố đến nguy mắc bệnh đái tháo đường, liệt kê theo mức độ ảnh hưởng giảm dần, Bảng 2.Bảng mức độ ảnh hưởng nhân tố đến nguy mắc bệnh đái tháo đường Tên nhân tố STT STT Tên nhân tố Huyết áp tâm thu 13 BMI Tuổi 14 Giới tính Vòng eo 15 Rối loạn mỡ máu Cân nặng 16 BMI nặng Con nặng 17 Cân nặng Trình độ học vấn 18 Tuổi cân nặng Chiều cao 19 Chữa huyết áp Vịng hơng 20 Đã mang thai Tính chất công việc 21 Bố mẹ đái tháo đường 10 Đái tháo đường mang thai 22 Tiền sử 11 Con nhẹ 23 Chữa huyết áp 12 Huyết áp tâm trương 24 Chữa huyết áp Bước Ứng dụng tri thức phát vào dự đoán bệnh đái tháo đường Dựa vào tri thức phát từ mơ hình định, hệ thống giao tiếp xây dựng web cho phép người dùng sử dụng dự đoán nguy mắc bệnh đái tháo đường Hệ thống cho kết nguy mắc bệnh người dùng ứng với thơng tin người dùng cung cấp Hình Kết luận hướng phát triển Cây định kỹ thuật khai phá liệu sử dụng phổ biến để giải toán phân lớp liệu tính đơn giản, hiệu nhất khả biểu diễn tri thức phát trực quan, dễ hiểu, dễ sử dụng Bài báo tìm hiểu lý thuyết định, từ nghiên cứu ứng dụng kỹ thuật vào xây dựng mơ hình dự đốn nguy mắc bệnh đái tháo đường Dựa vào mơ hình xây dựng, nhóm nghiên cứu xây dựng ứng dụng web giúp cho người dùng dễ dàng sử dụng tri thức phát từ mơ hình việc kiểm tra nguy mắc bệnh đái tháo đường thân Hiện nay, có nhiều hệ thống (website) giới thiệu bệnh đái tháo đường cách phòng chữa bệnh Tuy nhiên, hệ thống dừng lại việc cung cấp thông tin bệnh, chưa giải vấn đề quan trọng giúp người dùng tự dự đốn nguy mắc bệnh đái tháo đường thân Kết nghiên cứu báo hỗ trợ cho người dùng tự kiểm tra nguy mắc bệnh đái tháo đường thân, từ nâng cao ý thức việc chủ động phòng ngừa phát sớm nguy mắc bệnh đái tháo đường nhằm giảm thiểu thiệt hại bệnh đái tháo đường đối với xã hội ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(85).2014, QUYỂN Hình Giao tiếp người dùng với hệ thống dự đốn bệnh đái tháo đường Hình Một nhánh định dự đoán bệnh đái tháo đường TÀI LIỆU THAM KHẢO [1] Rokach Lior; Maimon O., Data mining with decision trees: theory and applications, World Scientific Pub Co Inc ISBN 9789812771711, 2008 [2] JamieMacLennan, Z T., Bogdan Crivat, Data Mining with Microsoft SQL Server 2008, Indianapolis, Indiana: Wiley Publishing, Inc, 2008 [3] Trung tâm Phòng chống Sốt rét-Bướu cổ tỉnh Quảng Nam, Tài liệu tập huấn sàng lọc quản lý tiền đái tháo đường bệnh đái tháo đường tuýp Trung tâm Phòng chống Sốt rét - Bướu cổ tỉnh Quảng Nam, 2013 [4] Nguyễn Đức Thuần, 2013, Nhập môn khai phá liệu quản trị tri thức, NXB Thông tin Truyền thông [5] Nguyễn Văn Chức, Ứng dụng kỹ thuật định khai phá liệu xây dựng hệ thống tư vấn chọn ngành tuyển sinh đại học, Tạp chí KH&CN ĐHĐN, số 1(74).2014, Quyển [6] http://msdn.microsoft.com/en-us/library/ms173767.aspx (Introducing Business Intelligence Development Studio) (BBT nhận bài: 27/08/2014, phản biện xong: 03/11/2014 ... nghiên cứu ứng dụng kỹ thuật vào xây dựng mơ hình dự đoán nguy mắc bệnh đái tháo đường Dựa vào mơ hình xây dựng, nhóm nghiên cứu xây dựng ứng dụng web giúp cho người dùng dễ dàng sử dụng tri thức... sử dụng Microsoft Decision Tree BIDS để xây dựng định dự đoán nguy mắc bệnh đái tháo đường Kết định dự đoán nguy mắc bệnh đái tháo đường Hình Bước Phát tri thức từ mơ hình định Từ định xây dựng, ... tri thức phát từ mơ hình định, hệ thống giao tiếp xây dựng web cho phép người dùng sử dụng dự đoán nguy mắc bệnh đái tháo đường Hệ thống cho kết nguy mắc bệnh người dùng ứng với thông tin người