Mục đích của Luận văn này là nghiên cứu tìm hiểu các thuật toán trong chẩn đoán bệnh đái tháo đường, từ đó áp dụng và thử nghiệm hỗ trợ chẩn đoán bệnh đái tháo đường tuýp 2. Để hiểu rõ hơn mời các bạn cùng tham khảo nội dung chi tiết của Luận văn này.
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - HOÀNG VĂN THẮNG ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG HỖ TRỢ CHẨN ĐOÁN BỆNH ĐÁI THÁO ĐƯỜNG TUÝP Chuyên ngành: Hệ thống thông tin Mã số: 8.48.01.04 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI – 2020 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS Đỗ Thị Bích Ngọc Phản biện 1: ………………………………………………… Phản biện 2: ………….…………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thông MỞ ĐẦU Đái tháo đường vấn đề y tế toàn cầu cấp bách của kỷ 21, gánh nặng tài cho chăm sóc y tế cản trở q trình đạt mục tiêu phát triển bền vững, đặc biệt nước thu nhập thấp trung bình Trên tồn giới, năm 2015, có 415 triệu người mắc bệnh đái tháo đường, chi phí y tế tồn cầu cho điều trị đái tháo đường biến chứng 673 tỷ USD Số bệnh nhân mắc bệnh ĐTĐ dự báo tăng 55% vào năm 2040, với chi phí y tế tồn cầu cho ĐTĐ lên tới 802 tỷ USD Tại Việt Nam, năm 2015 có 3.5 triệu người mắc bệnh, chiếm 6% người lớn độ tuổi từ 20 tới 79 Năm 2040, số người mắc bệnh lên tới 6.1 triệu người Chi phí y tế đầu người 162.7 USD Theo điều tra năm 2015 Bộ Y tế, tỉ lệ mắc đái tháo đường độ tuổi 50-69 7.7% có xu hướng ngày trẻ hố Chỉ có 31.1% bệnh nhân đái tháo đường chẩn đốn Do đó, việc phát sớm giúp người bệnh tiết kiệm chi phí điều trị hạn chế thấp biến chứng Bệnh đái tháo đường tuýp chiếm gần 90% trường hợp đái tháo đường thường gọi bệnh đái tháo đường khởi phát người lớn bệnh đái tháo đường không phụ thuộc insulin Vì việc khai phá liệu bệnh án từ hỗ trợ bác sĩ đưa chẩn đốn xác hơn, khách quan Xuất phát từ nhu cầu thực tế lý học viên chọn đề tài “Ứng dụng khai phá liệu hỗ trợ chẩn đoán bệnh đái tháo đường tuýp 2” Nội dung luận văn Chương 1: Tổng quan hệ chuyên gia, trình bày cấu trúc ngun tắc hoạt động hệ chuyên gia Chương 2: Nghiên cứu tìm hiểu thuật toán chẩn đoán bệnh đái tháo đường, từ áp dụng thử nghiệm hỗ trợ chẩn đoán bệnh đái tháo đường tuýp Chương 3: Thử nghiệm lựa chọn thuật toán, Báo cáo đánh giá kết Mặc dù có nhiều cố gắng thời gian lực hạn chế nên luận văn khơng tránh khỏi khiếm khuyết Kính mong thầy đồng nghiệp thơng cảm, cho ý kiến đóng góp Trân trọng cảm ơn ! CHƯƠNG - BÀI TOÁN HỖ TRỢ CHẨN ĐOÁN BỆNH ĐÁI THÁO ĐƯỜNG 1.1 Giới thiệu chung Bệnh đái tháo đường bệnh mạn tính xảy tuyến tụy khơng sản xuất đủ insulin thể sử dụng hiệu insulin tạo 1.2 Khai phá liệu hỗ trợ chẩn đoán bệnh đái tháo đường 1.2.1 Học máy khám phá tri thức Bước thứ nhất: Tìm hiểu lĩnh vực ứng dụng hình thành toán, bước định cho việc rút tri thức hữu ích cho phép chọn phương pháp khai phá liệu thích hợp với mục đích ứng dụng chất liệu Bước thứ hai: Thu thập xử lý liệu thơ, cịn gọi tiền xử lý liệu nhằm loại bỏ nhiễu, xử lý việc thiếu liệu, biến đổi liệu rút gọn liệu cần thiết, bước chiếm nhiều thời gian tồn quy trình khám phá tri thức Bước thứ ba: Khai phá liệu, hay nói cách khác trích mẫu hoặc/và mơ hình ẩn liệu Bước thứ tư: Hiểu tri thức tìm được, đặc biệt làm sáng tỏ mơ tả dự đốn Các bước lặp lặp lại số lần, kết thu được lấy trung bình tất lần thực Bước thứ năm: Sử dụng tri thức khai phá vào thực tế Các tri thức phát tích hợp chặt chẽ hệ thống Tuy nhiên để sử dụng tri thức đơi cần đến chun gia lĩnh vực quan tâm tri thức rút mang tính chất hỗ trợ định sử dụng cho trình khám phá tri thức khác 1.2.2 Học có giám sát Học có giám sát (supervised learning) kỹ thuật ngành học máy nhằm mục đích xây dựng hàm 𝑓 từ tập liệu huấn luyện (Training data) Dữ liệu huấn luyện bao gồm cặp đối tượng đầu vào đầu mong muốn Đầu hàm 𝑓 giá trị liên tục dự đốn nhãn phân lớp cho đối tượng đầu vào Trong đó, thuật toán tạo hàm ánh xạ liệu vào tới kết mong muốn Một phát biểu chuẩn việc học có giám sát tốn phân loại: chương trình cần học (cách xấp xỉ biểu của) hàm ánh xạ vector 𝑋1 , 𝑋2 , … 𝑋𝑛 tới vài lớp cách xem xét số mẫu liệu - kết hàm 1.2.3 Học khơng có giám sát Học khơng có giám sát (unsupervised learning) phương pháp nhằm tìm mơ hình mà phù hợp với quan sát Trong học khơng có giám sát, tập liệu đầu vào thu thập Học khơng có giám sát thường đối xử với đối tượng đầu vào tập biến ngẫu nhiên Sau đó, mơ hình mật độ kết hợp xây dựng cho tập liệu Tất liệu không gắn nhãn thuật tốn tìm hiểu cấu trúc vốn có từ liệu đầu vào Mơ hình hóa tập liệu, khơng có sẵn ví dụ gắn nhãn 1.2.4 Học giám sát phần Học nửa giám sát (semi-supervised learning) lớp kỹ thuật học máy, sử dụng liệu gán nhãn chưa gán nhãn để huấn luyện - điển hình lượng nhỏ liệu có gán nhãn với lượng lớn liệu chưa gán nhãn Học nửa giám sát đứng học khơng giám sát (khơng có liệu có nhãn nào) có giám sát (tồn liệu gán nhãn) Nhiều nhà nghiên cứu nhận thấy liệu không gán nhãn, sử dụng kết hợp với chút liệu có gán nhãn, cải thiện đáng kể độ xác Để gán nhãn liệu cho toán học máy thường địi hỏi chun viên có kĩ để phân loại tay ví dụ huấn luyện Chi phí cho quy trình khiến tập liệu gán nhãn hồn tồn trở nên khơng khả thi, liệu không gán nhãn thường tương đối rẻ tiền Trong tình đó, học nửa giám sát có giá trị thực tiễn lớn lao 1.2.5 Học tăng cường Học tăng cường (reinforcement learning) lĩnh vực học máy, nghiên cứu cách thức agent môi trường nên chọn thực hành động để cực đại hóa khoản thưởng (reward) lâu dài Các thuật tốn học tăng cường cố gắng tìm chiến lược ánh xạ trạng thái giới tới hành động mà agent nên chọn trạng thái Trong đó, thuật tốn học sách hành động tùy theo quan sát giới Mỗi hành động có tác động tới mơi trường, mơi trường cung cấp thông tin phản hồi để hướng dẫn cho thuật tốn q trình học 4 Do đó, học tăng cường đặc biệt thích hợp cho tốn có khoản thưởng ngắn hạn dài hạn Học tăng cường áp dụng thành cơng cho nhiều tốn, có điều khiển robot, điều vận thang máy, viễn thơng, trị chơi có tính may mắn có tính chiến thuật cao cờ vua 1.3 Bài toán hỗ trợ chẩn đoán bệnh đái tháo đường Khai phá liệu lĩnh vực đa ngành, kết hợp học máy, thống kê, cơng nghệ phân tích liệu trí tuệ nhân tạo Khai phá liệu chứng minh có lợi lĩnh vực phân tích y tế làm tăng độ xác chẩn đốn, giảm chi phí điều trị bệnh nhân tiết kiệm nguồn nhân lực Một số phương pháp dự đoán cho đái tháo đường tuýp dựa vào kỹ thuật khai phá liệu Các luật để trích chọn thơng tin cần giải thích Tuy nhiên, y tế, lt trích chọn khơng cần độ xác cao mà cịn phải đơn giản dễ hiểu Mục tiêu luận văn: Đưa model có tỷ lệ dự đốn bệnh nhân dương tính với bệnh Đái tháo đường tuýp Input hệ thống : thuộc tính class (0 tương ứng với âm tính, tương ứng với dương tính) Bảng 1: Bảng thuộc tính gán nhãn giá trị Tḥc tính Số lần mang thai Nồng độ glucose máu Huyết áp (mm Hg) Độ dày nếp gấp da (mm) Insulin huyết Chỉ số khối thể (kg/m2) Chức phả hệ tiểu đường Tuổi (năm) Biến lớp (0 1) 268 768 1, biến khác Gán nhãn giá trị preg plas pres skin insu mass pedi age class Kết luận chương Chương nêu chủ đề cần nghiên cứu, trình bày khái niệm bệnh đái tháo đường, trình bày mơ hình học máy sử dụng để giải tốn Mơ tả input output toán 5 CHƯƠNG 2: KHẢO SÁT MỘT SỐ THUẬT TOÁN CHO HỖ TRỢ CHẨN ĐOÁN BỆNH ĐÁI THÁO ĐƯỜNG TUÝP 2.1 Giới thiệu chung Bệnh đái tháo đường hồ sơ bệnh nhân tính cách sử dụng định theo hai giai đoạn: xử lý trước liệu thuộc tính xác định thứ hai mơ hình dự đốn bệnh đái tháo đường xây dựng cách áp dụng thuật toán sử dụng định Cây định cấu trúc cây, dạng sơ đồ Nó sử dụng phương pháp để phân loại dự đoán với xuất cách sử dụng nút nút Nút gốc nút bên trường hợp thử nghiệm sử dụng để phân tách thể với tính khác Các nút nội kết trường hợp kiểm tra thuộc tính Các nút biểu thị biến lớp Cây định cung cấp kỹ thuật mạnh mẽ để phân loại dự đoán chẩn đoán bệnh đái tháo đường Các thuật tốn định khác có sẵn để phân loại liệu, bao gồm ID3, C4.5, C5, J48, CART, CHAID Trong luận văn này, thuật toán định J48 chọn để thiết lập mơ hình Mỗi nút cho decisiontree tìm thấy cách tính mức tăng thơng tin cao cho tất thuộc tính thuộc tính cụ thể đưa kết tường minh(phân loại rõ ràng thuộc tính lớp), nhánh thuộc tính kết thúc giá trị cuối gán cho 2.2 Khảo sát mơ hình Decision tree Cây định (gọi tắt DT) mơ hình đưa định dựa câu hỏi Cây định (Decision Tree) mơ hình thuộc nhóm thuật tốn Học có giám sát (Supervised Learning) Hàm số Entropy Cho phân phối xác suất biến rời rạc 𝑥 nhận 𝑛 giá trị khác 𝑥1 , 𝑥2 , … , 𝑥𝑛 Giả sử xác suất để 𝑥 nhận giá trị 𝑝𝑖 = 𝑝(𝑥 = 𝑥𝑖 ) Ký hiệu phân phối 𝑝 = (𝑝1 , 𝑝2 , … , 𝑝𝑛 ) Entropy phân phối là: 𝐻(𝑝) = − ∑𝑛𝑖=1 𝑝𝑖 log (𝑝𝑖 ) Hàm Entropy biểu diễn dạng đồ thị sau: Hình 1: Biểu đồ Entropy Từ đồ thị ta thấy, hàm Entropy đạt giá trị nhỏ có giá trị 𝑝𝑖 = 1, đạt giá trị lớn tất 𝑝𝑖 Hàm Entropy lớn độ ngẫu nhiên biến rời rạc cao (càng không tinh khiết) Với định, ta cần tạo ta nhiều thông tin nhất, tức Entropy cao Information Gain Tại tầng cây, cần chọn thuộc tính để độ giảm Entropy thấp Người ta có khái niệm Information Gain tính 𝐺𝑎𝑖𝑛(𝑆, 𝑓) = 𝐻(𝑆) − 𝐻(𝑓, 𝑆) đó: 𝐻(𝑆) Entropy tổng toàn tập data set 𝑆 𝐻(𝑓, 𝑆) Entropy tính thuộc tính 𝑓 Do 𝐻(𝑆) không đổi với tầng, ta chọn thuộc tính 𝑓có Entropy nhỏ để thu 𝐺𝑎𝑖𝑛(𝑆, 𝑓) lớn 2.3 Khảo sát thuật toán C4.5 Phần lớn hệ thống cố gắng để tạo nhỏ tốt, nhỏ dễ hiểu dễ đạt độ xác dự đốn co Do khơng thể đảm bảo cực tiểu định, C4.5 dựa vào nghiên cứu tối ưu hóa, lựa chọn cách phân chia mà có độ đo lựa chọn thuộc tính đạt giá trị cực đại Hai độ đo sử dụng C4.5 information gain gain ratio RF(Cj , S) biểu diễn tần xuất (Relative Frequency) case S thuộc lớp Cj |𝑺 | 𝑹𝑭(𝑪𝒋 , 𝑺) = 𝒋 ⁄|𝑺| Với |Sj | kích thước tập case có giá trị phân lớp Cj |S| kích thước tập liệu đào tạo Chỉ số thông tin cần thiết cho phân lớp: I(S) với S tập cần xét phân phối lớp tính bằng: 𝒙 𝑰(𝑺) = − ∑ 𝑹𝑭(𝑪𝒋 , 𝑺) 𝐥𝐨𝐠(𝑹𝑭(𝑪𝒋 , 𝑺)) 𝒋=𝟏 Sau S phân chia thành tập S1 , S2 ,…, St test B information gain tính bằng: |𝑺𝒊 | 𝑮(𝑺, 𝑩) = 𝑰(𝑺) − ∑ 𝑰(𝑺𝒊 ) |𝑺| Test 𝑩 chọn có 𝑮(𝑺, 𝑩) đạt giá trị lớn Tuy nhiên có vấn đề sử dụng 𝑮(𝑺, 𝑩) ưu tiên test có số lượng lớn kết quả, ví dụ 𝑮(𝑺, 𝑩) đạt cực đại với test mà 𝑺𝒊 chủi chứa case đơn Tiêu chuẩn gain ratio giải vấn đề việc đưa vào thông tin tiềm than phân hoạch |𝑺𝒊 | |𝑺𝒊 | 𝑷(𝑺, 𝑩) = − ∑ 𝐥𝐨𝐠( ) |𝑺| |𝑺| Test 𝑩 chọn có tỉ số giá trị gain ratio = 𝑮(𝑺, 𝑩)⁄𝑷(𝑺, 𝑩) lớn Trong mơ hình phân lớp C4.5, dùng hai loại số Information Gain hay Gain ratio để xác định thuộc tính tốt Trong Gain ratio lựa chọn mặc định 2.4 Khảo sát thuật toán SVM Support Vector Machine (SVM) thuật tốn thuộc nhóm Supervised Learning (Học có giám sát) dùng để phân chia liệu (Classification) thành nhóm riêng biệt SVM phương pháp học có giám sát liên quan sử dụng chẩn đoán y khoa để phân loại hồi quy SVM đồng thời giảm thiểu lỗi phân loại thực nghiệm tối đa hóa biên độ hình học Vì vậy, SVM gọi Maximum Margin Classifiers SVM thuật toán chung dựa giới hạn xác suất kế thừa lý thuyết học thống kê gọi nguyên tắc giảm thiểu rủi ro cấu trúc SVM thực hiệu phân loại phi tuyến tính cách sử dụng thủ thuật kernel, ánh xạ ngầm định đầu vào chúng vào không gian đặc trưng chiều cao Mơ hình SVM đại diện ví dụ dạng điểm khơng gian, ánh xạ cho loại riêng biệt chia cho khoảng cách rõ ràng rộng tốt 2.5 Khảo sát thuật tốn Nạve Bayes Naive Bayes Classification (NBC) thuật toán phân loại dựa tính tốn xác suất áp dụng định lý Bayes Thuật tốn thuộc nhóm Supervised Learning (Học có giám sát) Theo định lý Bayes, ta có cơng thức tính xác suất ngẫu nhiên kiện 𝑦 biết 𝑥 sau: 𝑃(𝑥|𝑦)𝑃(𝑦) 𝑃(𝑦|𝑥) = 𝑃(𝑥) Giả sử ta phân chia kiện 𝑥 thành 𝑛 thành phần khác 𝑥1 , 𝑥2 , … , 𝑥𝑛 Naive Bayes theo tên gọi dựa vào giả thiết 𝑥1 , 𝑥2 , … , 𝑥𝑛 thành phần độc lập với Từ ta tính được: 𝑃(𝑥|𝑦) = 𝑃(𝑥1 ∩ 𝑥2 … ∩ 𝑥𝑛 )|𝑦 = 𝑃(𝑥1 |𝑦)𝑃(𝑥2 |𝑦) … 𝑃(𝑥𝑛 |𝑦) Do ta có: 𝑃(𝑥|𝑦) ∝ 𝑃(𝑦) ∏𝑛𝑖=1 𝑃(𝑥𝑖 |𝑦) | ∝ phép tỉ lệ thuận Trên thực tế tìm liệu mà thành phần hoàn toàn độc lập với Tuy nhiên giả thiết giúp cách tính tốn trở nên đơn giản, training data nhanh, đem lại hiệu bất ngờ với lớp toán định Cách xác định thành phần (class) liệu dựa giả thiết có tên Naive Bayes Classifier Kết luận chương Chương nghiên cứu số thuật toán học máy, thuật toán hỗ trợ toán đưa tỷ lệ dự toán toán chẩn đoán bệnh đái tháo đường Từ áp dụng đánh giá kết thuật toán Chương 9 CHƯƠNG 3: CÀI ĐẶT VÀ THỬ NGHIỆM 3.1 Khảo sát lựa chọn bộ liệu để thử nghiệm Bảng 1: Bộ liệu sử dụng để thử nghiệm Số Số Tập liệu tḥc tính ghi Cơ sở liệu bệnh đái tháo đường người Ấn Độ thuộc Viện Tiểu đường Bệnh tiêu hóa 768 Thận Hoa Kỳ 3.2 Tiền xử lý liệu Tôi chọn liệu Pima Indians Diabetes liệu thu thập số liệu số y khoa người mắc không mắc bệnh đái tháo đường đường vòng năm Pima Indian Đây toán phân lớp nhị phân Số lượng liệu 768 mẫu với đặc trưng số y khoa thuộc tính nhãn lớp Số lượng quan sát cho lớp không đồng Theo kết quan sát được, liệu có đặc trưng có giá trị nhỏ 0, điều đồng nghĩa với việc đặc trưng bị khuyết liệu số mẫu liệu Tuy nhiên, đặc trưng NoPregnant đặc trưng số lần mang thai, người mang thai chưa mang thai Do giá trị đặc trưng biểu thị cho người chưa mang thai bị khuyết liệu Các đặc trưng lại chứa giá trị bị khuyết liệu Các bước xử lý bao gồm: Chuẩn hóa thuộc tính số đoạn [0, 1] lọc Normalize Sau đó, dùng lọc ReplaceMissingValue để thay tất giá trị thiếu giá trị trung bình thuộc tính Chuẩn hố giá trị thuộc tính: Normalization Bộ liệu chia thành 10 phần Trong 90% lựa chọn làm traning, 10% chọn làm test 3.3 Thử nghiệm đánh giá kết Câu hỏi: Có dương tính với bệnh Đái tháo đường đường không? Quyết định đưa dựa yếu tố số bệnh án: Pregnancies (Số lần mang thai), Glucose (nồng độ glucose sau xét nghiệm máu nạp glucose), BloodPressure (Huyết áp), SkinThickness (độ căng da), Insulin (Xét nghiệm máu Insulin giờ), BMI (Chỉ số khối thể), DiabetesPedigreeFunction (chức 10 tiểu đường phả hệ), Age Có nhiều thuật tốn phân lớp ID3, J48, C4.5, CART (Classification and Regression Tree), … Việc chọn thuật tốn để có hiệu phân lớp cao thuộc vào nhiều yếu tố, cấu trúc liệu ảnh hưởng lớn đến kết thuật toán Với thuật toán ID3 CART cho hiệu phân lớp cao trường liệu số (quantitative value) thuật tốn J48, C4.5 có hiệu liệu có giá trị định tính (ordinal, Binary, nominal) Sau chuẩn hóa liệu bảng liệu tồn kiểu Nominal, ta sử dụng thuật toán J48 để đạt hiệu phân lớp cao Từ 768 mẫu liệu, chia thành phần: 90% sử dụng làm training, 10% lại làm đánh giá (test) Mỗi lần chạy chọn liệu train test khác 3.3.1 Đánh giá thuật toán C4.5 Trong phần mềm weka thuật tốn C4.5 có ký hiệu J48 3.3.1.1 Phân loại đầu dựa tập huấn luyện toàn Bảng 2: Kết sau chạy kiểm thử phân lớp n lần với thuật toán J48 Trường hợp phân lớp Trường hợp phân lớp xác (Số trường khơng xác (Số trường hợp) hợp) 90.72 % (626) 9.28 % (64) 85.79 % (592) 14.20 % (98) 82.0 % (566) 17.9 % (124) 84.78 % (585) 15.21 % (105) 83.62 % (577) 16.37 % (113) 84.20 % (581) 15.79 % (109) 80.53 % (556) 18.41 % (134) 80.57 % (556) 19.42 % (134) 84.63 % (584) 15.36 % (106) 10 80.87 % (558) 19.13 % (132) Từ Bảng ta thấy với lần chạy tỷ lệ dự đốn xác tốt với 690 trường hợp Trong tỷ lệ dự đốn xác Dương tính với bệnh 187 mẫu, âm tính 439 mẫu Có tỷ lệ xác đạt 90,72% liệu Tỷ lệ dự đốn khơng xác 64 mẫu với tỷ lệ 9,28% 3.3.1.2 Phân loại đầu dựa tập tin huấn luyện (90:10) K = 10 (n lần) 11 Bảng 3: Kết sau chạy kiểm thử phân lớp n lần với thuật toán J48 (90:10) Trường hợp phân lớp Trường hợp phân lớp K = 10 xác (Số trường khơng xác (Số trường (n lần) hợp) hợp) 71.43 % (55) 28.57 % (22) 75.64 % (59) 24.3 % (19) 69.23 % (54) 30.77 % (24) 56.41 % (44) 43.59 % (34) 80.77 % (63) 19.23 % (15) 91.03 % (71) 8.97 % (7) 74.74 % (53) 25.22 % (26) 84.61 % (66) 15.38 % (12) 71.79 % (56) 28.20 % (22) 10 76.92 % (60) 23.08 % (18) Từ Bảng ta thấy với lần chạy thứ tỷ lệ dự đốn xác tốt với 78 trường hợp Trong tỷ lệ dự đốn xác Dương tính với bệnh 25 mẫu, âm tính 46 mẫu Có tỷ lệ xác đạt 91,03% liệu Tỷ lệ dự đốn khơng xác mẫu với tỷ lệ 8,97% 3.3.2 Đánh giá thuật tốn SVM Trong phần mềm weka thuật tốn SVM có ký hiệu SMO 3.3.2.1 Phân loại đầu dựa tập huấn luyện toàn Bảng 4: Kết sau chạy kiểm thử phân lớp n lần với thuật toán SMO K = 10 (n lần) 10 Trường hợp phân lớp Trường hợp phân lớp xác (Số trường khơng xác (Số trường hợp) hợp) 79.27 % (547) 20.73 % (143) 77.25 % (533) 22.75 % (157) 77.68 % (536) 22.32 % (154) 77.87 % (538) 22.13 % (152) 77.39 % (534) 22.61 % (156) 76.82 % (530) 23.18 % (160) 76.95 % (531) 23.05 % (159) 76.95 % (531) 23.05 % (159) 77.83 %(537) 22.17 %(153) 77.11 % (532) 22.89 % (158) Từ Bảng ta thấy với lần chạy tỷ lệ 12 dự đốn xác tốt với 690 trường hợp Trong tỷ lệ dự đốn xác Dương tính với bệnh 128 mẫu, âm tính 419 mẫu Có tỷ lệ xác đạt 79,28% liệu Tỷ lệ dự đốn khơng xác 143 mẫu với tỷ lệ 20,72% 3.3.2.2 Phân loại đầu dựa tập tin huấn luyện (90:10) Bảng 5: Kết sau chạy kiểm thử phân lớp n lần với thuật toán SMO (90:10) Trường hợp phân lớp Trường hợp phân lớp K = 10 xác (Số trường khơng xác (Số trường (n lần) hợp) hợp) 67.53 % (52) 32.47 % (25) 83.33 % (65) 16.67 % (13) 75.64 % (59) 24.36 % (19) 70.51 % (55) 29.49 % (23) 78.20 % (61) 21.80 % (17) 79.49 % (62) 20.51 % (16) 83.33 % (65) 16.67 % (13) 76.22 % (54) 24.78 % (20) 71.79 % (56) 28.21 % (22) 10 79.49 %( 62) 20.51 % (16) Từ Bảng ta thấy với lần chạy thứ lần chạy thứ tỷ lệ dự đốn xác tốt với 78 trường hợp Với lần chạy thứ 2: Trong tỷ lệ dự đốn xác Dương tính với bệnh 13 mẫu, âm tính 52 mẫu Có tỷ lệ xác đạt 83,33% liệu Tỷ lệ dự đốn khơng xác 13 mẫu với tỷ lệ 16,67% Với lần chạy thứ 7: Trong tỷ lệ dự đốn xác Dương tính với bệnh mẫu, âm tính 57 mẫu Có tỷ lệ xác đạt 83,33% liệu Tỷ lệ dự đốn khơng xác 13 mẫu với tỷ lệ 16,67% 3.3.3 Đánh giá thuật tốn Nạve Bayes 3.3.3.1 Phân loại đầu dựa tập huấn luyện toàn 13 Bảng 6: Kết sau chạy kiểm thử phân lớp n lần với thuật tốn Nạve Bayes Trường hợp phân lớp Trường hợp phân lớp K = 10 xác (Số trường khơng xác (Số trường (n lần) hợp) hợp) 77.54 %(535) 22.46 %(155) 75.94 %(524) 24.06 %(166) 76.52 %(528) 23.48 %(162) 23.04 %(159) 76.96 %(531) 76.66 %(529) 23.34 %(161) 75.07 %(518) 24.93 %(172) 76.48 %(515) 23.32 %(162) 76.08 %(525) 23.92 %(165) 76.38 %(527) 23.62 %(163) 10 76.24 %(526) 23.76 (164) Từ Bảng ta thấy với lần chạy thứ cho tỷ lệ khơng xác thấp lần chạy thứ tỷ lệ dự đốn xác tốt với 690 trường hợp Với lần chạy đầu tiên: Trong tỷ lệ dự đốn xác Dương tính với bệnh 147 mẫu, âm tính 388 mẫu Có tỷ lệ xác đạt 77,53% liệu Tỷ lệ dự đốn khơng xác 155 mẫu với tỷ lệ 22,46% Với lần chạy thứ 4: Trong tỷ lệ dự đốn xác Dương tính với bệnh 144 mẫu, âm tính 387 mẫu Có tỷ lệ xác đạt 76,96% liệu Tỷ lệ dự đốn khơng xác 159 mẫu với tỷ lệ 23,04% 3.3.3.2 Phân loại đầu dựa tập huấn luyện (90:10) Bảng 7: Kết sau chạy kiểm thử phân lớp n lần với thuật toán Naïve Bayes (90:10) Trường hợp phân lớp Trường hợp phân lớp K = 10 xác (Số trường khơng xác (Số trường (n lần) hợp) hợp) 67.53 %(52) 32.47 %(25) 80.77 %(63) 19.23 %(15) 75.64 %(59) 24.36 %(19) 71.79 %(56) 28.21 %(22) 73.08 %(57) 26.92 %(21) 76.92 %(60) 23.08 %(18) 14 10 80.77 %(63) 19.23 %(15) 82.05 %(64) 17.95 %(14) 74.36 %(58) 25.64 %(20) 75.64 %(59) 24.36 %(19) Từ Bảng ta thấy với lần chạy thứ tỷ lệ dự đốn xác tốt với 78 trường hợp Với lần chạy thứ 8: Trong tỷ lệ dự đốn xác Dương tính với bệnh 45 mẫu, âm tính 19 mẫu Có tỷ lệ xác đạt 82,05% liệu Tỷ lệ dự đốn khơng xác 14 mẫu với tỷ lệ 17,95% 3.4 Đánh giá hiệu suất thuật toán áp dụng Từ kết mục 3.3 ta thấy tỷ lệ dự đoán tốt để áp dụng vào cho toán hệ hỗ trợ chẩn đốn bệnh Đái tháo đường thuật toán J48 cho kết với hiệu suất tốt với độ xác cao tỷ lệ lỗi thấp Biểu đồ so sánh hiệu suất thuật toán 100 80 60 40 20 J48 SVM Nạve Bayes Độ xác (%) J48(90:10) SVM (90:10) Naïve Bayes (90:10) Tỷ lệ lỗi (%) Xây dựng định dựa thuật toán J48 từ liệu: 15 Hình 2: Cây định sinh thuật toán J48 Các luật sinh ra: plas 123 | plas 165: tested_positive (77.0/9.0) Số lượng lá: 22 Kích thước cây: 43 Kết luận chương Sau áp dụng thuật tốn khai phá liệu kết cho thấy thuật tốn J48 cho kết khả quan nhất, có tỷ lệ xác cao thuật tốn, tỷ lệ lỗi Trong thuật tốn Nạve Bayes cho kết có tỷ lệ dự đốn xác thấp so với thuật tốn cịn lại 17 Kết luận Hệ hỗ trợ chẩn đoán bệnh đái tháo đường vấn đề y tế quan trọng thực tế Phát bệnh đái tháo đường giai đoạn đầu chìa khóa để điều trị cách triệt để Luận văn cho thấy Cây định sử dụng để mơ hình chẩn đốn bệnh đái tháo đường phục vụ cho việc chẩn đốn, với việc tìm hiểu bệnh đái tháo đường thuật toán áp dụng vào khai phá liệu dựa liệu bệnh án đái tháo đường Trong tương lai, hệ hỗ trợ chẩn đốn đái tháo đường có thêm giao diện để giao tiếp với người sử dụng đưa mơ hình có độ xác tốt để chẩn đốn bệnh đái tháo đường Có thể tập trung vào việc thu thập thông tin từ bệnh án bệnh nhân theo dõi qua trình điều trị để đưa chẩn đốn bệnh cách xác Đề tài mở rộng cải thiện để tự động hóa phân tích bệnh đái tháo đường cách xác ... hình chẩn đoán bệnh đái tháo đường phục vụ cho việc chẩn đốn, với việc tìm hiểu bệnh đái tháo đường thuật toán áp dụng vào khai phá liệu dựa liệu bệnh án đái tháo đường Trong tương lai, hệ hỗ trợ. .. thiệu chung Bệnh đái tháo đường bệnh mạn tính xảy tuyến tụy không sản xuất đủ insulin thể sử dụng hiệu insulin tạo 1 .2 Khai phá liệu hỗ trợ chẩn đoán bệnh đái tháo đường 1 .2. 1 Học máy khám phá tri... %(535) 22 .46 %(155) 75.94 %( 524 ) 24 .06 %(166) 76. 52 %( 528 ) 23 .48 %(1 62) 23 .04 %(159) 76.96 %(531) 76.66 %( 529 ) 23 .34 %(161) 75.07 %(518) 24 .93 %(1 72) 76.48 %(515) 23 . 32 %(1 62) 76.08 %( 525 ) 23 . 92 %(165)