1. Lý do chọn đề tài Bệnh đái tháo đường (ĐTĐ) là một bệnh lý mạn tính, xảy ra khi cơ thể không thể sản xuất đủ insulin hoặc sử dụng insulin một cách hiệu quả. Insulin là một nội tiết tố giúp cơ thể chuyển hóa lượng đường trong máu (glucose) thành năng lượng. Khi cơ thể không có đủ insulin hoặc không thể sử dụng insulin một cách hiệu quả, lượng đường trong máu sẽ tăng cao. Điều này có thể dẫn đến nhiều biến chứng nghiêm trọng, bao gồm bệnh tim, đột quỵ, mù lòa, suy thận và cắt cụt chi. Theo số liệu thống kê từ Liên đoàn Đái tháo đường Thế giới (IDF) năm 2021 cho thấy, cả thế giới có tới 537 triệu người mắc bệnh ĐTĐ, tương ứng với tỉ lệ cứ 10 người lớn độ tuổi 20 79 tuổi có một người mắc ĐTĐ. Đặc biệt, có tới 44.7% số người trưởng thành mắc ĐTĐ mà không được chẩn đoán. IDF chỉ ra, bệnh ĐTĐ hiện nay có thể coi là một loại bệnh dịch toàn cầu với 240 triệu người sống chung với bệnh ĐTĐ không được chẩn đoán. Tại Việt Nam, số liệu từ Hội nội tiết và ĐTĐ cho biết, hiện có tới 3,53 triệu người đang “chung sống” với căn bệnh ĐTĐ và mỗi ngày có ít nhất 80 trường hợp tử vong vì các biến chứng liên quan. Dự báo, số người bắc bệnh có thể tăng lên 6,3 triệu vào năm 2045. Cùng nằm trong xu hướng đó, Việt Nam được xếp trong 10 quốc gia có tỉ lệ gia tăng bệnh nhân ĐTĐ cao nhất thế giới với tỉ lệ tăng 5,5% mỗi năm. Bệnh ĐTĐ rất nguy hiểm và cần được điều trị suốt đời. Thông thường, chẩn đoán bệnh ĐTĐ thường dựa trên các xét nghiệm máu, bao gồm xét nghiệm đường huyết lúc đói, xét nghiệm đường huyết sau khi ăn 2 giờ và xét nghiệm HbA1c. Tuy nhiên, các xét nghiệm này thường tốn kém và đòi hỏi phải có đủ trang thiết bị y tế hỗ trợ. Và chẩn đoán bệnh là công việc yêu cầu tính chuyên môn và độ chính xác cao của đội ngũ chuyên gia, bác sĩ. Chính vì điều này nên đa số người dân không chủ động làm các kiểm tra định kỳ hay các xét nghiệm để chẩn đoán sớm nguy cơ mắc bệnh ĐTĐ, mà chỉ thực hiện khi đã có các dấu hiệu phát bệnh, giai đoạn mà không được kiểm soát chặt chẽ sẽ dẫn tới những biến chứng rất nguy hiểm. Hiện nay, có rất nhiều hệ thống (website) giới thiệu về bệnh ĐTĐ cũng như cách phòng chữa bệnh này. Ví dụ như ứng dụng đo đường huyết POPS là sản phẩm theo dõi đường huyết khá sáng tạo của công ty POPS Diabetes Care tại Minneapolis Mỹ (Care). Theo đó, hệ thống này gồm phần cứng là thiết bị POPS nhỏ gọn, có thể dính vào phía sau điện thoại thông minh của người dùng. Từ đó lấy mẫu máu, phân tích và đưa ra kết quả. Ưu điểm sản phẩm này là độ chính xác khá cao, nhỏ gọn, tiện dụng, có thể mang theo bên mình mọi lúc cùng chiếc điện thoại di động, kết quả được trả về sau 30 giây, một khoảng thời gian khá ấn tượng so với các cách lấy mẫu và trả kết quả truyền thống. Nhưng nhược điểm là người dùng bắt buộc phải lấy máu qua thiết bị để có kết quả chỉ số đường huyết và sản phẩm không được cung cấp miễn phí. Hay như ứng dụng kiểm soát đường huyết Glucose Meter do công ty DVMS Việt Nam viết phần mềm và phát hành (DVMS). Ứng dụng có chức năng chính là kiểm tra tình trạng đường huyết thông qua chế độ ăn uống thường ngày. Người dùng cập nhật thông tin về tên và khối lượng thực phẩm sử dụng hàng ngày trên ứng dụng. Ứng dụng sẽ tự động tính toán chỉ số đường huyết trong thực phẩm tiêu thụ mỗi ngày, đưa ra giới hạn vùng đường huyết an toàn cho người bệnh. Ưu điểm của Glucose Meter giúp người bệnh kiểm soát được lượng đường nạp vào cơ thể hàng ngày để điều chỉnh chế độ ăn uống phù hợp, lành mạnh nhưng nhược điểm là tùy lứa tuổi, giai đoạn bệnh, mức độ các biến chứng, bệnh mắc kèm… mà vùng đường huyết an toàn của mỗi người bệnh có thể khác nhau. Vì vậy toàn bộ dữ liệu trên ứng dụng chỉ mang tính tham khảo. Ứng dụng chỉ dừng lại ở việc cung cấp một số thông tin về bệnh nhưng chưa giải quyết được vấn đề quan trọng đó là giúp người dùng tự dự đoán được nguy cơ mắc bệnh ĐTĐ của bản thân. Hay như nghiên cứu khoa học của hai tác giả Nguyễn Văn Chức và Trần Thị Kim Hằng về “ứng dụng kỹ thuật cây quyết định xây dựng hệ thống dự đoán bệnh đái tháo đường” đăng trên kỷ yếu hội thảo khoa học CITA 2014 “CNTT và ứng dụng trong các lĩnh vực” cũng sử dụng cây quyết định để xây dựng mô hình dự đoán nguy cơ mắc bệnh ĐTĐ (Chức Hằng, 2014). Trong nghiên cứu của Nguyễn Văn Chức và Trần Thị Kim Hằng, tập dữ liệu huấn luyện mẫu bao gồm các thông tin về giới tính, tuổi, cân nặng, chiều cao, huyết áp, chỉ số mỡ máu. Kết quả nghiên cứu của bài báo nhằm hỗ trợ cho người dùng có thể tự kiểm tra nguy cơ mắc bệnh ĐTĐ. Nhưng mẫu thông tin huấn luyện còn ít và dừng lại ở các thông tin cơ bản. Triệu chứng của bệnh ĐTĐ bao gồm khát nước quá mức và khô miệng, đi tiểu thường xuyên, thiếu năng lượng, mệt mỏi, vết thương chậm lành, nhiễm trùng tái phát ở da, mờ mắt, ngứa ran hoặc tê ở tay và chân. Những triệu chứng này có thể nhẹ hoặc không có, vì vậy những người mắc bệnh ĐTĐ có thể sống chung với bệnh này vài năm trước khi phát hiện. Từ những hạn chế của các nghiên cứu trước đây, và nhận thấy sự cần thiết về việc phổ cập kiến thức các triệu chứng đặc trưng của bệnh ĐTĐ cũng như giúp cho mọi người có thể dễ dàng chẩn đoán sớm xem mình có khả năng mắc bệnh hay không là lý do chính để thực hiện đề tài. Hệ thống này cho phép người dùng cung cấp các thông tin liên quan đến sức khỏe cá nhân như tuổi, giới tính, tiền sử triệu chứng đặc trưng của bệnh ĐTĐ thì có thể kiểm tra được nguy cơ mắc bệnh ĐTĐ của bản thân. Luận văn tập trung nghiên cứu về kỹ thuật phân lớp dữ liệu dựa vào cây quyết định trong khai phá dữ liệu kết hợp với bộ dữ liệu được thu thập từ hồ sơ bệnh án bao gồm các triệu chứng đặc trưng của bệnh ĐTĐ của các bệnh nhân được chẩn đoán mắc bệnh hoặc không mắc bệnh. Từ tri thức phát hiện được sẽ xây dựng ứng dụng dự đoán giúp người dùng phát hiện sớm xem có thể mắc bệnh hay không mắc bệnh ĐTĐ. Ứng dụng này có thể được sử dụng rộng rãi trong cộng đồng để nâng cao nhận thức về bệnh ĐTĐ và giúp người dân chủ động phòng ngừa bệnh. 2. Mục đích nghiên cứu Nghiên cứu và phân tích các vấn đề về phân lớp dữ liệu bằng cây quyết định của các nghiên cứu trong và ngoài nước, luận văn đưa ra mục đích nghiên cứu chính như sau: Xây dựng mô hình học phân lớp dữ liệu bằng cây quyết định. Đề xuất thuật toán C4.5 bằng cây quyết định cho bài toán phân lớp nhằm đạt hiệu quả trong dự đoán và đơn giản đối với người dùng. Để đáp ứng cho các mục đích nghiên cứu trên, luận văn tập trung nghiên cứu các nội dung chính sau: Nghiên cứu các thuật toán học cây truyền thống ID3 (Iterative Dichotomiser 3), C4.5 (a successor of ID3) và CART trên mỗi tập mẫu huấn luyện để tìm phương pháp học đạt hiệu quả dự đoán cao. Nghiên cứu phương pháp chia tập mẫu huấn luyện cho việc học cây quyết định từ các kho dữ liệu. Nghiên cứu để đề xuất các thuật toán C4.5 phân lớp bằng cây quyết định nhằm đạt hiệu quả trong dự đoán và đơn giản đối với người dùng. Phân tích và đánh giá kết quả của các thuật toán học đã đề xuất với các thuật toán khác trên các bộ dữ liệu để đối sánh. 3. Nhiệm vụ nghiên cứu Nhiệm vụ nghiên cứu của luận văn về khoa học: Xây dựng mô hình học phân lớp dữ liệu bằng cây quyết định từ tập mẫu huấn luyện. Đề xuất phương pháp chia tập mẫu huấn luyện cho việc học phân lớp bằng cây quyết định từ dữ liệu. Luận văn đã xây dựng bài toán phân lớp bằng cây quyết định, sử dụng thuật toán C4.5. Áp dụng học phân lớp dữ liệu bằng cây quyết định cho bài toán phân lớp dữ liệu bệnh đái tháo đường. Những đóng góp chính của luận văn về thực tiễn: Góp phần chứng tỏ khả năng ứng dụng phong phú của cây quyết định trong biểu diễn và xử lý thông tin. Luận văn đã góp phần vào việc giải quyết vấn đề khai phá tri thức từ dữ liệu bệnh đái tháo đường. 4. Đối tượng và phạm vi nghiên cứu Phân lớp dữ liệu là vấn đề lớn và quan trọng của khai phá dữ liệu. Cây quyết định là giải pháp hữu hiệu của bài toán phân lớp, nó bao gồm từ mô hình cho quá trình học đến các thuật toán huấn luyện cụ thể để xây dựng cây. Đối tượng luận văn tập trung vào bệnh ĐTĐ, nghiên cứu mô hình cho quá trình huấn luyện cây từ tập mẫu huấn luyện, nghiên cứu phương pháp xử lý thuật toán học phân lớp dữ liệu bằng cây quyết định C4.5 nhằm đạt hiệu quả trong dự đoán bệnh ĐTĐ. Phạm vi nghiên cứu của luận văn dựa vào nguồn dữ liệu thống kê về bệnh ĐTĐ, ứng dụng giải thuật C4.5 nhằm khai phá dữ liệu để có thể tìm được tri thức giúp đóng góp cho nghiên cứu cũng như ứng dụng thực tế. Bên cạnh đó là đánh giá hiệu quả, độ chính xác của thuật toán C4.5 với các thuật toán ID3 và CART. 5. Phương pháp nghiên cứu Phương pháp nghiên cứu tài liệu, tổng hợp và hệ thống hóa: tìm hiểu kiến thức, tìm kiếm, thu thập tài liệu về các công trình nghiên cứu đã được công bố ở các bài báo đăng ở các hội thảo và tạp chí lớn; nghiên cứu các phương pháp xây dựng cây quyết định đã có, nhằm phân tích những thuận lợi và khó khăn trong quá trình học phân lớp dữ liệu bằng cây quyết định. Từ đó làm tiền đề để nắm bắt kiến trúc hệ thống, các giải thuật xử lý dữ liệu cũng như các bước tiến hành để xây dựng ứng dụng. Nghiên cứu kiến thức về khai phá dữ liệu nhằm nắm bắt các kỹ thuật, các giải thuật xử lý dữ liệu cũng như các bước tiến hành để xây dựng ứng dụng. Tìm hiểu kiến thức về ngôn ngữ lập trình, cơ sở dữ liệu và các công cụ hỗ trợ khác để phát triển hệ thống. Phương pháp thực nghiệm khoa học: nghiên cứu thông tin dữ liệu về bệnh đái tháo đường. Phân tích dữ liệu các bệnh án, hỗ trợ chẩn đoán bệnh đái tháo đường. Sử dụng bộ dữ liệu thực tế về bệnh đái tháo đường cho quá trình thử nghiệm, đánh giá. Thực hiện việc thử nghiệm, đánh giá thuật toán C4.5 trong luận văn nhằm minh chứng cho tính hiệu quả về độ chính xác trong quá trình dự đoán. 6. Bố cục luận văn Ngoài phần mở đầu và tài liệu tham khảo, luận văn được chia làm 3 chương. Nội dung của luận văn được trình bày với bố cục như sau: Chương 1: Cây quyết định và thuật toán C4.5. Chương này trình bày các vấn đề cơ bản của bài toán phân lớp dữ liệu bằng cây quyết định, các hạn chế của cây quyết định và sự cần thiết của bài toán phân lớp bằng cây quyết định. Chương 2: Bài toán hỗ trợ chẩn đoán bệnh đái tháo đường. Chương này trình bày thông tin về dữ liệu bệnh đái tháo đường và phân tích thiết kế hệ thống để triển khai áp dụng giải thuật C4.5 vào ứng dụng thực tế. Chương 3: Kết quả và ứng dụng chẩn đoán bệnh đái tháo đường. Chương này trình bày kết quả khi sử dụng thuật toán C4.5 vào dự đoán bệnh đái tháo đường và ứng dụng thực tiễn về chẩn đoán bệnh đái tháo đường.
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DUY TÂN NGUYỄN ANH QUÂN ÁP DỤNG THUẬT TOÁN CÂY QUYẾT ĐỊNH C4.5 ĐỂ ỨNG DỤNG VÀO CHẨN ĐOÁN BỆNH TIỂU ĐƯỜNG LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH ĐÀ NẴNG, 2024 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DUY TÂN NGUYỄN ANH QUÂN ÁP DỤNG THUẬT TOÁN CÂY QUYẾT ĐỊNH C4.5 ĐỂ ỨNG DỤNG VÀO CHẨN ĐOÁN BỆNH TIỂU ĐƯỜNG Chuyên ngành: Khoa học máy tính Mã số: 8480101 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS HÀ THỊ NHƯ HẰNG ĐÀ NẴNG, 2024 i LỜI CẢM ƠN Trong trình thực đề tài “Áp dụng thuật toán định C4.5 để ứng dụng vào chẩn đoán bệnh tiểu đường”, nhận nhiều giúp đỡ, tạo điều kiện tập thể Ban giám hiệu, Ban sau đại học, Trường khoa học máy tính phịng chức Trường Đại học Duy Tân Tơi xin bày tỏ lòng cảm ơn chân thành giúp đỡ q báu Tơi xin bày tỏ lòng biết ơn sâu sắc tới TS Hà Thị Như Hằng người hướng dẫn trực tiếp bảo cho tơi hồn thành luận văn Tơi xin chân thành cảm ơn gia đình, bạn bè đồng nghiệp động viên, khích lệ, tạo điều kiện giúp đỡ tơi suốt q trình thực hồn thành luận văn TÁC GIẢ LUẬN VĂN Nguyễn Anh Quân LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng tơi, hướng dẫn khoa học TS Hà Thị Như Hằng Các số liệu kết nghiên cứu luận văn trung thực không trùng lặp với đề tài khác Mọi giúp đỡ cho việc thực luận văn trích dẫn hay tài liệu học thuật tham khảo trích dẫn luận văn rõ nguồn gốc TÁC GIẢ LUẬN VĂN Nguyễn Anh Quân MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN .ii DANH MỤC CÁC TỪ VIẾT TẮT v DANH MỤC CÁC KÝ HIỆU vi DANH MỤC CÁC BẢNG BIỂU .vii DANH MỤC CÁC HÌNH VẼ viii MỞ ĐẦU .1 Lý chọn đề tài Mục đích nghiên cứu 3 Nhiệm vụ nghiên cứu 4 Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu .5 Bố cục luận văn Chương CÂY QUYẾT ĐỊNH VÀ THUẬT TOÁN C4.5 .7 1.1 Khái niệm định 1.2 Các loại định .8 1.3 Khởi tạo định 1.4 Sử dụng định 10 1.5 Duyệt phân lớp liệu 11 1.6 Độ đo đánh giá hiệu suất phân loại 15 1.7 Đánh giá độ xác mơ hình phân lớp 17 1.8 Ưu nhược điểm định 19 1.9 Thuật toán sử dụng xây dựng định 19 1.10 Thuật toán C4.5 .20 1.11 Kết luận chương 28 Chương BÀI TOÁN HỖ TRỢ CHẨN ĐOÁN BỆNH ĐÁI THÁO ĐƯỜNG 29 2.1 Mơ tả tốn ứng dụng 29 2.2 Phân tích thiết kế hệ thống 31 2.3 Dữ liệu bệnh đái tháo đường 44 2.4 Mơ tả thuộc tính liệu 45 2.5 Xây dựng mơ hình định với thuật toán C4.5 48 2.6 Xây dựng luật cho hệ thống chẩn đoán .50 2.7 Kết luận chương 50 Chương ỨNG DỤNG CHẨN ĐOÁN BỆNH ĐÁI THÁO ĐƯỜNG VÀ KẾT QUẢ………… 51 3.1 Môi trường thực nghiệm 51 3.2 Triển khai xây dựng mơ hình định C4.5 phần mềm Weka .51 3.3 Đánh giá kết 53 3.4 Giới thiệu ứng dụng 56 3.5 Giao diện tính .57 3.6 Kết luận chương 62 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .63 Kết luận 63 Hướng phát triển đề tài 64 TÀI LIỆU THAM KHẢO PHỤ LỤC QUYẾT ĐỊNH GIAO ĐỀ TÀI (Bản sao) DANH MỤC CÁC TỪ VIẾT TẮT Viết tắt Accuracy BIDS CART CNTT CITA ĐTĐ IDF ID3 Gain GainRati o FN FP Recall Precision SPC SplitInfo SQL TN TNR TP TPR WHO Viết đầy đủ Accuracy Business Intelligence Development Studio Classification And Regression Tree Công nghệ thông tin Conference on Information Technology and its Applications Đái tháo đường International Diabetes Federation Iterative Dichotomiser Gain Information Gain Information Ratio Nghĩa tiếng Việt Sự xác Phịng phát triển trí tuệ doanh nghiệp False Negative False Positive Recall Precision Specificity Split Information Structured Query Language True Negative True Negative Rate True Positive True Positive Rate World Health Organization Âm tính giả Dương tính giả Độ bao phủ Độ xác Độ đặc hiệu Hệ số phân chia Ngôn ngữ truy vấn có cấu trúc Cây phân loại hồi quy Cơng nghệ thông tin Hội thảo khoa học công nghệ thông tin ứng dụng lĩnh vực Đái tháo đường Liên đoàn Đái tháo đường giới Phép phân đôi lặp lặp lại Độ lợi thông tin Tỉ lệ độ lợi thông tin Thực âm Tỉ lệ thực âm Thực dương Tỉ lệ thực dương Tổ chức Y tế Thế giới DANH MỤC CÁC KÝ HIỆU Ký hiệu E(A) Diễn giải ý nghĩa Thông tin mong đợi để phân lớp đối tượng tất Gain(A) GainRatio(A Độ lợi thông tin nhận việc phân nhánh thuộc tính A Tỉ lệ độ lợi thơng tin thuộc tính A ) Gini(D) Gini(D)Split O(log n) SplitInfo(A) Chỉ số Gini tập D Tỉ lệ hệ số Gini Độ phức tạp logarit thuật toán Hệ số phân chia thuộc tính A DANH MỤC CÁC BẢNG BIỂU Bảng 1.1: Cơ sở liệu mẫu 22 Bảng 1.2: Độ đo GainRatio 16 thuộc tính 23 Bảng 1.3: Mẫu liệu với thuộc tính Polyuria có giá trị Yes(S1) 25 Bảng 1.4: Độ đo GainRatio 15 thuộc tính 26 Bảng 1.5: Mẫu liệu với thuộc tính Alopecia có giá trị Yes(S2) .27 Bảng 1.6: Độ đo GainRatio 14 thuộc tính 27 Bảng 2.1: Các thuộc tính giá trị liệu 46 Bảng 2.2: Số liệu ghi phân loại theo độ tuổi, giới tính kết dương tính 48 Bảng 2.3: 20 mẫu tập liệu bệnh đái tháo đường sau xử lý 49 Bảng 3.1: Kết thuật toán C4.5, ID3 CART 55 Bảng 3.2: So sánh kết hiệu thuật toán C4.5, ID3 CART 56 DANH MỤC CÁC HÌNH VẼ Hình 1.1: Cấu trúc định Hình 1.2: Minh họa số Gini (Lân, 2018) .13 Hình 1.3: Ma trận dự đốn 22 cơng thức tính percision, recall, accuracy 15 Hình 1.4: Phương pháp Holdout 17 Hình 1.5: Đánh giá chéo 10 lần 18 Hình 1.6: Cây định thuộc tính Polyuria 24 Hình 1.7: Cây định thuộc tính Alopecia .26 Hình 1.8: Cây định với bảng liệu mẫu 28 Hình 2.1: Quy trình triển khai ứng dụng .31 Hình 2.2: Kiến trúc hệ thống đề xuất 31 Hình 2.3: Lược đồ ngữ cảnh .31 Hình 2.4: Lược đồ use case Quản trị 32 Hình 2.5: Lược đồ use case Người sử dụng 32 Hình 2.6: Biểu đồ hoạt động Đăng nhập .37 Hình 2.7: Biểu đồ hoạt động Thêm liệu 38 Hình 2.8: Biểu đồ hoạt động Sửa liệu 38 Hình 2.9: Biểu đồ hoạt động Xóa liệu 39 Hình 2.10: Biểu đồ Đăng nhập .40 Hình 2.11: Biểu đồ Thêm liệu 41 Hình 2.12: Biểu đồ Sửa liệu 42 Hình 2.13: Biểu đồ Xóa liệu 43 Hình 2.14: Biểu đồ triển khai .44 Hình 3.1: Tổng quan thuộc tính 51 Hình 3.2: Cài đặt tham số cho thuật toán 53 Hình 3.3: Mơ hình định C4.5 53 Hình 3.4: Cây định hình thành với liệu bệnh đái tháo đường .54 Hình 3.5: So sánh accuracy, precision recall 55