Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 96 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
96
Dung lượng
2,19 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG HOÀNG THỊ THANH HIỀN ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ XÂY DỰNG HỆ THỐNG CHẨN ĐOÁN BỆNH TRẦM CẢM CHO HỌC SINH PHỔ THÔNG LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Đà Nẵng – Năm 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG HOÀNG THỊ THANH HIỀN ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ XÂY DỰNG HỆ THỐNG CHẨN ĐOÁN BỆNH TRẦM CẢM CHO HỌC SINH PHỔ THÔNG Chuyên ngành : HỆ THỐNG THÔNG TIN Mã số : 60.48.01.04 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Người hướng dẫn khoa học: PGS.TS NGUYỄN THANH BÌNH Đà Nẵng – Năm 2016 LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Tác giả Hồng Thị Thanh Hiền MỤC LỤC MỞ ĐẦU 1 Tính cấp thiết đề tài Mục tiêu nghiên cứu nhiệm vụ nghiên cứu Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Bố cục luận văn CHƯƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 KHAI PHÁ DỮ LIỆU 1.1.1 Định nghĩa 1.1.2 Quy trình KPDL 1.1.3 Các kỹ thuật KPDL 1.1.4 Những ứng dụng KPDL 10 1.2 KPDL BẰNG KỸ THUẬT CÂY QUYẾT ĐỊNH 11 1.2.1 Giới thiệu 11 1.2.2 Cấu trúc DT 13 1.2.3 Phương pháp xây dựng DT 13 1.2.4 Ưu điểm DT 14 1.2.5 Thuật toán ID3 15 1.2.6 Thuật toán C4.5 21 1.3 KPDL BẰNG KỸ THUẬT PHÂN CỤM 30 1.3.1 Giới thiệu 30 1.3.2 Thuật toán K-Means 31 KẾT LUẬN CHƯƠNG 35 CHƯƠNG NGHIÊN CỨU VÀ XỬ LÝ DỮ LIỆU VỀ BỆNH RỐI LOẠN TRẦM CẢM 36 2.1 ĐẶC ĐIỂM TÂM SINH LÝ CỦA TUỔI VỊ THÀNH NIÊN 36 2.2 KHÁI NIỆM VỀ BỆNH RỐI LOẠN TRẦM CẢM 37 2.3 THỰC TRẠNG BỆNH RỐI LOẠN TRẦM CẢM 38 2.4 ĐẶC ĐIỂM LÂM SÀNG CỦA BỆNH RỐI LOẠN TRẦM CẢM 39 2.4.1 Đặc điểm lâm sàng chung 39 2.4.2 Đặc điểm rối loạn trầm cảm trẻ vị thành niên 41 2.5 CHẨN ĐOÁN BỆNH RỐI LOẠN TRẦM CẢM 43 2.6 CÁC YẾU TỐ LIÊN QUAN ĐẾN BỆNH RLTC 45 2.6.1 Yếu tố gia đình 45 2.6.2 Yếu tố học đường 45 2.6.3 Yếu tố xã hội 45 2.7 THU THẬP VÀ XỬ LÝ DỮ LIỆU NGHIÊN CỨU BỆNH RLTC 46 2.7.1 Thu thập liệu 46 2.7.2 Xử lý liệu 47 2.8 CÁC CƠNG CỤ XÂY DỰNG MƠ HÌNH KPDL 47 2.8.1 Hệ quản trị CSDL SQL Server 2014 47 2.8.2 Công cụ xây dựng mơ hình KPDL Business Intelligence 48 2.9 KPDL VỚI MSSQL SERVER 2014 ANALYSIS SERVICES 50 2.9.1 Giới thiệu 50 2.9.2 Môi trường phát triển ứng dụng 51 2.9.3 Các thuật toán KPDL MSSQL Server 2014 54 KẾT LUẬN CHƯƠNG 55 CHƯƠNG XÂY DỰNG HỆ THỐNG CHẨN ĐOÁN BỆNH RỐI LOẠN TRẦM CẢM DỰA TRÊN KHAI PHÁ DỮ LIỆU 56 3.1 XÂY DỰNG CSDL TRONG SQL SERVER 56 3.1.1 Mô tả liệu 56 3.1.2 Bài toán chẩn đoán bệnh RLTC 60 3.1.3 Lựa chọn giải thuật giải toán 61 3.1.4 Xây dựng CSDL 62 3.2 ỨNG DỤNG KỸ THUẬT DT ĐỂ XÂY DỰNG MƠ HÌNH CHẨN ĐỐN BỆNH RLTC 63 3.2.1 Dữ liệu yêu cầu cho việc xây dựng mơ hình DT 63 3.2.2 Những tham số hỗ trợ thuật toán DT 63 3.2.3 Xây dựng mơ hình KPDL kết đạt 64 3.2.4 Mức độ phụ thuộc dấu hiệu chẩn đoán bệnh RLTC 69 3.2.5 Đánh giá mơ hình dự đoán 71 3.3 ỨNG DỤNG KỸ THUẬT PHÂN CỤM ĐỂ PHÂN TÍCH CÁC ĐẶC TRƯNG CỦA BỆNH RLTC 71 3.3.1 Dữ liệu yêu cầu cho việc xây dựng mơ hình phân cụm 71 3.3.2 Xây dựng mơ hình phân cụm 72 3.3.3 Kết mô hình phân cụm bệnh RLTC 73 3.4 XÂY DỰNG HỆ THỐNG CHẨN ĐOÁN BỆNH RỐI LOẠN TRẦM CẢM 76 KẾT LUẬN CHƯƠNG 79 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 80 TÀI LIỆU THAM KHẢO 82 QUYẾT ĐỊNH GIAO ĐỀ TÀI (Bản sao) PHỤ LỤC DANH MỤC CÁC TỪ VIẾT TẮT Ý nghĩa Từ viết tắt BN Bệnh nhân BI Business Intelligence CLS Concept Learning System CSDL Cơ sở liệu DBMS Database Management System (Hệ quản trị sở liệu) DT Decision Tree (Cây định) IG Information Gain (Gia lượng thông tin) KPDL Khai phá liệu RLTC Rối loạn trầm cảm SSAS Microsoft SQL Server 2012 Analysis Services SQL Structured Query Language DANH MỤC CÁC BẢNG Số hiệu Tên bảng bảng Trang 1.1 Bảng liệu chơi golf 17 1.2 Ví dụ thuật toán C4.5 liệu chơi golf 25 1.3 Ví dụ minh họa thuật tốn K-Means 32 2.1 Các cơng cụ lập trình ứng dụng Data Mining 52 2.2 3.1 3.2 Các thuật toán Data Mining MSSQL Server 2014 Cấu trúc liệu chẩn đoán bệnh RLTC Mức độ phụ thuộc biểu bệnh RLTC 54 56 70 DANH MỤC CÁC HÌNH VẼ Số hiệu Tên hình hình Trang 1.1 Quy trình KPDL 1.2 Biểu diễn DT 12 1.3 Cây định chơi golf từ thuật toán ID3 20 1.4 Cây định chơi golf từ thuật toán C4.5 30 1.5 Sơ đồ thuật toán K-Means 32 1.6 Khởi tạo trọng tâm 33 1.7 Cập nhật vị trí trọng tâm 33 1.8 Kết sau phân cụm 34 2.1 Quy trình xây dựng mơ hình KPDL với BI 49 2.2 Mơ hình kiến trúc SSAS 51 3.1 Khung nhìn bảng liệu 62 3.2 Dữ liệu sử dụng cho Training test mơ hình 62 3.3 Thiết lập tham số mơ hình DT 65 3.4 Cây định chẩn đoán bệnh RLTC 66 3.5 Các yếu tố ảnh hưởng đến bệnh RLTC 70 3.6 Ma trận biểu diễn khả chẩn đốn mơ hình DT 71 3.7 Mơ hình phân cụm bệnh RLTC 72 3.8 Ma trận biểu diễn kết mơ hình phân cụm 73 3.9 3.10 Những đặc trưng chi tiết bệnh RLTC cụm Giao diện người dùng với hệ thống chẩn đoán bệnh RLTC 73 76 3.11 Giao diện thu thập thơng tin người bệnh 77 3.12 Kết chẩn đốn bệnh từ mơ hình định 78 3.13 Kết mơ hình phân cụm 78 MỞ ĐẦU Tính cấp thiết đề tài Hiện nay, trầm cảm bệnh diễn phổ biến có tác động phức tạp đến đời sống xã hội, lứa tuổi thiếu niên Nguyên nhân chủ yếu dẫn đến tượng vấn đề sức khoẻ tâm thần Theo ước tính Tổ chức Y tế giới (WHO) 25% dân số giới bị rối loạn tâm thần hành vi thời điểm đời [19] Hằng năm, bệnh trầm cảm cướp trung bình 850.000 mạng người Dự báo, đến năm 2020 trầm cảm bệnh xếp hạng số bệnh phổ biến toàn cầu với 121 triệu người mắc bệnh Ở Việt Nam, nghiên cứu Lê Thị Kim Dung số yếu tố ảnh hưởng đến sức khỏe tâm thần học sinh số trường trung học sở số thành phố Việt Nam cho thấy tỷ lệ học sinh có biểu trầm cảm 8,4% [3] Theo kết nghiên cứu Nguyễn Thị Thuỳ Vân (2014) luận văn thạc sĩ y tế cộng đồng trường Đại học y khoa Huế tỷ lệ mắc bệnh trầm cảm học sinh phổ thông 8,9% [10] Sức khỏe tâm thần cấu phần quan trọng sức khỏe tổng thể trẻ Đây vấn đề lớn cần quan tâm, đặc biệt cơng tác chăm sóc sức khoẻ ban đầu cộng đồng Vấn đề sức khỏe tâm thần thời kỳ vị thành niên có mối liên quan chặt chẽ với nhiều hành vi như: uống rượu, hút thuốc, sử dụng ma túy, nguy tự tử,… ảnh hưởng đến sức khỏe trẻ trưởng thành Ở tuổi vị thành niên, rối loạn trầm cảm thường biểu thay đổi cảm xúc như: cảm thấy buồn, khóc, vơ vọng; khơng quan tâm đến hoạt động vui chơi, giải trí hay suy giảm hoạt động học tập; ăn không ngon miệng; hay thay đổi giấc ngủ; hay có khó chịu 73 Kết test cho thấy mơ hình phân cụm có độ xác đến 95% Hình 3.8 Ma trận biểu diễn kết mơ hình phân cụm 3.3.3 Kết mơ hình phân cụm bệnh RLTC Mơ hình cho kết Hình 3.9 Hình 3.9 Những đặc trưng chi tiết bệnh RLTC cụm 74 Dựa vào kết Hình 3.9, ta thấy rằng, mơ hình cho cụm liệu với đặc trưng khác cụm sau: Cụm 1: Cụm đa số BN có giới tính Nữ, tuổi từ 15-16, tuần BN có mắc phải dấu hiệu sau: cảm thấy buồn (mặc dù gia đình bạn bè giúp đỡ) từ 3-4 ngày, khó chịu điều mà bình thường khơng làm cho BN thấy khó chịu từ 3-4 ngày, mệt mỏi làm từ 3-4 ngày, cảm thấy vui vẻ/hạnh phúc, u thích sống có 1-2 ngày, đơn từ 3-4 ngày, thường xuyên bị giáo viên trừng phạt, chứng kiến bố mẹ người thân cải từ 3-4 lần/tháng Cụm đa số BN bị mắc bệnh rối loạn trầm cảm Cụm Cụm đa số BN có giới tính Nữ, tuổi từ 18, tuần BN có mắc phải dấu hiệu sau: cảm thấy buồn (mặc dù gia đình bạn bè giúp đỡ) từ 5-7 ngày, khó chịu điều mà bình thường khơng làm cho BN thấy khó chịu từ 3-4 ngày, q mệt mỏi khơng thể làm từ 5-7 ngày, cảm thấy vui vẻ/hạnh phúc, u thích sống có 4 lần/tháng Cụm đa số BN bị mắc bệnh RLTC Cụm Cụm đa số BN có giới tính Nữ, tuổi 17, tuần BN có dấu hiệu sau: cảm thấy buồn (mặc dù gia đình bạn bè giúp đỡ) từ 3-4 ngày, thấy khó chịu điều mà bình thường khơng làm cho BN thấy khó chịu từ 3-4 ngày, mệt mỏi khơng thể làm từ 3-4 ngày, cảm thấy vui vẻ/hạnh phúc, yêu thích sống từ 1-2 ngày, ngủ khơng n giấc từ 5-7 ngày, khóc từ 3-4 ngày, khơng thể bắt đầu việc bình thường từ 3-4 ngày, thường xuyên bị bạn trêu 75 chọc, chứng kiến bố mẹ người thân cải từ 3-4 lần/tháng Cụm đa số BN bị mắc bệnh RLTC Cụm Cụm đa số người có giới tính Nam, độ tuổi 18, tuần BN có dấu hiệu sau: thấy khó chịu điều mà bình thường khơng làm cho BN thấy khó chịu từ 1-2 ngày, cảm thấy vui vẻ/hạnh phúc, u thích sống từ 3-4 ngày, khơng thể bắt đầu việc bình thường từ 1-2 ngày, chưa bị giáo viên trừng phạt, chứng kiến bố mẹ người thân cải =4 lần/tháng) Áp lực kết học tập: Hầu không Áp lực nhiều Áp lực Áp lực vừa Áp lực nhiều Mức độ thầy cô giáo trường trường xuyên nạt nộ, la mắng nào? Thường xuyên Hiếm Chưa Thỉnh thoảng Mức độ giáo viên trừng phạt vi phạm nào: Thường xuyên Thỉnh thoảng Hiếm Chưa 10 Mức độ bị bạn bè trêu chọc là: Thường xuyên Thỉnh thoảng Hiếm Chưa 11 Mức độ đánh với bạn bè/bị bạn bè đánh đập là: Thường xuyên Thỉnh thoảng Hiếm Chưa C BIỂU HIỆN RỐI LOẠI TRẦM CẢM: Xin vui lòng cho biết mức độ thường xuyên mà BN cảm nhận dấu hiệu/hành vi tuần qua, cách dấu X vào cột tương ứng Mã hoá câu hỏi Hiếm Câu hỏi TT Thỉnh Thường thoảng xuyên không (1 -2 (3- ngày) ngày)