Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 76 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
76
Dung lượng
2,84 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THÙY LINH TÌM HIỂU PHƢƠNG PHÁP XÂY DỰNG VÀ KHAI THÁC KHO DỮ LIỆU ĐIỂM DỰA TRÊN KỸ THUẬT OLAP LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2014 TIEU LUAN MOI download : skknchat@gmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THÙY LINH TÌM HIỂU PHƢƠNG PHÁP XÂY DỰNG VÀ KHAI THÁC KHO DỮ LIỆU ĐIỂM DỰA TRÊN KỸ THUẬT OLAP Ngành: Công nghệ Thông tin Chuyên ngành: Hệ thống Thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN HÀ NAM Hà Nội - 2014 TIEU LUAN MOI download : skknchat@gmail.com LỜI CẢM ƠN Tôi xin gửi lời cảm ơn sâu sắc tới PGS.TS.Nguyễn Hà Nam, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội, người thầy dành nhiều thời gian tận tình bảo, hướng dẫn, giúp đỡ tơi suốt q trình tìm hiểu, nghiên cứu Thầy người định hướng đưa nhiều góp ý q báu q trình th c luận v n Tôi xin chân thành cảm thầy, cô khoa Công nghệ thông tin – Trường Đại học Công nghệ - ĐHQGHN cung cấp cho kiến thức tạo cho điều kiện thuận lợi suốt q trình tơi học tập trường Tôi xin gửi lời cảm ơn đến TS.Nguyễn Trí Thành, TS.Nguyễn Thị Hậu đưa góp ý giúp tơi hồn thiện luận v n Tơi bày tỏ lòng biết ơn s giúp đỡ lãnh đạo quan, đồng nghiệp cung cấp tài liệu cho lời khuyên quý báu Tơi xin cảm ơn gia đình, người thân, bạn bè thành viên nhóm nghiên cứu ln động viên tạo điều kiện tốt cho Tôi xin chân thành cảm ơn! Hà Nội, tháng 10 năm 2014 Học viên Nguyễn Thùy Linh TIEU LUAN MOI download : skknchat@gmail.com LỜI CAM ĐOAN Tôi xin cam đoan đề tài nghiên cứu riêng tôi, th c s hướng dẫn PGS.TS Nguyễn Hà Nam Các kết nêu luận v n trung th c chưa công bố cơng trình khác Hà Nội, tháng 10 năm 2014 Học viên Nguyễn Thùy Linh TIEU LUAN MOI download : skknchat@gmail.com MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ LỜI MỞ ĐẦU Chương Giới thiệu tổng quan 10 1.1 Bài toán xây d ng khai thác kho liệu điểm trường CĐSP Yên Bái 10 1.2 Một số hướng nghiên cứu kho liệu khai phá liệu 11 Hướng tiếp cận luận v n 11 1.4 Cấu trúc luận v n 11 1.5 Kết luận 12 Chương Các kiến thức sở liên quan 13 2.1 Kho liệu 13 2.1.1 Khái niệm kho liệu 13 2 Các đặc trưng kho liệu 13 2.1.3 Kiến trúc kho liệu 15 Lược đồ kho liệu 16 2.1.5 Xây d ng kho liệu 18 2.2 Kỹ thuật OLAP 19 2.2.1 OLAP gì? 19 2.2.2 Mơ hình liệu đa chiều 21 2.2.3 Các thao thác OLAP 23 2.2.4 Phân loại OLAP 23 2.3 Khai phá liệu 26 2.3.1 Khái niệm 26 2.3.2 Một số phương pháp phổ biến khai phá liệu 27 2.4 Giới thiệu công cụ Business Intelligence hệ quản trị sở liệu SQL Server 2012 28 2.4.1 Tạo báo cáo Reporting Services: 28 TIEU LUAN MOI download : skknchat@gmail.com 2.4.2 Khai thác liệu dịch vụ Analysic Services: 29 2.5 Kết luận 35 Chương Phương pháp giải toán 36 3.1 Tìm hiểu thu thập liệu điểm 36 3.2 Thiết kế kho liệu 38 3.3 Thiết kế mơ hình phân tích liệu 41 3.4 Kết luận 43 Chương Phân tích kết khai thác kho liệu 44 4.1 Các báo cáo khai thác từ kho liệu điểm 44 4.2 Mơ hình d báo 55 4.2.1 L a chọn thơng số cho mơ hình: 56 4.2.2 Kết chạy mơ hình: 59 4.2.3 L a chọn mơ hình cho tốn d đốn kết học tập cuối khóa sinh viên: 66 4.2.4 Sử dụng mơ hình khai phá để d đốn học l c cuối khóa sinh viên: 67 4.3 So sánh kết th c nghiệm với phương pháp khai phá liệu truyền thống 68 4.4 Kết luận 72 KẾT LUẬN 73 TÀI LIỆU THAM KHẢO 74 TIEU LUAN MOI download : skknchat@gmail.com DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Viết tắt BI CĐSP CSDL CNTT DTBK1 DTBK2 DTBK3 HLKH HOLAP KPDL MOLAP OLAP ROLAP SQL TBMCB TBMCN TBMCS TBKH TNCN TNCS TDDV Ý nghĩa Business Intelligence Cao đẳng Sư phạm Cơ sở liệu Công nghệ thông tin Điểm trung bình học kỳ Điểm trung bình học kỳ Điểm trung bình học kỳ Học l c khóa học Hybrid Online Analytical Processing Khai phá liệu Multidimensional Online Analytical Processing Online Analytical Processing Relational - Online Analytical Processing Structured Query Language Trung bình mơn Trung bình mơn chun ngành Trung bình mơn sở Trung bình khóa học Tốt nghiệp chun ngành Tốt nghiệp sở Tổng điểm đầu vào TIEU LUAN MOI download : skknchat@gmail.com DANH MỤC CÁC BẢNG Bảng 3-1 Mơ tả thuộc tính bảng chiều 39 Bảng 3-2 Mơ tả thuộc tính bảng s kiện 40 Bảng 4-1 Hệ số tương quan điểm TBMCB với điểm TBKH 47 Bảng 4-2 Bảng hệ số tương quan điểm TBMCS với điểm TNCS điểm TBMCN với điểm TNCN 49 Bảng 4-3 Mơ tả thuộc tính mơ hình d báo 55 Bảng 4-4 Các thông số kết mơ hình khai phá sử dụng thuật tốn Microsoft Decision Tree 57 Bảng 4-5 Các thơng số kết mơ hình khai phá sử dụng thuật tốn Microsoft Nạve Bayes 57 Bảng 4-6 Các thông số kết mơ hình khai phá sử dụng thuật tốn Microsoft Neural Network 58 TIEU LUAN MOI download : skknchat@gmail.com DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 2.1 Kiến trúc tầng kho liệu 15 Hình 2.2 Ví dụ lược đồ hình 17 Hình 2.3 Ví dụ lược đồ tuyết 18 Hình 2.4 Ví dụ mơ hình liệu chiều 22 Hình 2.5 Mơ hình MOLAP 24 Hình 2.6 Mơ hình ROLAP 25 Hình Các bước trình khám phá tri thức 27 Hình 2.8 Hộp thoại New Project 29 Hình 2.9 Hộp thoại New Project hiển thị mơ hình dịch vụ Analysis Services 29 Hình 2.10 Mơ hình mạng nơron nhiều lớp 32 Hình 2.11 Tiến trình học 33 Hình 2.12 Biểu đồ Lift Chart cho thuộc tính d đốn với giá trị 34 Hình 3.1 Bảng điểm tổng hợp kết học tập sinh viên lớp CĐ Tin01 khóa 2005-2008 37 Hình Lược đồ quan hệ CSDL điểm 38 Hình 3.3 Mơ hình kho liệu điểm 41 Hình 3.4 Khối liệu kết môn học 42 Hình 3.5 Khối liệu kết học tập 42 Hình 3.6 Quá trình triển khai khối KQHTCube 43 Hình 4.1 Biểu đồ thống kê tỷ lệ giới tính sinh viên theo khóa học 44 Hình 4.2 Báo cáo thống kê học l c sinh viên theo khóa học 45 Hình 4.3 Biểu đồ so sánh điểm TBMCB với điểm TBKH sinh viên khóa KH05-08 46 Hình 4.4 Biểu đồ so sánh s tương quan điểm TBMCS với điểm thi TNCS sinh viên khóa KH07-10 48 Hình 4.5 Biểu đồ so sánh s tương quan điểm TBMCN với điểm thi TNCN khóa học KH07-10 49 Hình Báo cáo động thống kê học l c môn Anh v n sinh viên khóa học 50 Hình 4.7 Báo cáo thống kê tỷ lệ sinh viên khóa KH07-10 có học l c giỏi theo khu v c 51 Hình 4.8 Báo cáo thống kê tỷ lệ sinh viên có học l c giỏi theo khu v c khóa học từ KH05-08 đến KH10-13 52 Hình 4.9 Biểu đồ xu hướng học tập sinh viên có mã số 1151004 – Khóa học 2011-2014 53 Hình 4.10 Thống kê điểm trung bình học kỳ khóa KH07-10 mức chi tiết 54 Hình 4.11 Thể điểm trung bình học kỳ mức tổng hợp 54 Hình 12 Báo cáo động thống kê điểm trung bình học kỳ điểm trung bình cuối khóa sinh viên khóa KH07-10 54 Hình 4.13 Các mơ hình khai phá liệu đánh giá n ng l c học tập sinh viên 56 TIEU LUAN MOI download : skknchat@gmail.com Hình 4.14 Kết mơ hình Model1-Decisiontree 59 Hình 4.15 Kết mơ hình Model2-Decisiontree 59 Hình 4.16 Kết mơ hình Model3-Decisiontree 60 Hình 4.17 Cây định mơ hình Model3-Decisiontree với trường hợp học l c trung bình 60 Hình 18 Sơ đồ mạng phụ thuộc mơ hình Model3-Decisiontree 61 Hình 19 Sơ đồ mạng phụ thuộc mơ hình Model1-Naivebayes 62 Hình 20 Sơ đồ mạng phụ thuộc mơ hình Model2-Naivebayes 62 Hình 21 Sơ đồ mạng phụ thuộc mơ hình Model3-Naivebayes 62 Hình 4.22 Xác suất d báo cho trường hợp học l c trung bình mơ hình Model3Naivebayes 63 Hình 4.23 Kết mơ hình Model2-nơron với giá trị đầu học l c trung bình 64 Hình 4.24 Kết mơ hình Model2-nơron chọn thuộc tính TDDV 65 Hình 4.25 Biểu đồ đánh giá hiệu mơ hình khai phá liệu 66 Hình 4.26 Mơ hình d đốn học l c cuối khóa sinh viên lớp cao đẳng Tin06 67 Hình 4.27 Kết d đốn học l c cuối khóa 68 Hình 4.28 Kết phân lớp dùng thuật tốn Nạve Bayes Weka 69 Hình 4.29 Kết phân lớp mơ hình Model3-Naivebayes BI dạng ma trận nhầm lẫn 69 Hình 4.30 Cửa số Preprocess Weka 70 Hình 4.31 Kết dùng thuật tốn Nạve Bayes Microsoft Analysis service 71 Hình 32 Sơ đồ mạng phụ thuộc thuật tốn Nạve Bayes Microsoft Analysis service 71 TIEU LUAN MOI download : skknchat@gmail.com + Mô hình Model3-Decisiontree: Hình 4.16 Kết mơ hình Model3-Decisiontree Trong kết mơ hình định, nút thể điều kiện phân nhánh, tổng số trường hợp, số trường hợp sinh viên đạt học l c giỏi, khá, trung bình khá, trung bình, yếu số trường hợp thiếu giá trị cho thuộc tính d đốn D a mơ hình định thu thông tin nút cây, xác định điều kiện phân loại sinh viên Giả sử, xem xét kết mơ hình Model3-Decisiontree, thấy rằng: Những sinh viên có tổng điểm đầu vào thấp (nhỏ 12) tổng điểm đầu vào khoảng từ 12 đến 15 điểm, đồng thời điểm trung bình kỳ sinh viên khoảng từ đến 6.7 khả n ng sinh viên xếp loại học l c trung bình cao Ngoài ra, với trường hợp sinh viên có tổng điểm thi đầu vào từ 15 đến khoảng 17 điểm điểm trung bình môn đạt từ đến 6.5 sinh viên xếp loại học l c trung bình cuối khóa học chiếm tỷ lệ cao Điều thấy rõ hình 4.17 cách quan sát nút có màu xanh Hình 4.17 Cây định mơ hình Model3-Decisiontree với trường hợp học l c trung bình 60 TIEU LUAN MOI download : skknchat@gmail.com Bên cạnh đó, nhìn vào sơ đồ định mơ hình Model3-Decisiontree, thấy sinh viên có khả n ng xếp loại học l c cuối khóa mức khá, giỏi sinh viên có tổng điểm thi đầu vào cao (khoảng từ 17 điểm trở lên) có điểm trung bình mơn mức cao + Sơ đồ mạng phụ thuộc: Mạng phụ thuộc hiển thị mối quan hệ thuộc tính có ảnh hưởng đến khả n ng d đốn mơ hình khai phá liệu Cấu trúc sơ đồ mạng phụ thuộc gồm nút đường liên kết nút Mỗi nút đại diện cho thuộc tính đường liên kết đại diện cho mối quan hệ thuộc tính d đốn với thuộc tính có ảnh hưởng đến thuộc tính d đốn Hình 4.18 Sơ đồ mạng phụ thuộc mơ hình Model3-Decisiontree Trong sơ đồ mạng phụ thuộc hình 4.18, nút HLKH đại diện cho thuộc tính d đốn mơ hình khai phá Các nút cịn lại sơ đồ thể thuộc tính có ảnh hưởng đến việc d đoán kết học l c cuối khóa sinh viên gồm TDDV, DiemTBMCB DTBK3 Trong ba thuộc tính tác động đến thuộc tính d đoán, sơ đồ mạng phụ thuộc cho biết nút chứa thuộc tính TDDV nút có ảnh hưởng đến thuộc tính d đốn S ảnh hưởng nhiều hay thuộc tính đầu vào đến thuộc tính d đốn tính chất liệu phân tích 61 TIEU LUAN MOI download : skknchat@gmail.com Mơ hình khai phá liệu sử dụng thuật tốn Microsoft Nạve bayes: + Mơ hình Model1-Naivebayes: Hình 4.19 Sơ đồ mạng phụ thuộc mơ hình Model1-Naivebayes + Mơ hình Model2-Naivebayes: Hình 4.20 Sơ đồ mạng phụ thuộc mơ hình Model2-Naivebayes + Mơ hình Model3-Naivebayes: Hình 4.21 Sơ đồ mạng phụ thuộc mơ hình Model3-Naivebayes 62 TIEU LUAN MOI download : skknchat@gmail.com Cấu trúc sơ đồ mạng phụ thuộc dùng thuật toán Microsoft Naïve Bayes tương t mạng phụ thuộc dùng thuật toán Microsoft Decision Tree, bao gồm nút trung tâm nút chứa thuộc tính d đốn, nút cịn lại nút chứa thuộc tính có ảnh hưởng đến thuộc tính d đốn Đối với mơ hình, với thuộc tính liệu vào khác sơ đồ mạng phụ thuộc biểu diễn mơ hình khác Ví dụ, sơ đồ mạng phụ thuộc mơ hình Model1-Naivebayes, thuộc tính d đốn HLKH có ba thuộc tính ảnh hưởng đến thuộc tính d đốn DiemTBMCB, DTBK1, DTBK3, đồng thời thuộc tính DiemTBMCB xác định thuộc tính có ảnh hưởng đến thuộc tính d đốn Trong sơ đồ mạng phụ thuộc mơ hình Model3-Naivebayes, thuộc tính d đốn HLKH có bốn thuộc tính ảnh hưởng đến thuộc tính d đốn TDDV, DiemTBMCB, DTBK1, DTBK3 Tuy nhiên, sơ đồ thuộc tính có ảnh hưởng đến thuộc tính d đốn TDDV Đối với mơ hình sử dụng thuật tốn Nạve Bayes, xem xác suất d báo cho giá trị thuộc tính d đoán Giả sử, cần xem khả n ng d báo cho giá trị học l c loại trung bình qua thuộc tính có ảnh hưởng đến thuộc tính d đốn HLKH mơ hình Model3-Naivebayes, có kết hình 4.22 Hình 4.22 Xác suất d báo cho trường hợp học l c trung bình mơ hình Model3Naivebayes Từ kết trên, thấy xác suất d báo cho trường hợp học l c trung bình thể qua giá trị thuộc tính DiemTBMCB, DTBK1, DTBK3, TDDV Với sinh viên có điểm trung bình mơn bản, điểm trung bình kỳ 1, kỳ mức trung bình trung bình tổng điểm thi đầu vào 14 điểm khả n ng sinh viên đạt kết xếp loại học l c trung bình cuối khóa cao, cịn sinh viên có tổng điểm đầu vào từ 16.8 trở lên điểm trung bình môn bản, 63 TIEU LUAN MOI download : skknchat@gmail.com trung hình học kỳ 1, kỳ đạt từ loại trở lên khả n ng sinh viên có xếp loại học l c trung bình thấp nhỏ 4% Mơ hình khai phá liệu sử dụng thuật toán Microsoft Neural Network: Khi phân tích mơ hình khai phá liệu sử dụng thuật tốn Microsoft Neural Network, chọn tất thuộc tính đầu vào số thuộc tính đầu vào phạm vi giá trị thuộc tính đó, để xem xét yếu tố đặc biệt có tác động, ảnh hưởng đến kết d đoán Đối với liệu ra, thuộc tính d đốn có nhiều giá trị, so sánh mức độ khác kết thu giá trị cách chọn giá trị thuộc tính đầu mục value value Tại cửa sổ Variables hiển thị thuộc tính đầu vào, phạm vi giá trị kết thống kê cho giá trị thuộc tính đầu Các thơng số thống kê giúp giải thích xu hướng , yếu tố có ảnh hưởng mạnh mẽ đến kết đầu Các giá trị thống kê gồm: − Score: Giá trị cho biết độ quan trọng biến đầu vào Giá trị cao cho thấy biến tác động mạnh mẽ đến kết qủa mơ hình − Probability of value 1: Cho biết tỷ lệ phần tr m xác suất giá trị value kết đầu − Probability of value 2: Cho biết tỷ lệ phần tr m xác suất giá trị value kết đầu − Lift for Value and Lift for Value : Giá trị đại diện cho s tác động việc sử dụng biến đầu vào để d đoán kết giá trị giá trị Giá trị cao khả n ng d đốn cho kết đầu tốt Sau chúng tơi sử dụng mơ hình Model2-nơron làm ví dụ để phân tích liệu + Mơ hình Model2-nơron: Hình 4.23 Kết mơ hình Model2-nơron với giá trị đầu học l c trung bình 64 TIEU LUAN MOI download : skknchat@gmail.com Giả sử, chọn hai giá trị đầu học l c trung bình hiển thị tồn thuộc tính đầu vào kết thu hình 23 Kết cho thấy trường hợp thuộc tính đầu vào ảnh hưởng đến kết thuộc tính đầu Nhìn vào hình 4.23 nhận thấy rằng: Những sinh viên có tổng điểm đầu vào cao khoảng từ 16 điểm trở lên sinh viên có khả n ng xếp loại học l c cuối khóa cao Những sinh viên có tổng điểm đầu vào 15 điểm khả n ng sinh viên xếp loại học l c trung bình cuối khóa Cụ thể, thấy với sinh viên có tổng điểm đầu vào từ 12 03 đến 14.09 kết thống kế thu Score = 71.82, tỷ lệ phần tr m xác suất sinh viên có học l c 5.37%, tỷ lệ phần tr m xác suất sinh viên có học l c trung bình 90.51% khả n ng tác động biến đầu vào đến giá trị học l c trung bình trường hợp cao, nhận giá trị 2.54 Để xem xét s tác động thuộc tính tổng điểm đầu vào đến kết đầu ra, chọn thuộc tính TDDV cửa sổ Input Giả sử, cần xác định xem, với trường hợp sinh viên có tổng điểm đầu vào khoảng từ 12 đến 14.9 có ảnh hưởng đến kết đầu ra, chọn khoảng giá trị mục Value Hình 4.24 Kết mơ hình Model2-nơron chọn thuộc tính TDDV Khi chạy mơ hình chúng tơi xác định xu hướng sau: Với sinh viên có tổng điểm đầu vào khoảng từ 12 đến 15 điểm có điểm trung bình kỳ nhỏ khả n ng sinh viên có học l c trung bình vơ cao, thể kết thống kê hình 4.24, với tỷ lệ phần tr m xác suất d đoán cho trường hợp học l c trung bình 97.05%, khả n ng tác động 2.72, khả n ng tác động trường hợp học l c Nhưng trường hợp này, điểm trung bình kỳ từ 6.7 khả n ng sinh viên xếp loại học l c t ng lên, cụ thể tỷ lệ phần tr m xác suất cho học l c 5.55% 65 TIEU LUAN MOI download : skknchat@gmail.com 4.2.3 Lựa chọn mơ hình cho tốn dự đốn kết học tập cuối khóa sinh viên: Bằng việc sử dụng biểu đồ Lift Chart nhằm làm c n cho việc chọn mơ hình khai phá liệu tốt toán d đốn kết học tập cuối khóa sinh viên nhà trường, th c đánh giá mơ hình thu kết hình 25 Hình 4.25 Biểu đồ đánh giá hiệu mơ hình khai phá liệu Hình 4.25 ví dụ mơ tả biểu đồ Lift Chart để đánh giá hiệu mơ hình khai phá liệu với trường hợp học l c trung bình Trong đó, đường màu đỏ biểu diễn đường lý tưởng cho mơ hình Đường chéo (đường màu xanh nước biển) biểu diễn kết việc chọn ngẫu nhiên, đường màu xám thẳng đứng xác định tỷ lệ phần tr m liệu kiểm tra toàn tập liệu kết thể bảng Mining Legend Các đường cịn lại đường d đốn mơ hình, cụ thể thích bảng Mining Legend Giả sử, với vị trí thẳng đứng màu xám đặt vị trí trục X 40% mơ hình Model1_Decisiontree, ta lấy 40% tổng số sinh viên sở liệu nguồn, có 62,96% sinh viên đạt loại học l c trung bình khá, mơ hình Model2-Decisiontree 55,56%, mơ hình Model1-Naivebayes 70.37% Cột Predict Probability cho biết xác suất d đốn, giá trị giá trị ngưỡng mơ hình d đốn Với mơ hình Model1-Decisiontree xác suất d đốn trường hợp 64,28%, có nghĩa giá trị tin cậy cho trường hợp d đốn, mơ hình Model1-Decisiontree 79,94% Nhìn vào giá trị cột Predict Probability, ta thấy rằng, mơ hình Model3-Naivebayes có xác suất d đoán cao nhất, đạt giá trị 95,17% 66 TIEU LUAN MOI download : skknchat@gmail.com Giá trị cột Score dùng để đánh giá hiệu mơ hình, giá trị Score mơ hình cao mơ hình đánh giá tốt Qua việc kiểm chứng mơ hình giá trị thuộc tính d đốn Lift Chart, mơ hình Model3-Naivebayes ln cho hiệu cao nhất, với giá trị Score 0.96 xác suất d đoán mơ hình cao thử với giá trị thuộc tính d đốn Như vậy, l a chọn mơ hình Model3-Naivebayes với thơng số l a chọn phân tích (Maximum_Input_Attribute = 6; Maximum_Output_Attribute = 1; Maximum_States = 100; Minimum_Dependency_Probability =0.1) để làm mơ hình khai phá liệu 4.2.4 Sử dụng mơ hình khai phá để dự đốn học lực cuối khóa sinh viên: Sau phân tích mơ hình l a chọn mơ hình Model3-Naivebayes làm mơ hình khai phá liệu, sử dụng liệu điểm sinh viên lớp cao đẳng Tin06 khóa 2011-2014 để xây d ng tập liệu dùng d báo, để nhằm đối chiếu liệu d đốn mơ hình kết học l c cuối khóa sinh viên Khi xây d ng tập liệu d đoán học l c cho sinh viên lớp cao đẳng Tin 06, chúng tơi chọn thuộc tính liệu đầu vào thuộc tính khóa tương ứng với thuộc tính mơ hình khai phá bỏ cột học l c cuối khóa Mơ hình khai phá liệu sử dụng để d đoán kết học tập sinh viên lớp cao đẳng Tin06 xây d ng hình 4.26 Hình 4.26 Mơ hình d đốn học l c cuối khóa sinh viên lớp cao đẳng Tin06 Kết chạy mơ hình d đốn: 67 TIEU LUAN MOI download : skknchat@gmail.com Hình 4.27 Kết d đốn học l c cuối khóa Kết d đoán cho thấy, xác suất d đoán mơ hình cho tỷ lệ cao trường hợp Sau thu kết từ việc chạy mơ hình khai phá Model3Naivebayes, chúng tơi đem so sánh với kết xếp loại học l c cuối khóa sinh viên lớp cao đẳng Tin06 thu kết sau: Tổng số sinh viên 39, số trường hợp d đốn xác mơ hình so với kết th c tế 32 (chiếm tỷ lệ xấp xỉ 82,1%) Với tỷ lệ d đốn xác mơ trên, chúng tơi thấy sử dụng mơ hình Moldel3-Naivebayes làm mơ hình d đốn kết học tập cuối khóa sinh viên cho khóa học sau 4.3 So sánh kết thực nghiệm với phƣơng pháp khai phá liệu truyền thống Khi chạy mơ hình d báo kết học tập cuối khóa sinh viên dịch vụ Analysic Services công cụ BI, chúng tơi l a chọn mơ hình d báo Model3Naivebayes, sử dụng thuật tốn Microsoft Nạve Bayes thơng số thích hợp mơ hình d báo tốt Sau đó, chúng tơi tiến hành xây d ng mơ hình d đốn kết học tập cuối khóa sinh viên công cụ khai phá liệu Weka, để kiểm nghiệm lại hiệu mơ hình, việc sử dụng liệu làm nguồn cho mơ hình khai phá liệu thông số l a chọn sử dụng cho mơ hình Model3-Naivebayes Chúng tơi thu kết hình 28: 68 TIEU LUAN MOI download : skknchat@gmail.com Hình 4.28 Kết phân lớp dùng thuật tốn Naïve Bayes Weka Kết đầu dùng thuật tốn Nạve Bayes Weka hiển thị dạng ma trận nhầm lẫn đưa thông số để đánh giá độ xác mơ hình Kết hình 4.28 cho thấy: Số trường hợp phân lớp xác 88.57%; Độ xác Precision cho trường hợp học l c trung bình 0.909; học l c 0.877; học l c giỏi 0.6; học l c trung bình yếu Trong đó, kết đưa dạng ma trận nhầm lẫn mơ hình Model3-Naivebayes BI thu hình 29: Hình 4.29 Kết phân lớp mơ hình Model3-Naivebayes BI dạng ma trận nhầm lẫn Với kết phân lớp thu mơ hình Model3-Naivebayes, ta tính tốn giá trị sau: Số trường hợp phân lớp xác 84% Độ xác Precision cho trường hợp học l c trung bình 0.89; học l c 0.86; học l c giỏi, trung bình, yếu 69 TIEU LUAN MOI download : skknchat@gmail.com So sánh kết mơ hình d báo sử dụng Weka mơ hình d báo sử dụng cơng cụ BI, thấy với mơ hình d báo sử dụng phần mềm Weka cho kết tốt hơn, s chênh lệch hai kết nhỏ Vì vậy, cân nhắc để l a chọn công cụ khai phá liệu để giải toán d đoán kết học tập sinh viên, so sánh với số yếu tố khác để chọn l a cơng cụ phù hợp cho tốn cần giải Qua trình th c nghiệm phân tích khai thác liệu cơng cụ BI tích hợp SQL Server Data Tools, kết hợp với việc sử dụng kỹ thuật OLAP, thấy với việc sử dụng phương pháp có số ưu điểm bật so với phương pháp khai phá liệu truyền thống sau: + Tính dễ sử dụng: Nếu người phân tích sử dụng công cụ khai thác liệu truyền thống Matlab hay Weka yêu cầu đặt người sử dụng phải đưa liệu vào theo số định dạng định Vì vậy, người dùng cần kết xuất liệu theo định dạng Việc kết nối từ phần mềm đến sở liệu phức tạp Do đó, việc tải liệu vào để làm nguồn cho việc khai thác liệu thiếu s linh hoạt Hình 4.30 Cửa số Preprocess Weka Trong đó, việc sử dụng cơng cụ khai thác liệu SQL Server, cho phép người dùng dễ dàng kết nối với sở liệu lưu trữ hệ quản trị sở liệu, việc thu thập liệu cho mơ hình khai phá thuận tiện 70 TIEU LUAN MOI download : skknchat@gmail.com + Tính tr c quan: Một yêu cầu quan trọng đặt xây d ng mơ hình khai phá liệu kết đưa phải có tính tr c quan cao, giúp cho người sử dụng dễ dàng phân tích kết thu Để hiểu kết hiển thị dùng Weka, đòi hỏi người sử dụng phải hiểu rõ thông số, kết hiển thị thiếu tính tr c quan, người dùng khơng nhìn thấy thuộc tính có ảnh hưởng đến thuộc tính d đốn Khi sử dụng cơng cụ khai phá liệu BI, người dùng dễ dàng phân tích kết thu Hình 4.31 Kết dùng thuật tốn Nạve Bayes Microsoft Analysis service Hình 4.32 Sơ đồ mạng phụ thuộc thuật tốn Nạve Bayes Microsoft Analysis service Như phân tích kết chạy mơ hình khai phá liệu dùng công cụ BI SQL Server mục 4.2.2, thấy việc dùng công cụ SQL Server để 71 TIEU LUAN MOI download : skknchat@gmail.com phân tích liệu cho kết hiển thị tr c quan, dễ hiểu, người dùng dễ dàng phân tích kết quả, xác định thuộc tính đầu vào có ảnh hưởng đến kết đầu ra, dễ dàng so sánh đánh giá mơ hình 4.4 Kết luận Chương luận v n tập trung trình bày kết khai thác từ kho liệu điểm, việc đưa báo cáo xây d ng mơ hình khai phá liệu nhằm d đốn học l c cuối khóa sinh viên Chúng tơi sử dụng ba thuật tốn Microsoft Decision Tree, Microsoft Naïve Bayes, Microsoft Neural Network, đồng thời xây d ng tập liệu nguồn với thuộc tính phù hợp, kết hợp với việc phân tích l a chọn thông số tối ưu nhằm chọn mơ hình khai phá liệu tốt để giải toán phân lớp học l c cuối khóa cho sinh viên 72 TIEU LUAN MOI download : skknchat@gmail.com KẾT LUẬN Từ việc nghiên cứu yêu cầu cấp thiết đặt công tác quản lý vào đào tạo trường Cao đẳng Sư phạm Yên Bái, luận v n tiến hành thu thập liệu cần thiết, xây d ng kho liệu điểm, đề xuất l a chọn mơ hình để giải yêu cầu khai thác thông tin từ kho liệu điểm nhà trường Về mặt nội dung, luận v n đạt kết sau: - Tìm hiểu sở lý thuyết kho liệu kỹ thuật phân tích d báo d a kho - Đã xây d ng kho liệu điểm với liệu lấy từ sở liệu trường CĐSP Yên Bái sử dụng công cụ BI MS SQL 2012 - Đã tiến hành phân tích, trích rút thơng tin cần thiết cho công tác quản lý đào tạo nhà trường việc sử dụng kỹ thuật OLAP số thuật toán khai phá liệu Qua kết th c nghiệm đạt cho thấy mơ hình kho liệu điểm mơ hình khai thác liệu áp dụng th c tế Hướng phát triển luận v n: Trong thời gian tới, tác giả tiếp tục xây d ng hệ thống cảnh báo kết học tập cho sinh viên hoàn thiện toàn hệ thống để chạy ứng dụng tr c tiếp web 73 TIEU LUAN MOI download : skknchat@gmail.com TÀI LIỆU THAM KHẢO Tiếng Việt [1] Phan Xuân Hiếu (2013), Bài giảng môn học Khai phá liệu kho liệu, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội [2] Hà Quang Thụy (2010), Bài giảng môn học Kho liệu khai phá liệu, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội [3] Trường Đại học Sư phạm Hà Nội, Bài giảng kho liệu Tiếng Anh [4] E F Codd, S.B Codd and C.T Salley (1993), “Providing On-Line Analytical Processing to User Analysts: An IT Mandate”, Computerworld, pp 12-15 [5] Gergely Pintér, Henrique Madeira and Marco Vieira, István Majzik and András Pataricza (2008), “Integration of OLAP and data mining for analysis of results from dependability evaluation experiments”, Int J Knowledge Management Studies, Vol (4), pp 480–498 [6] Jiawei Han and Micheline Kamber (2006), Data Mining Concepts and Techniques, Diane Cerra Publisher [7] Jamie MacLennanZhaoHui and Tang (2005), Data Mining With SQL Server 2005, Wiley Publishing, Inc [8] Microsoft, SQL Server tutorials - SQL Server 2012 Books Online [9] Paulraj Ponniah (2010), Data Warehousing Fundamentals for IT Professionals, Wiley & Sons, Inc., Hoboken, New Jersey [10] Ralph Kimball and Margy Ross (2013), The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling, John Wiley & Sons [11] Usama M.Fayyad, Gregory Piatesky-Shaporo, Padhraic Smyth and Ramasamy Uthurusamy (1996), Advances in Knowledge Discovery and Data Mining, AAAI Press 74 TIEU LUAN MOI download : skknchat@gmail.com ... NGUYỄN THÙY LINH TÌM HIỂU PHƢƠNG PHÁP XÂY DỰNG VÀ KHAI THÁC KHO DỮ LIỆU ĐIỂM DỰA TRÊN KỸ THUẬT OLAP Ngành: Công nghệ Thông tin Chuyên ngành: Hệ thống Thông tin Mã số: 6048 0 104 LUẬN VĂN THẠC SĨ CÔNG... trường, song việc khai thác nhiều hạn chế Xuất phát từ yêu cầu đặt đơn vị mình, tơi th c đề tài luận v n ? ?Tìm hiểu phương pháp xây dựng khai thác kho liệu điểm dựa kỹ thuật OLAP? ?? với mong muốn... quan kho liệu, khai phá liệu, kỹ thuật OLAP giới thiệu công cụ sử dụng luận v n Chương Phương pháp giải toán Chương trình bày trình thiết kế ứng dụng kỹ thuật OLAP để xây d ng mô hình kho liệu điểm