Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 65 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
65
Dung lượng
1,8 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRỊNH THỊ NHỊ NGHIÊN CỨU, KHAI THÁC KHO DỮ LIỆU ĐIỂM TẠI TRƯỜNG ĐẠI HỌC SPKT HƯNG YÊN DỰA TRÊN BỘ CÔNG CỤ BI CỦA HỆ QUẢN TRỊ CSDL SQL SERVER 2008 LUẬN VĂN THẠC SĨ Hà Nội - 2011 -2- ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRỊNH THỊ NHỊ NGHIÊN CỨU, KHAI THÁC KHO DỮ LIỆU ĐIỂM TẠI TRƯỜNG ĐẠI HỌC SPKT HƯNG YÊN DỰA TRÊN BỘ CÔNG CỤ BI CỦA HỆ QUẢN TRỊ CSDL SQL SERVER 2008 Ngành: CÔNG NGHỆ THÔNG TIN Chuyên ngành: HỆ THỐNG THÔNG TIN Mã số: 60 48 05 LUẬN VĂN THẠC SĨ Người hướng dẫn khoa học TS NGUYỄN HÀ NAM Hà Nội - 2011 -3- LỜI CAM ĐOAN Tôi xin cam đoan rằng, công trình nghiên cứu tơi, có giúp đỡ lớn đầy nhiệt tình thầy hướng dẫn, thầy/cô Khoa CNTT – Trường Đại học Công nghệ đồng nghiệp nơi làm việc Các nội dung nghiên cứu kết đề tài hoàn toàn trung thực Trong luận văn, tơi có tham khảo đến số tài liệu số tác giả liệt kê phần tài liệu tham khảo cuối luận văn Hà Nội, ngày 12 tháng 05 năm 2011 Tác giả Trịnh Thị Nhị -4- MỤC LỤC BẢNG CÁC CHỮ VIẾT TẮT DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU Chương - GIỚI THIỆU 11 1.1 Nhu cầu xây dựng kho liệu điểm 11 1.1.1 Nhu cầu xây dựng kho liệu điểm Đại học SPKT Hưng Yên: 11 1.1.2 Phạm vi dự kiến luận văn: 12 1.2 Một số hướng nghiên cứu kho liệu giới Việt Nam 12 1.2.1 Một số hướng nghiên cứu kho liệu Thế giới .12 1.2.2 Một số hướng nghiên cứu kho liệu Việt Nam .12 1.3 Hướng tiếp cận luận văn dự kiến kết đạt 13 1.3.1 Hướng tiếp cận luận văn .13 1.3.2 Dự kiến kết đạt 13 1.4 Cấu trúc luận văn 13 1.5 Kết luận chương .13 Chương - KHO DỮ LIỆU VÀ CÁC VẤN ĐỀ LIÊN QUAN 14 2.1 Cơ sở lý thuyết 14 2.1.1 Một số khái niệm kho liệu .14 2.1.2 Mô hình liệu sử dụng kho 19 2.1.4 Các bước xây dựng kho liệu .21 2.2 Khai phá liệu 27 2.2.1 Khái niệm khai phá liệu 27 2.2.2 Khuynh hướng phát triển lĩnh vực khai phá liệu 28 2.3 Giới thiệu công cụ BI hệ quản trị sở liệu SQL 2008 29 2.3.1 Business Intelligence (BI) 29 2.3.2 Dịch vụ phân tích 29 2.3.3 Dịch vụ báo cáo 39 2.4 Kết luận chương .40 Chương - XÂY DỰNG KHO DỮ LIỆU ĐIỂM CỦA SINH VIÊN .41 3.1 Hiện trạng liệu nhu cầu xây dựng kho liệu 41 3.2 Xây dựng kho liệu điểm sinh viên 42 3.2.1 Thông tin liệu điểm 42 3.2.2 Kiến trúc kho liệu 46 3.2.3 Các chiều liệu 47 3.2.4 Các bước cài đặt vật lý kho liệu 48 3.3 Xây dựng báo cáo từ kho liệu phục vụ quản lý .49 3.3.1 Yêu cầu báo cáo 49 3.3.2 Lợi ích báo cáo BI .49 -5- 3.3.3 Xây dựng báo cáo đưa kết 50 3.3.4 Tính ưu việt báo cáo xây dựng từ kho liệu .55 3.4 Kết luận chương .56 Chương - KHAI THÁC DỮ LIỆU TỪ KHO DỮ LIỆU 57 4.1 Ứng dụng kỹ thuật KPDL để dự báo, dự đoán 57 4.1.1 Yêu cầu dự báo, dự đoán xu 57 4.1.2 Ưu điểm số thuật toán khai phá BI 58 4.2 Xây dựng mơ hình dự báo dựa Data Mining Tool 58 4.2.1 Khảo sát dự đoán kết học tập sinh viên 58 4.2.2 Phân tích kết đạt 63 4.3 Kết luận chương .63 KẾT LUẬN – HƯỚNG PHÁT TRIỂN 64 Các mục tiêu thực luận văn 64 Hướng phát triển 64 TÀI LIỆU THAM KHẢO 65 -6- BẢNG CÁC CHỮ VIẾT TẮT Viết tắt Tên đầy đủ BI Business Intelligence CSDL Cơ sở liệu CNTT Công nghệ thông tin HSSV Học sinh - sinh viên HOLAP Hybrid Online Analytical Processing KPDL Khai phá liệu MOLAP Multidimensional Online Analytical Processing OLAP Online Analytical Processing ROLAP Relational - Online Analytical Processing SQL Structured Query Language SPKT Sư phạm Kỹ thuật T - SQL Transact - Structured Query Language -7- DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU Hình 2.1 - Dòng liệu kho liệu .15 Hình 2.2 – Sơ đồ hình 17 Hình 2.3 – Sơ đồ tuyết 19 Hình 2.4 - Kiến trúc tầng hệ thống kho liệu 20 Hình 2.5 – Ví dụ mơ hình liệu chiều 24 Hình 2.6 – Mơ tả chi tiết bước trình khám phá tri thức 28 Hình 2.7 - Cấu trúc dịch vụ phân tích 30 Hình 2.8 – Các thành phần BI Hình 2.9 - Ví dụ liệu đầu vào phân tích thuật tốn Cây định 33 Hình 2.10 – Entrophy cho thuộc tính “Quê quán” 33 Hình 2.11 – Entrophy cho thuộc tính “Điểm vào” 34 Hình 2.12 – Entrophy cho thuộc tính “Kinh tế” 34 Hình 2.13 – Entrophy cho thuộc tính “Giới tính” .34 Hình 2.14 - Chọn nút phân nhánh Hình 2.15 – Bảng liệu đầu vào .35 Hình 2.16 – Entrophy cho thuộc tính “Điểm vào” 35 Hình 2.17 – Entrophy cho thuộc tính “Kinh tế” 35 Hình 2.18 – Entrophy cho thuộc tính “giới tính” 35 Hình 2.19 - Cây định kết Hình 2.20 – Tính xác suất cho thuộc tính 37 Hình 3.1 - Bảng tổng hợp kết học tập lớp .43 Hình 3.2 - Lược đồ thực thể - mối quan hệ CSDL điểm sinh viên 43 Hình 3.3 - Lược đồ CSDL điểm sinh viên dạng quan hệ 44 Hình 3.4 - Bảng liệu liên quan đến kho liệu điểm 45 Hình 3.5 - Chuẩn hóa, tối ưu liệu làm nguồn cho kho liệu điểm .46 Hình 3.6 – Nguồn kho liệu điểm 47 Hình 3.7 – Các chiều khối DiemSV-20-4 48 Hình 3.8 – Kho liệu điểm sinh viên 49 Hình 3.9 - Cửa sổ tạo Report Server Project .50 Hình 3.10- Cửa sổ thiết lập kết nối 51 Hình 3.11- Cửa sổ tạo Report Server Project 51 Hình 3.12 – Hiển thị kết báo cáo thông thường dạng bảng 52 Hình 3.13- Báo cáo lực học sinh viên thuộc khóa học dạng cột 52 Hình 3.14 – Báo cáo thống kê số lượng giới tính dạng .53 Hình 3.15 – Báo cáo điểm vào trung bình sinh viên dạng hình dáng .54 Hình 3.16 – Theo dõi điểm tốn sinh viên khóa k03 dạng Line 54 Hình 3.17 – Theo dõi điểm tổng kết sinh viên khóa k03 dạng Line 54 Hình 3.18 – Học lực sinh viên theo kỳ học 55 -8- Hình 4.1 – Cấu trúc mơ hình dùng cho thuật tốn: Decision Tree, Nạve Bayes, Neural Network 58 Hình 4.2 – Mơ hình khai phá cho thuật toán 59 Hình 4.3 – Cây phân nhánh dùng thuật tốn Decision Tree 59 Hình 4.4 – Cây khơng phân nhánh dùng thuật tốn định 59 Hình 4.5 – Mạng phụ thuộc dùng thuật toán Decision Tree 59 Hình 4.6 – Mạng phụ thuộc dùng thuật tốn Nạve Bayes 60 Hình 4.7 – Đặc điểm thuộc tính dùng thuật tốn Nạve Bayes 60 Hình 4.8 – Đặc trưng thuộc tính học lực dùng thuật tốn Nạve Bayes 60 Hình 4.9 – Biểu đồ dự báo học lực trung bình sinh viên dùng thuật tốn 61 Hình 4.10 – Ma trận phân lớp dùng ba thuật toán .61 Hình 4.11 – Xây dựng mơ hình dự đốn cho thuật tốn Nạve Bayes 62 Hình 4.12 – Kết dự đốn dùng thuật tốn Nạve Bayes 62 -9- LỜI CẢM ƠN Trước tiên xin bày tỏ trân trọng lòng biết ơn sâu sắc TS Nguyễn Hà Nam - Phó phịng đào tạo - giảng viên Bộ mơn Hệ thống thông tin - Khoa Công nghệ thông tin - Trường Đại học Công nghệ - ĐHQGHN Trong thời gian học làm luận văn tốt nghiệp, Thầy dành nhiều thời gian qúi báu tận tình bảo, hướng dẫn việc nghiên cứu, thực luận văn Trong thời gian làm việc với Thầy, học hỏi nhiều kiến thức bổ ích mà cịn học tinh thần làm việc, thái độ nghiên cứu khoa học nghiêm túc Thầy Tôi xin cảm ơn PGS.TS Hà Quang Thụy Thầy/Cô Khoa Công nghệ thông tin – Trường Đại học Công nghệ giảng dạy chúng tơi q trình học tập góp ý cho tơi hồn thiện q trình làm luận văn Tôi xin cảm ơn PGS.TS Nguyễn Quang Hoan công tác khoa Công nghệ thông tin – Trường đại học SPKT Hưng yên tận tình góp ý cho luận văn tơi Các thầy giúp tiếp thu kiến thức bổ ích lĩnh vực mà nghiên cứu để vận dụng kiến thức vào trường - nơi làm việc Xin cảm ơn bạn bè, đồng nghiệp đặc biệt thành viên gia đình tạo điều kiện tốt nhất, động viên tơi suốt q trình học tập nghiên cứu để hoàn thành tốt luận văn tốt nghiệp Mặc dù cố gắng hoàn thiện luận văn với tất nỗ lực thân, chắn tránh khỏi thiếu sót Kính mong q Thầy/Cơ tận tình bảo Tác giả -10- LỜI MỞ ĐẦU Trong nhiều năm gần đây, CNTT ứng dụng rộng rãi nhiều lĩnh vực khác kinh doanh, giáo dục, nông nghiệp, y học…Trong lĩnh vực giáo dục, phần lớn trường xây dựng CSDL sinh viên để lưu trữ hồ sơ lý lịch, trình học tập, rèn luyện HSSV Trên CSDL có nhiều nghiên cứu, đánh giá kết thi tuyển sinh, kết học tập, rèn luyện HSSV dừng lại mức độ đơn giản, việc sinh báo báo hoàn toàn thực thủ công, thống kê kết học tập HSSV thực phần mềm excel tốn nhiều cơng sức chưa có nhiều nghiên cứu ảnh hưởng kết tuyển sinh, kết mơn học, giới tính… với kết học tập HSSV.Thơng qua dự báo, dự đốn kết học tập HSSV Nhằm góp phần trợ giúp nhà quản lý có định nhanh, phù hợp để phát huy tích cực, hạn chế, ngăn chặn sai sót cơng tác quản lý đào tạo Do đó, việc nghiên cứu vấn đề nêu có vai trị quan trọng Trường Đại học SPKT Hưng Yên nằm hệ thống trường đại học thuộc GD&ĐT, đào tạo nhiều ngành nghề với nhiều hình thức đào tạo nhiều hệ đào tạo khác Trường phát triển sở từ trường Cao đẳng SPKT Hưng Yên với bề dày 35 năm Kết học tập HSSV sở để phòng Đào tạo phối hợp với phòng, ban, khoa tổ chức đánh giá chất lượng người dạy người học, báo cáo trình giáo dục, từ trợ giúp cho Ban Giám hiệu nhà trường định hướng đào tạo, kế hoạch chuyên môn, tiêu tuyển sinh khóa tiếp theo…Hai năm gần đây, giáo dục triển khai cho nhiều trường đại học sử dụng đồng nhiều phần mềm cho công tác đào tạo Edusoft: lập thời khóa biểu, quản lý hồ sơ sinh viên, quản lý điểm,…bước đầu thống biểu mẫu, bảng điểm Bên cạnh, trường có nhiều phần mềm tiện ích khác: Quản lý vật tư, quản lý thực tập sinh viên…Tuy nhiên phần mềm chưa giải câu trả lời ảnh hưởng kết tuyển sinh, kết môn học, giới tính… với kết học tập HSSV Đây nhiệm vụ quan trọng công tác quản lý đào tạo, thu hút nhân tài Hơn nữa, lượng HSSV thi vào trường ngày đơng, trường có sở với tổng diện tích sàn 30 ha, thuận lợi vấn đề lo lắng trường việc lưu trữ liệu, sinh báo cáo nhiều chiều đưa chiến lược đào tạo hàng năm Do đó, địi hỏi phải có nghiên cứu vấn đề để cải thiện tình hình quản lý đào tạo trường giúp cho trường ngày phát triển thích ứng với trào lưu tin học hóa, ngang tầm với trường có bề dày lịch sử nước quốc tế Xuất phát từ vấn đề trên, thực đề tài luận văn “Nghiên cứu, khai thác kho liệu điểm trường Đại học SPKT Hưng Yên dựa công cụ BI Hệ quản trị CSDL SQL Server 2008” Với mong muốn góp phần trợ giúp, định cho công tác quản lý đào tạo trường Đại học SPKT Hưng Yên nói riêng trường chun nghiệp nói chung -51- Hình 3.10- Cửa sổ thiết lập kết nối Bước 4: Thiết lập nguồn: Hình 3.11- Cửa sổ tạo Report Server Project Bước 5: Chọn liệu để thị Sau chọn kiểu báo cáo, hình sau bước hồn thiện đặt tên cho cáo, chỉnh điều khiển Textbox để hiển thị liệu, chuyển sang tab Preview, kết báo cáo sau: -52- Hình 3.12 – Hiển thị kết báo cáo thông thường dạng bảng Thiết kế báo cáo báo cáo thơng thường, chưa có tính trực quan, chưa thể nhiều ưu báo cáo đa chiều Báo cáo gộp nhóm phân trang liệu thành khối việc hiển thị thống kê số liệu Báo cáo đa chiều thể tính trực quan, sinh động linh hoạt hơn, hỗ trợ tốt cho người quản lý nhanh chóng nắm bắt, có nhìn tổng Dịch vụ báo cáo BI cho phép tạo báo cáo từ nhiều nguồn khác nhau, chẳng hạn lấy liệu từ sở liệu quan hệ kho liệu Tuy nhiêu, nguồn cho báo cáo tốt kho liệu Kho liệu kế thừa liệu có sẵn giúp tiết kiệm thời gian chi phí cho việc tạo báo cáo Dưới dạng báo cáo lấy nguồn từ kho liệu thể kết học tập sinh viên phân tích để thấy tính ưu việt việc dùng nguồn cho báo cáo kho liệu so với nguồn khác b Các ví dụ thiết kế báo cáo Ví dụ 1: Báo cáo thống kê học lực sinh viên qua khóa học Hình 3.13- Báo cáo lực học sinh viên thuộc khóa học dạng cột Nhìn vào biểu đồ học lực sinh viên qua khóa học hình 3.13 Ta nhận thấy: Ở khóa đầu số lượng sinh viên có học lực tương đối cao Sau đó, -53- khóa tiếp theo, số lượng sinh viên có học lực có xu hướng giảm Điều đó, cho ta nhận định lực học sinh viên xuống Dữ liệu đầu vào kỹ thuật thiết kế báo báo đặt vào nguồn ổn định, liệu làm vào chuẩn hóa - kho liệu Bản chất liệu kho nằm bảng kiện, liệu trực tiếp lấy xử lý, giúp loại bỏ nhiều lỗi sinh phải thu thập biểu diễn thông tin từ nhiều nguồn khác đồng thời giảm bớt chậm trễ phải lấy liệu từ phân đoạn khác nhau, tránh cho người dùng phải viết truy vấn SQL phức tạp Chẳng hạn, thiết kế báo báo hình 3.14, dùng nguồn CSDL thông thường, truy vấn phải thực công đoạn: Gom nhóm tính tốn cho nhóm, chuyển đổi liệu dòng thành cột, Và việc viết truy vấn dạng địi hỏi hiểu biết sâu ngơn ngữ SQL Báo cáo lấy nguồn từ CSDL thông thường, truy vấn thực chạy phải tính tốn lại kết trung gian tốc độ thực báo cáo có nguồn kho liệu nhanh so với CSDL thông thường Để tạo lập báo cáo phức tạp phục vụ cho mục đích định doanh nghiệp, tab Design thêm vào báo cáo cần thiết chart, gause, image,… thiết lập tham số, trường liệu cho mục Ví dụ 2: Theo dõi tỉ lệ giới tính sinh viên theo khóa học Hình 3.14 – Báo cáo thống kê số lượng giới tính dạng Hình 3.14, cho biết thông tin chi tiết tỉ lệ nam, nữ qua khóa học, ta nhận xét: Số lượng sinh viên chuyên ngành công nghệ thông tin trường có xu hướng nữ nhiều nam Ví dụ 3: Báo cáo điểm vào trung bình, điểm tổng kết trung bình sinh viên thuộc khóa học: -54- Hình 3.15 – Báo cáo điểm vào trung bình sinh viên dạng hình dáng Hình 3.15, số khóa đầu khơng có liệu điểm tuyển sinh sinh viên, ta nhận thấy rằng: điểm đầu vào sinh viên ngày thấp, điểm tổng kết sinh viên tỉ lệ thuận với vào điểm vào sinh viên Ví dụ 4: Theo dõi phụ thuộc điểm tổng kết sinh viên với điểm mơn tốn sinh viên đó: Hình 3.16 – Theo dõi điểm tốn sinh viên khóa k03 dạng Line Hình 3.17 – Theo dõi điểm tổng kết sinh viên khóa k03 dạng Line Với ví dụ 4, hình 3.16 3.17, cho ta dự đốn rằng, đại đa số sinh viên có điểm tốn cao (học giỏi tốn) điểm tổng kết cao Tuy nhiêu, điểm tổng kết sinh viên phụ thuộc vào nhiều yếu tố khác Ví dụ 5: Báo cáo lực học sinh viên theo học kì: -55- Hình 3.18 – Học lực sinh viên theo kỳ học Với ví dụ 5, hình 3.18, kết tồn khóa học sinh viên, nhìn vào hình vẽ người xem nhận kết sinh viên qua kì học, đại đa số kì cuối kết cao kì đầu Ngun nhân gây vấn đề tâm lý, môi trường thay đổi, ngành học…Điều đó, giúp tân sinh viên khóa xác định tâm lý từ đầu bước vào giảng đường đại học Thông qua báo cáo thiết kế ví dụ trên, người lãnh đạo lợi dụng kết để điều chỉnh chương trình học đào tạo phù hợp, điều chỉnh mơn học cho phù hợp với kỳ học, hệ đào tạo khác nhau, định dự kiến điểm đầu vào để thu hút nhân tài nâng cao chất lượng đào tạo 3.3.4 Tính ưu việt báo cáo xây dựng từ kho liệu [16] Hệ quản trị sở liệu SQL Server 2008 xây dựng dịch vụ báo cáo nâng cấp 2000, 2005 Nhóm tác giả sách “Wrox - Professional Microsoft SQL Server 2008 Report Services (2008)” khẳng định tính ưu việt vượt trội hẳn so với số công cụ tạo báo cáo truyền thống Crystal Reports… Báo cáo thiết kế sử dụng cơng cụ Crystal Reports, ví dụ, thường chút đe dọa công cụ báo cáo thiết kế dịch vụ này, họ khơng quen thuộc với tính nghèo nàn Dịch vụ báo cáo giải pháp báo cáo mở cho phép tạo, xuất phân phối báo cáo doanh nghiệp chi tiết cách dễ dàng bên bên tổ chức Các báo cáo xuất nhiều dạng file truy cập cách gửi địa tới trạm internet mạng cục cách thích hợp thành lập để máy chủ, đó, linh hoạt Dịch vụ báo cáo đáp ứng nhu cầu dân công nghệ thơng tin nói chung chun gia nói riêng Người thiết kế báo cáo không tốn nhiều thời gian để hoàn thành báo cáo; tùy biến dạng hiển thị biểu đồ theo ý muốn -56- Hơn nữa, dịch vụ báo cáo việc tạo báo cáo thơng thường, dịch vụ cịn tạo báo cáo cho phép dự đoán thay đổi liệu, định tương lai mà báo cáo truyền thống khó làm điều 3.4 Kết luận chương Chương trình bày vấn đề: Hiện trạng liệu nhu cầu xây dựng kho Xây dựng kho liệu điểm sinh viên: Thông tin liệu điểm, kiến trúc kho liệu, chiều liệu, bước cài đặt kho liệu Xây dựng báo cáo từ kho liệu phục vụ quản lý: Yêu cầu xây dựng báo cáo, lợi ích báo cáo BI, xây dựng báo cáo kết quả, tính ưu việt báo cáo xây dựng từ kho liệu -57- Chương - KHAI THÁC DỮ LIỆU TỪ KHO DỮ LIỆU 4.1 Ứng dụng kỹ thuật KPDL để dự báo, dự đoán 4.1.1 Yêu cầu dự báo, dự đoán xu a Yêu cầu chung Trong công tác giáo dục - đào tạo Bài toán hoạch định chiến lược đào đạo đơn vị nói chung, trường học nói riêng yêu cầu trọng điểm nâng cao hiệu đào tạo, thu hút sinh viên Trong việc hoạch định chiến lược đào tạo có nhiều vấn đề phải giải quyết: nguồn nhân lực, trang thiết bị, đội ngũ cán giáo viên có kinh nghiệm, xây dựng quản lý chương trình đạo tạo, tiêu đào tạo Ngoài vấn đề này; việc quản lý, theo dõi tình hình học tập sinh viên theo ngành nghề khác vấn đề quan trọng để đưa tiêu tuyển sinh trường cách nhanh xác Cung cấp báo cáo, thông tin cho ban lãnh đạo đầy đủ nhanh chóng nhất, loạt câu hỏi hóc búa cần phải giải như: Làm để trường dự đoán tiêu tuyển sinh vào ngành nghề? Làm để thu hút, bồi dưỡng nguồn lực trường mình? Làm để lập kế hoạch công việc đánh giá hiệu làm việc cán cách xác khách quan nhất? Làm để đưa báo cáo cách nhanh trực quan nhất? b Yêu cầu cụ thể: Từ yêu cầu chung hình thành yêu cầu cụ thể bước đầu: Hoàn chỉnh bước đầu, lưu trữ đầy đủ thông tin hồ sơ liên quan đến cán bộ: Thông tin bản, thông tin cá nhân, thông tin công việc; Lưu trữ đầy đủ thông tin hồ sơ liên quan đến học sinh - sinh viên: Thông tin cá nhân, thông tin điểm nhiều khóa học liên tiếp Quản lý nguồn lực: Đáp ứng việc hỗ trợ xây dựng quy trình nhân như: tuyển dụng, quy trình đánh giá nguồn nhân lực, đào tạo, giám sát bổ sung biên chế…; Quản lý xây dựng chương trình đào tạo cho phù hợp với chuyên ngành, loại hình đào tạo Giải pháp lưu trữ liệu: Cơ sở liệu thiết kế có cấu trúc mở, dễ liên lạc với hệ thống sở liệu khác liên quan thiết kế kho liệu để lưu trữ Tuy nhiên với giải pháp này, thiết kế sở liệu phương pháp truyền thống bị hạn chế kích thước liệu, tốc độ xử lý truy vấn bị hạn chế nên giải pháp kho liệu khả thi Dựa kho liệu mà chúng tơi trình bày chương Chúng muốn khai thác liệu tiền ẩn từ kho liệu điểm mà xây dựng Với việc -58- khai thác nguồn ngữ liệu phong phú giúp lãnh đạo trường theo dõi thơng tin tình hình học tập, mối quan hệ mơn học…Từ đó, Dự đốn sinh viên học giỏi mơn tốn có kết học tập cao khơng? Dự đốn kết sinh viên năm học tiếp theo? định tiêu tuyển sinh vào ngành nghề cách phù hợp nhất, điều chỉnh chương trình đào tạo cho phù hợp, đưa chiến lược tuyển sinh phù hợp năm sau 4.1.2 Ưu điểm số thuật toán khai phá BI a Ưu điểm phương pháp Decision Tree: Dễ dàng xây dựng Phân lớp mẫu nhanh Dễ dàng diễn giải cho có kích thước nhỏ Độ xác chấp nhận so với kỹ thuật phân lớp khác nhiều tập liệu lớn b Ưu điểm phương pháp Naïve Bayes: Dễ cài đặt Thời gian thi hành tương tự định Đạt kết tốt phần lớn trường hợp Nhược điểm: Giả thiết tính độc lập điều kiện thuộc tính làm giảm độ xác 4.2 Xây dựng mơ hình dự báo dựa Data Mining Tool Trong phạm vi luận văn, sử dụng thuật tốn: Microsoft Decision Tree, Microsoft Neural Network, Microsoft Nạve Bayes [13], [15], [17] 4.2.1 Khảo sát dự đoán kết học tập sinh viên Xây dựng mô hình khai phá liệu: Hình 4.1 – Cấu trúc mơ hình dùng cho thuật tốn: Decision Tree, Nạve Bayes, Neural Network Mơ hình khai phá: Trong mơ hình khai phá bao gồm thuộc tính đầu vào, thuộc tính khóa thuộc tính dự đốn -59- Hình 4.2 – Mơ hình khai phá cho thuật toán Kết dùng thuật toán: a Thuật tốn định: Hình 4.3 – Cây phân nhánh dùng thuật toán Decision Tree Mỗi nút định thể phần thông tin sau: Điều kiện đòi hỏi để đạt tới nút nút trước Ta thấy đường dẫn đầy đủ nút từ Một biểu đồ miêu tả phân bổ trạng thái cột có khả dự đốn theo phổ biến Sự tập trung trường hợp, trạng thái thuộc tính dự đốn Nếu liệu đầu vào không ảnh hưởng tới thuộc tính dự báo định khơng phân nhánh: Hình 4.4 – Cây khơng phân nhánh dùng thuật toán định Mạng phụ thuộc: Nút trung tâm Xeploai thể thuộc tính dự đốn mơ hình liệu cịn nút xung quanh thể thuộc tính bị tác động thuộc tính dự đốn Hình 4.5 – Mạng phụ thuộc dùng thuật tốn Decision Tree -60- b Thuật tốn Nạve Bayes: Hình 4.6 – Mạng phụ thuộc dùng thuật tốn Nạve Bayes Hình 4.7 – Đặc điểm thuộc tính dùng thuật tốn Nạve Bayes Chúng ta thấy đặc điểm thuộc tính mơ hình Nói cách khác, nhìn thấy xác suất giá trị thuộc tính cụ thể trình bày với giá trị dự đốn hình 4.8 Hình 4.8 – Đặc trưng thuộc tính học lực dùng thuật tốn Nạve Bayes Thơng qua kết hình 4.8, nhận thấy xác suất sinh viên nữ có học lực cao sinh viên nam Biểu đồ mơ hình: -61- Hình 4.9 – Biểu đồ dự báo học lực trung bình sinh viên dùng thuật toán Ở đồ thị trên, đường màu xanh da trời thể ngưỡng giá Đường màu xanh thể giá trị lý tưởng học lực trung bình Các đường màu đỏ, tím, vàng thể giá trị dự báo thực tế học lực trung bình sử dụng thuật tốn tương ứng: Nạve Bayes, Decision Tree, Neural Network Đưởng thẳng đứng màu đen hiển thị phần trăm liệu huấn luyện cho mơ hình khai phá Trong đường màu đỏ, tím, vàng; đường dọc theo biên trái dọc theo biên phía trên, chứng tỏ kết kiểm tra xác cong đường tiến tới thành đường chéo màu xanh da trời, độ xác kiểm tra Ma trận phân lớp: Hình 4.10 – Ma trận phân lớp dùng ba thuật toán -62- Từ bảng liệu ta biết số lượng dự báo loại học lực so với liệu thực tế Với kết cho hình 4.10, thuật tốn Naïve Bayes, số lượng học sinh thực tế đạt kết giỏi thực tế dự đoán 15 (1+3+4+7), số lượng học sinh thực tế đạt kết thực tế dự đoán 15 (7+7+1), số lượng học sinh thực tế đạt kết trung bình - 24 thực tế dự đoán 38 (5+24+9), số lượng học sinh thực tế đạt kết trung bình 46 thực tế dự đốn 53 (1+6+46) Tương tự, tính tốn số lượng thực dự đoán với thuật toán cịn lại Mơ hình dự đốn: Hình 4.11 – Xây dựng mơ hình dự đốn cho thuật tốn Nạve Bayes Kết dự đốn: Hình 4.12 – Kết dự đốn dùng thuật tốn Nạve Bayes Ba cột MaSv, Hocluc Expression thể khả dự đoán học lực sinh viên Chẳng hạn, với sinh viên có mã Tin98-17 khả dự đốn học lực trung bình 98%, so với kết thực tế ta thấy với kết thực tế Ta sử dụng kết để kiểm soát tình hình học tập sinh viên -63- 4.2.2 Phân tích kết đạt Sau thử nghiệm với thuật toán: Microsoft Decision Tree, Microsoft Neural Network, Microsoft Nạve Bayes, chúng tơi đưa nhận xét sau: Sở dĩ, chúng tơi đưa thuật tốn này, ba thuật tốn dùng để phân lớp liệu nên người đọc dễ theo dõi dễ so sánh kết Với cấu trúc mô hình khai phá mục 4.2.1, sử dụng thuật tốn Dicision Tree học lực (Hocluc) sinh viên định chủ yếu dựa vào thuộc tính: (diemky3, gioitinh); dùng thuật tốn Nạve Bayes học lực (Hocluc) sinh viên phụ thuộc vào thuộc tính (diemky3, diem ky1, gioitinh); cịn dùng thuật tốn Neural Network học lực sinh viên có phần phụ thuộc nhiều vào yếu tố giới tính(gioitinh) sinh viên Từ mơ hình khai phá thực nghiệm mục 4.2.1để so sánh độ xác sử dụng thuật tốn: Decision Tree, Neural Network, Nạve Bayes Căn biểu đồ hình 4.9, thấy rằng, dùng thuật tốn Nạve Bayes khả dự đốn có phần xác thuật tốn cịn lại 4.3 Kết luận chương Chương trình bày vấn đề: Ứng dụng kỹ thuật KPDL để dự báo, dự đoán: Yêu cầu dự báo, dự đoán xu thế, số thuật toán KPDL BI Xây dựng mơ hình dự báo Data mining Tool: Khảo sát dự đoán kết học tập sinh viên, phân tích kết đạt -64- KẾT LUẬN – HƯỚNG PHÁT TRIỂN Các mục tiêu thực luận văn Sau thời gian thực nghiên cứu thực nghiệm, chúng tơi đáp ứng mục tiêu mà luận văn đặt ra: Nghiên cứu hiểu vấn đề kho liệu, KPDL, công cụ BI hệ quản trị sở liệu SQL Server 2008, ngôn ngữ T- SQL Xây dựng kho liệu điểm sinh viên Thiết kế báo cáo nhiều dạng phục vụ cho công tác báo cáo nghiệp vụ Hiểu liệu để đưa định tạo mơ hình dự đốn Xây dựng mơ hình khai phá liệu để khám phá liệu tiềm ẩn Sử dụng mơ hình để tạo dự đốn đơn giản, mà sử dụng sau để tạo định nghiệp vụ đào tạo trường So sánh độ xác sử dụng thuật tốn khai phá: Microsoft Decision Tree, Microsoft Neural Network, Microsoft Naïve Bayes mơ hình khai phá Hướng phát triển Dựa kết thực hiện, luận văn có hướng phát triển sau: Triển khai kho liệu với nguồn liệu lớn Tích hợp tự động liệu từ nhiều nguồn khác vào kho liệu Xây dựng hệ thống hoạt động hoàn chỉnh -65- TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hà Quang Thụy (2010), Bài giảng “kho liệu khai phá liệu” [2] Hà Quang Thụy (chủ biên), Phan Xn Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2010) , Giáo trình khai phá liệu Web, Nhà xuất giáo dục, tr 35 [3] Phạm Văn Quang, Đỗ Thị Luân – Lớp K16T5 (2010), tiểu luận ”Datamining Olap”, môn học “Cơ sở liệu nâng cao”, thầy giáo hướng dẫn Nguyễn Hà Nam, tr10-13 [4] T.S Nguyễn Trí Thành (2009), chương 1, giảng Web mining, slide 12 [5] Trường Đại học SPKT Hưng Yên (2010), Báo cáo kế hoạch 2011 năm 2011-2015 [6] http://www.citd.edu.vn/Vietnam/Home/index.php/tai-nguyen/hc-phn-01/c-s-dliu/1095-tng-quan-v-data-warehouse?lang= [7] Trường đại học sư phạm Hà nội, giảng kho liệu, tr 46 -70 [8] Phạm Thị Thu, nghiên cứu KPDL Microsoft Server 2005 với thuật toán MICROSOFT ASSOCIATION RULES MICROSOFT DECISION TREE, , khóa luận tốt nghiệp, nguồn: http://www.mediafire.com/?mmgggjn22yw , tr 47 – 51 [9] SQL Server tutorials, SQL Server 2008 Books Online [10] Hồng Đình Thắng (2010), tiểu luận mơn học “Các vấn đề đại hệ thống thông tin”,lớp k15HTTT, giáo viên hướng dẫn Nguyễn Ngọc Hóa, tr 3- 16 [11] Http://www.fotech.org/forum/index.php?s=1631c11479599b3dc50889f83ab 205b3& showtopic=25068&st=20 [12] Http://dddn.com.vn/20110423122943803cat187/sacombank-trien-khai-thanhcong-data-warehouse-voi-giai-phap-oracle-exadata.htm Tiếng anh: [13] McGraw-Hill (2008), Delivering Business Intelligence with Microsoft SQL Server 2008 [14] Wiley.Data.Mining.with.SQL.Server.2005.Sep.2005.eBook-DDU [15] Apress (2008) - Building a Data Warehouse, With Examples In Sql Server [16] Wrox (2008) - Professional Microsoft SQL Server 2008 Reporting Services [17] Wiley (2008) – Data mining with Microsoft SQL Server 2008 [18] http://www.dexa.org/node/42 [19] Ralph Kimball, The data warehouse ETL toolkit, Wiley Publishing,Inc, 2004, pp 29-51 ... NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRỊNH THỊ NHỊ NGHIÊN CỨU, KHAI THÁC KHO DỮ LIỆU ĐIỂM TẠI TRƯỜNG ĐẠI HỌC SPKT HƯNG YÊN DỰA TRÊN BỘ CÔNG CỤ BI CỦA HỆ QUẢN TRỊ CSDL SQL SERVER 2008 Ngành: CÔNG NGHỆ... đề trên, thực đề tài luận văn ? ?Nghiên cứu, khai thác kho liệu điểm trường Đại học SPKT Hưng Yên dựa công cụ BI Hệ quản trị CSDL SQL Server 2008? ?? Với mong muốn góp phần trợ giúp, định cho công. .. dựng kho liệu điểm khai khác liệu từ kho liệu xây dựng 1.3.2 Dự kiến kết đạt Hiểu kiến thức kho liệu, KPDL, số thuật tốn KPDL cơng cụ BI hệ quản trị SQL Server 2008 Xây dựng kho liệu điểm