Tìm hiểu về khai phá dữ liệu trong giáo dục và ứng dụng trong đào tạo tại trường đại học đồng tháp

71 142 1
Tìm hiểu về khai phá dữ liệu trong giáo dục và ứng dụng trong đào tạo tại trường đại học đồng tháp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VINH NGUYỄN ĐỨC HUY TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU TRONG GIÁO DỤC VÀ ỨNG DỤNG TRONG ĐÀO TẠO TẠI TRƯỜNG ĐẠI HỌC ĐỒNG THÁP LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN ĐỒNG THÁP, 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VINH NGUYỄN ĐỨC HUY TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU TRONG GIÁO DỤC VÀ ỨNG DỤNG TRONG ĐÀO TẠO TẠI TRƯỜNG ĐẠI HỌC ĐỒNG THÁP Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã số: 60480201 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Người hướng dẫn khoa học: TS Nguyễn Ngọc Hiếu ĐỒNG THÁP, 2017 LỜI CAM ĐOAN Tôi xin cam đoan số liệu kết nghiên cứu luận văn trung thực chưa sử dụng để bảo vệ học vị Mọi giúp đỡ cho việc thực luận văn cảm ơn thơng tin trích dẫn luận văn rõ nguồn gốc rõ ràng phép công bố Đồng Tháp, ngày…tháng…năm Học viên thực luận văn Nguyễn Đức Huy LỜI CẢM ƠN Lời đầu tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc tới TS Nguyễn Ngọc Hiếu, Trường Đại học Vinh Thầy dành nhiều thời gian tận tình hướng dẫn, giúp đỡ định hướng thực nội dung luận văn Tôi xin chân thành cảm ơn lãnh đạo quan, bạn bè đồng nghiệp cung cấp tài liệu cho lời khuyên quý báu để thực luận văn Tôi xin gửi lời cảm ơn tới thầy/cô Trường Đại học Đồng Tháp Trường Đại Học Vinh giảng dạy suốt trình học tập MỤC LỤC MỞ ĐẦU Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU TRONG GIÁO DỤC (EDM) 1.1 Giới thiệu EDM 1.2 Người dùng EDM / Bên liên quan 1.3 Một số công cụ dùng EDM 1.3.1 Sự quan trọng công cụ 1.3.2 Giới thiệu số công cụ 1.3.2.1 Microsoft Excel/Google Sheets 1.3.2.2 Structuresd Query Language (SQL) 10 1.3.2.3 Python and Jupyter notebook 10 1.3.2.4 RapidMiner 11 1.3.2.5 KNIME 12 1.3.2.6 Weka 12 Chương 2: CÁC ỨNG DỤNG TRONG GIÁO DỤC VÀ KỸ THUẬT KHAI PHÁ DỮ LIỆU 14 2.1 Giới thiệu 14 2.2 Khả phân tích tính trực quan liệu 14 2.3 Cung cấp thông tin phản hồi để hỗ trợ giáo viên hướng dẫn 15 2.4 Dự đoán kết học tập 18 2.5 Cơ sở lý thuyết luật kết hợp 19 2.5.1 Lý thuyết luật kết hợp 19 2.5.2 Một số tính chất luật kết hợp 22 2.5.3 Phát biểu toán khai phá luật kết hợp 24 2.5.4 Một số hướng tiếp cận khai phá luật kết hợp 25 2.6 Các đặc trưng luật kết hợp 28 2.6.1 Khơng gian tìm kiếm luật 28 2.6.2 Độ hỗ trợ luật 31 2.7 Cây định 32 2.7.1 Định nghĩa định 32 2.7.2 Ưu điểm định 33 2.7.3 Vấn đề xây dựng định 33 2.7.4 Các thuật toán khai phá liệu định 33 2.8 Phân tích trực tuyến (OLAP) 40 2.8.1 OLAP 40 2.8.2 Kiến trúc thành phần OLAP SSAS 40 2.8.2.1 Cube 41 2.8.2.2 Dimension 41 2.8.2.3 Measure 41 2.8.3 Các mơ hình lưu trữ cho OLAP 41 2.8.3.1 Mơ hình Multidimensional OLAP (MOLAP): 41 2.8.3.2 Mơ hình Relational OLAP (ROLAP): 43 2.8.3.3 Mơ hình Hybird OLAP (HOLAP): 44 2.9 Ứng dụng khai phá liệu Đại học Đồng Tháp 44 Chương 3: ỨNG DỤNG KHAI PHÁ LUẬT KẾT HỢP VÀ CÂY QUYẾT ĐỊNH TRONG ĐÀO TẠO 46 3.1 Bài toán 46 3.2 Xây dựng sở liệu: 46 3.3 Xây dựng kho liệu từ sở liệu có 51 3.4 Khai phá từ kho liệu 54 3.4.1 Phân tích OLAP 54 3.4.2 Xây dựng mơ hình khai phá 55 3.4.3 Phân tích kết đạt được: 60 KẾT LUẬN 62 TÀI LIỆU THAM KHẢO 63 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT EDM Educational Data Mining DM Data Mining OLAP On-Line Analytical Prosessing DANH MỤC CÁC HÌNH VẼ Bảng 2.5.1.1: Ví dụ sở liệu dạng giao dịch –D 20 Bảng 2.5.1.2 : Các tập phổ biến sở liệu bảng 1với độ hỗ trợ tối thiểu 50% 21 Hình 2.6.1.1: Dàn cho tập I = {1,2,3,4} 29 Hình 2.6.1.2: Cây cho tập I = {1, 2, 3, 4} 30 Hình 3.1 Danh sách bảng điểm lớp CNTT08b 42 Hình 3.2 Sơ đồ sở liệu quan hệ điểm trường Đại Học Đồng Tháp 43 Hình 3.3 Bảng điểm sinh viên lớp CNTT08b…………………………….45 MỞ ĐẦU Sự cần thiết vấn đề nghiên cứu Ngày công nghệ thông tin luôn phát triển không ngừng đổi mới, với phát triển hệ thống thơng tin phục vụ việc tự động hoá lĩnh vực người triển khai vượt bậc Điều tạo dòng liệu khổng lồ Nhiều hệ quản trị CSDL mạnh đời giúp khai thác hiệu nguồn tài nguyên thu thập Với lượng liệu, thông tin thu thập ngày nhiều đòi hỏi phải trích rút thơng tin tiềm ẩn nhằm đưa định đắn công việc Xuất phát từ thực tiễn đó, vào năm cuối kỷ 20 khai phá liệu đời Đây lĩnh vực nghiên cứu mẻ ngành khoa học máy tính khai phá tri thức (KDD) Nó thu hút quan tâm nhiều người lĩnh vực khác : hệ CSDL, thống kê, nhận dạng, máy học, trí tuệ nhân tạo Khai phá liệu sử dụng cơng cụ phân tích liệu như: truy vấn, báo cáo, dịch vụ phân tích trực tuyến (OLAP, ROLAP, MOLAP) để tìm mẫu có giá trị kho liệu Khai phá liệu ứng dụng thành công vào ngành thương mại, tài chính, kinh doanh, sinh học, y học, giáo dục, viễn thông Trong việc ứng dụng khai phá liệu vào nhiều lĩnh vực khác đời sống, khai phá liệu lĩnh vực giáo dục dần có quan tâm mức Chúng ta cần phải nhìn nhận giáo dục nhân tố định phát triển đất nước nhiều mặt Mục tiêu phát triển xã hội cách bền vững đặt cho giáo dục yêu cầu Giáo dục đào tạo có nhiệm vụ định hướng hoạch định sách cho đối tượng giáo dục hệ trẻ, lực lượng kế thừa việc xây dựng, bảo vệ phát triển đất nước tương lai cách đắn kịp thời Chính vậy,việc định hướng xây dựng sách Giáo dục Đào tạo cần phải hỗ trợ công cụ khoa học để tránh sai lầm đáng tiếc Trong số cơng cụ đó, khai phá liệu cơng cụ hữu ích có tính khoa học cao, giúp nhà quản lý giáo dục có tri thức quý giá phục vụ cho công tác quản lý sinh viên sử dụng kết hữu ích từ q trình chắt lọc liệu khai phá liệu Đã có nhiều nghiên cứu hội thảo tổ chức thành lập nhằm nâng cao khả EDM tổ chức Institute of Electrical and Electronics Engineers Bên cạnh nhiều đề tài nghiên cứu Thạc sĩ Tiến sĩ nước để bước nâng cao khả ứng dụng khai phá liệu vào giải công việc công tác giáo dục đạt hiệu cao, kinh nghiệm thực tế qua kiến thức thu thập Nhưng việc ứng dụng vào việc giáo dục trường đại học Đồng Tháp chưa rõ ràng, tơi chọn đề tài “TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU TRONG GIÁO DỤC VÀ ỨNG DỤNG TRONG ĐÀO TẠO TẠI TRƯỜNG ĐẠI HỌC ĐỒNG THÁP” Nội dung đề tài sâu vào tìm hiểu số thuật tốn khai phá luật kết hợp ứng dụng công tác đào tạo trường đại học Đồng Tháp Kết nghiên cứu cung cấp thông tin hỗ trợ cho sinh viên lựa chọn môn học,ngành học, hướng nghiên cứu, đồng thời hỗ trợ cán làm công tác tư vấn đào tạo, cán phòng đào tạo thuận lợi công tác đào tạo Mục tiêu nghiên cứu  Nghiên cứu phương pháp khai phá tìm luật kết hợp dựa liệu giáo dục  Ứng dụng thực nghiên cứu để xây dựng mơ hình khai phá liệu dựa vào chuẩn chất lượng Bộ Giáo Dục kết học tập thu thập sinh viên trường Đại Học Đồng Tháp Từ đó,triển khai xây dựng ứng dụng thử nghiệm từ mơ hình xây dựng nhằm xây dựng lộ 49 Mô tả liệu: Dữ liệu dùng để xây dựng Cơ sở liệu hình thành với thơng tin Sinh viên thông tin điểm tương ứng Từ bảng liệu Sinh viên, Điểm tổng kết theo kỳ tồn khóa, đề tài sử dụng cơng cụ excel để tổng hợp liệu cho bảng chiều SinhVien sau: Hình 3.3 Bảng điểm sinh viên lớp cntt08b 50 Nạp liệu vào Cơ sở liệu Để nạp liệu vào Cơ sở liệu trên, đề tài sử dụng cơng cụ có sẵn cài SQL Server 2008 Bước 1: Chọn nguồn liệu Microsoft Excel chọn đường dẫn đến file excel mà ta làm trên: Hình 3.4 Chọn nguồn liệu Microsoft Excel Bước 2: Chọn sở liệu đích nơi đề tài khai thác liệu Hình 3.5 Chọn đích kho liệu 51 3.3.Xây dựng kho liệu từ sở liệu có Ta dựa cơng cụ BI cài đặt sẵn hệ quản trị SQL Server 2008 Bước 1: Tạo project (Analysis Services Project) Hình 3.6 Sử dụng Analysis Services Project 52 Bước 2: Tạo Data Source Tạo data source kết nối đến sở liệu quản lý Điểm Hình 3.7 Kết Nối Bước 3: Tạo Data Source View Trong Data Source View, chọn liệu lấy từ kho liệu có tên Dulieu Bước chọn bảng cần thiết cho phân tích Sau hoàn thành, bảng Sự kiện bảng chiều sau: 53 Hình 3.8 Kho liệu Bước 4: Tạo liệu khối (Cubes) Bước giúp ta tạo liệu khối cho phân tích cách nháy chuột phải lên Cube chọn New Cube Bấm Next tiếp tục hệ thống tự động dị tìm bảng kiện bảng chiều Bước yêu cầu xác lập chiều thời gian xác định độ đo (Measure) cho việc phân tích Các độ đo đại lượng phản ánh mục tiêu phân tích, tính tốn Đó phép tốn thuộc tính tính tốn bảng Fact Kết khối liệu chiều sinh 54 Hình 3.9 Cube 3.4 Khai phá từ kho liệu 3.4.1.Phân tích OLAP Panel bên trái chứa Measure (độ đo) chiều định nghĩa xây dựng khối Panel bên phải chia làm cửa sổ Cửa sổ dùng để xác định điều kiện để phân tích Cửa sổ chứa kết Measure ta kéo thả (drag and drop) measure từ panel bên trái qua Tùy theo mục đích phân tích mà xác lập biểu thức phân tích cho phù hợp Hình 3.9: ví dụ OLAP 55 Việc sử dụng OLAP cho việc phân tích tạo báo cáo hoàn toàn linh hoạt dễ sử dụng Hệ thống cho phép tạo lát cắt (Slice) liệu nhiều chiều khác để sinh tổng hợp cần thiết cho nhu cầu phân tích liệu kho nhanh chóng tiện lợi 3.4.2.Xây dựng mơ hình khai phá Bước 1: Chọn thuật toán Cây định luật kết hợp Sử dụng định Hình 3.10 Tạo mơ hình khai phá Sau lựa chọn thuộc tính đầu vào: 56 Hình 3.11.Lựa chọn thuộc tính Xác định Key (MaSV), thuộc tính đầu vào (Input) thuộc tính dự đốn(Predict) Chọn Cột cần dự dốn (Predictable) XepLoai cột dùng để dự đoán (input) gồm: GioiTinh, năm1, năm2, năm3, năm4, năm5 Sau xác định thuộc tính, nhấn vào nút Suggest để xem cột làm cột Input Hình 3.12: Kết tính Entropy 57 Dựa vào kết tính Entropy trên, ta thấy điểm số Score năm đầu cao so với thuộc tính cịn lại, tức thuộc tính có tác động mạnh đến thuộc tính dự đốn kết học tập Sinh viên Các thuộc tính cịn lại có mức độ ảnh hưởng đến mơ hình giảm dần Sử dụng luật kết hợp để đánh giá Chọn thuộc tính đầu vào 58 Mơ hình Luật kết hợp: Hình 3.13: Kết tạo viewer cho mơ hình Luật kết hợp Bước 2: Tạo Mining models Hình 3.14: Các mơ hình xây dựng Bước 3: Khai thác Mining models Sau định nghĩa Mining Structure Mining Models trên, ta tiến hành thực thi (deploy) Mining Models cách bấm F5 Sau thực thi Models xây dựng, ta kiểm tra kết quả, độ xác việc sử dụng Mining Models cho việc dự đoán 59 liệu chưa biết tab: Mining Model Viewer (xem kết quả), Mining Accuracy Chart (kiểm tra tính xác), Mining Model Prediction (dùng để dự đoán) Bước 4: Sử dụng Mining Models để dự đoán Kiểm tra độ xác models để biết khả đốn xác mining models Tab Mining Accuracy Chart Phương pháp kiểm tra sử dụng Test data (là liệu tách từ training dataset ban đầu Test data không dùng vào trình q trình xây dựng model Có nghĩa mẫu liệu thuộc test data khơng xuất Training Dataset Hiện tập dataset phân tự động ngẫu nhiên theo thiết lập bước trước) BIDS vẽ thêm mơ hình lý tưởng (Ideal Model, mơ hình mà dự đốn 100% mẫu) để dễ dàng so sánh hiệu dự đoán Mining models Hai cơng cụ để mơ tả độ xác Mining models mà BIDS dùng Lift Chart , Classification Matrix Trong Lift Chart, trục x biểu diễn % Test data sử dụng để so sánh với kết dự đoán, trục y biểu diễn % giá trị dự đoán -Đường màu xanh da trời thể giá trị ngưỡng giá - Đường màu xanh thể giá trị lý tưởng xếp loại =7.5 Ta thấy đường lý tưởng lập đỉnh x xung quanh 60% , điều có nghĩa 60 ta có mơ hình lý tưởng, tức mơ hình dự đốn xác 100% trường hợp, ta xác định thuộc tính xeploai (7.5) cách test thử 60% liệu database - Đường màu tím hồng thể giá trị thực tế xếp loại =7.5 sử dụng thuật toán luật kết hợp định Ba cột MaSV, XepLoai, Expression thể khả dự đoán học lực sinh viên.Chẳng hạn với sinh viên có mã 0773007 khả dự đốn học lực 7.5 (khá) 96% So với kết thực tế ta thấy với kết thực tế Ta sử dụng kết để kiểm soát tình hình học tập sinh viên 3.4.3 Phân tích kết đạt được: Đề tài thử nghiệm với mơ hình Decision Tree Luật kết hợp Sau dùng biểu đồ Lift Chart để kiểm tra độ xác mơ hình Kết cho thấy mơ hình Cây định lựa chọn có kết xác Chính mơ hình Cây định lựa chọn để dự đoán kết đánh giá học tập Sinh viên Bên cạnh kết học tập sinh viên có ảnh hưởng nhiều năm học đầu từ kết năm đầu ta phần dự đoán kết sinh viên từ năm đồng thời đưa 61 biện pháp phù hợp để cải thiện chúng Đồng thời cho tân sinh viên biết phải cố gắng từ năm đầu nhập học Ví dụ sinh viên mang mã số 0008410083 có kết năm đầu thấp nên thân sinh viên dự đốn kết trung bình em cần nỗ lực năm học lại Đồng thời kết cho thấy sinh viên nữ lớp có tỉ lệ học lực tốt sinh viên nam Sau năm học, nhà trường lại có khóa sinh viên trường, liệu sinh viên lại sử dụng để xây dựng mơ hình dự đốn kết học tập Việc xây dựng mơ hình liệu sinh viên qua nhiều khóa học giúp mơ hình đạt độ xác cao khách quan Để thực việc này, người quản trị hệ thống cần bấm nút “Xây dựng CSDL” phần mềm để hệ thống cập nhật thêm liệu cho mơ hình tiến hành chạy lại mơ hình 62 KẾT LUẬN Đề tài Nghiên cứu khai phá liệu giáo dục cho vấn đề sau đây:  Ảnh hưởng khai phá liệu với việc nâng cao chất lượng giáo dục  Một số ứng dụng EDM vào giáo dục  Sử dụng khai phá liệu SQL để đánh giá trình học tập lớp Cntt08b thuộc khoa cntt Nhìn chung, đề tài hồn thành mục tiêu đề Để đưa mơ hình dự đốn vào ứng dụng cách hiệu cần tiếp tục đầu tư thu thập liệu sinh viên nhiều Triển khai dự đoán, kiểm chứng thực tế đánh giá kết cách thường xuyên Bản thân nhận thấy hướng tiếp cận đắn có thực tiễn cao Dựa kết thực hiên, luận văn có hướng phát triển sau: -Triển khai kho liệu với nguồn liệu lớn -Tích hợp tự động liệu từ nhiều nguồn khác vào kho liệu -Xây dựng hệ thống phần mềm hoàn chỉnh, dễ sử dụng cho sinh viên giáo viên Đặc biệt đội ngũ cố vấn học tập, dựa vào hệ thống tư vấn, lựa chọn lộ trình học phù hợp để kết học tập tốt 63 TÀI LIỆU THAM KHẢO  Tiếng Việt [1] Đỗ Phúc (2007), Bài giảng khai thác liệu, Đại học Quốc gia TP Hồ Chí Minh, [2] Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy (2013), Giáo trình khai phá liệu, NXB Đại học Quốc gia Hà Nội [3] Nguyễn Thái Nghe, Paul Janecek, Peter Haddawy (2017), Một phân tích kỹ thuật dự đốn kết học tập, Khoa Cơng nghệ thơng tin Truyền thông, Đại học Cần Thơ [4] Nguyễn Thị Thanh Thủy (2012), Ứng dụng khai phá liệu xây dựng cơng cụ dự đốn kết học tập sinh viên, Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ Đại học Đà Nẵng  Tiếng Anh [5] Stefan Slater (2016) , Tools for Educational Data Mining, A Review, Columbia University [6] Cristóbal Romero, Sebastian Ventura (2010), Educational Data Mining: A Review of the State of the Art [7] Jean – Marc Adamo (2001), Data Mining for Association Rules and Sequential Patterns, Sequential and Parallel Algorithms, Springer – Verlag New York, Inc [8] Tang, Z H., MacLennan, J.: “Data Mining with SQL Server 2005”, Indianapolis: Wiley, 2005 ...BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VINH NGUYỄN ĐỨC HUY TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU TRONG GIÁO DỤC VÀ ỨNG DỤNG TRONG ĐÀO TẠO TẠI TRƯỜNG ĐẠI HỌC ĐỒNG THÁP Chuyên ngành: CÔNG... tài “TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU TRONG GIÁO DỤC VÀ ỨNG DỤNG TRONG ĐÀO TẠO TẠI TRƯỜNG ĐẠI HỌC ĐỒNG THÁP” Nội dung đề tài sâu vào tìm hiểu số thuật toán khai phá luật kết hợp ứng dụng công tác đào. .. cứu - Kỹ thuật khai phá liệu - Dữ liệu đào tạo 3.2 Phạm vi nghiên cứu - Ứng dụng EDM trường Đại học Đồng Tháp Nội dung nghiên cứu Tìm hiểu EDM ứng dụng đào tạo trường Đại học Đồng Tháp Kết cấu

Ngày đăng: 01/02/2021, 21:28

Từ khóa liên quan

Mục lục

  • Thuật toán đánh giá phân chia:

  • For <Với mỗi thuộc tính A> do

  • Cập nhật danh sách lớp:

  • Thuật toán cập nhật danh sách lớp:

Tài liệu cùng người dùng

Tài liệu liên quan