luận văn thạc sĩ xây dựng công cụ dự đoán kết quả học tập của sinh viên đại học đồng tháp

102 31 0
luận văn thạc sĩ xây dựng công cụ dự đoán kết quả học tập của sinh viên đại học đồng tháp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - TRẦN TUẤN ANH XÂY DỰNG MƠ HÌNH DỰ BÁO KẾT QUẢ HỌC TẬP CỦA SINH VIÊN ĐẠI HỌC ĐỒNG THÁP LUẬN VĂN THẠC SĨ KỸ THUẬT TPHCM - NĂM 2016 i LỜI CAM ĐOAN Tôi xin cam đoan số liệu kết nghiên cứu luận văn trung thực chƣa đƣợc sử dụng để bảo vệ học vị Mọi giúp đỡ cho việc thực luận văn đƣợc cảm ơn thông tin trích dẫn luận văn đƣợc rõ nguồn gốc rõ ràng đƣợc phép công bố TP.HCM, ngày…tháng…năm Học viên thực luận văn Trần Tuấn Anh ii LỜI CÁM ƠN Để hoàn thành luận văn này, em xin tỏ lòng biết ơn sâu sắc đến Thầy TS Dƣơng Minh Đức, tận tình hƣớng dẫn suốt trình làm luận văn Em chân thành cám ơn quý Thầy, Cô Trƣờng Học Viện Công Nghệ Bƣu Chính Viễn Thơng TPHCM tận tình truyền đạt kiến thức năm em học tập Với vốn kiến thức đƣợc tiếp thu q trình học khơng tảng trình nghiên cứu luận văn mà cịn hành trang q báu để em bƣớc vào đời cách vững tự tin Cuối em xin kính chúc q Thầy, Cơ dồi sức khỏe thành công nghiệp cao quý TP.HCM, ngày…tháng…năm Học viên thực luận văn Trần Tuấn Anh iii MỤC LỤC Lời cam đoan i Lời cám ơn ii Mục lục iii Danh mục thuật ngữ, chữ viết tắt vi Danh sách bảng vii Danh sách hình vẽ viii MỞ ĐẦU CHƢƠNG I - GIỚI THIỆU 1.1 Lý chọn đề tài 1.2 Mục đích nghiên cứu 1.3 Đối tƣợng phạm vi nghiên cứu 1.4 Phƣơng pháp nghiên cứu 1.5 Ý nghĩa khoa học thực tiễn luận văn 1.6 Cấu trúc luận văn CHƢƠNG II - CƠ SỞ LÝ THUYẾT 2.1 Khái niệm khai phá liệu 2.1.1 Định nghĩa khai phá liệu 2.1.2 Những nhóm tốn khai phá liệu 10 2.1.3Những lợi thách thức khai phá liệu 12 2.2 Các bƣớc xây dựng giải pháp khai phá liệu 14 2.2.1 Mơ hình luồng liệu 14 2.2.2 Vòng đời hệ thống khai phá liệu 14 2.3 Kiến trúc hệ thống khai phá liệu điển hình 19 2.4 Khai phá liệu lĩnh vực giáo dục 20 2.4.1 Tầm quan trọng khai phá liệu lĩnh vực giáo dục 20 iv 2.4.2 Các ứng dụng khai phá liệu lĩnh vực giáo dục 21 2.5 Một số kỹ thuật khai phá liệu phân lớp, dự báo 24 2.5.1 Cây định 24 2.5.2 Phân lớp Naïve Bayes 27 2.5.3 Mạng nơ ron nhân tạo 31 2.5.4 Khai phá luật kết hợp 35 2.6 Khai phá liệu với hệ quản trị CSDL Microsft SQL Server .38 2.6.1 Giới thiệu chung 38 2.6.2.Ngôn ngữ truy vấn khai phá liệu DMX (Data Mining Extensions) 40 2.6.3 Bộ công cụ SQL Server Business Intelligence Development Studio 42 2.6.4 Lập trình khai phá liệu với Analysis Services APIs 43 2.7 Kết luận chƣơng 45 CHƢƠNG -MƠ HÌNH ĐỀ XUẤT 3.1 Giải pháp dự đoán kết học tập sinh viên 47 3.1.1 Liệt kê lộ trình học sinh viên 47 3.1.2 Dự đốn kết học tập cuối khóa sinh viên 49 3.2 Xây dựng sở liệu cho hệ thống 50 3.3 Xây dựng hệ thống dự đoán kết học tập 54 3.3.1 Xây dựng mơ hình 54 3.3.2 Đánh giá mơ hình 55 3.3.3 Thiết kế hệ thống dự đoán kết học tập 62 CHƢƠNG IV - THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Thực nghiệm, đánh giá hệ thống 65 4.2 Kết luận chƣơng 70 v KẾT LUẬN VÀ KIẾN NGHỊ 71 TÀI LIỆU THAM KHẢO 73 PHỤ LỤC 74 vi DANH MỤC CÁC Viết tắt Tiếng A ANN Artificial Neural Ne BBP Boosting – Based P BIDS Bussiness Intelligen Studio CSDL DT Decision Tree DMX Data Mining Extens DMM Data Mining Model KPDL MAP Maximum A Posteri NBC Naïve Bayes Classif SOM Self-Organizing Ma MS SVM Microsoft Support Vector Mac vii DANH SÁCH BẢNG Bảng 2.1: Lựa chọn thuật tốn khai phá liệu theo mục đích 39 Bảng 3.1: Bảng liệu xây dựng hệ thống dự đoán kết học tập 52 viii DANH SÁCH HÌNH VẼ Hình 2.1: Các bƣớc xây dựng hệ thống khai phá liệu 10 Hình 2.2: Mơ hình luồng liệu 14 Hình 2.3: Kiến trúc hệ thống khai phá liệu điển hình 19 Hình 2.4 Biểu diễn định 24 Hình 2.5: Cây định cho việc chơi Tennis 25 Hình 2.6: Nơ ron sinh học 31 Hình 2.7: Mơ hình học có giám sát 34 Hình 2.8: Mơ hình học khơng giám sát 35 Hình 2.9: Hình ảnh tổng quan khai phá liệu với SQL 2008 38 Hình 3.1: Quy trình xử lý liệu đầu vào 50 Hình 3.2: Mơ hình CSDL quan hệ đƣợc thu thập để xây dựng hệ thống .51 Hình 3.3: Một phần bảng lộ trình học theo ngành 52 Hình 3.4: Một phần liệu xây dựng hệ thống 53 Hình 3.5: Sự phụ thuộc thuộc tính dự đốn vào thuộc tính khác .54 Hình 3.6: Lựa chọn Lift Chart với Predict Value=”K” 56 Hình 3.7: Kết Lift Chart với Ketqua=”K” cho 04 mơ hình 56 Hình 3.8: Kết Lift Chart không xác định giá trị thuộc tính dự đốn .58 Hình 3.9: Classification Matrix 04 mơ hình 59 Hình 3.10: Biểu đồ so sánh mức độ xác mơ hình 61 Hình 3.11: Sơ đồ hoạt động hệ thống 63 Hình 4.1: Kết dự đốn kết học tập với mơ hình Nạve Bayes 65 Hình 4.2: Kết dự đoán kết học tập với mơ hình Cây định .66 Hình 4.3: Kết dự đốn kết học tập với mơ hình Luật kết hợp 66 Hình 4.4: Kết dự đốn kết học tập với mơ hình Neural Network 67 Hình 4.5: Kết dự đốn học tập với sinh viên nam 68 Hình 4.6: Kết dự đốn học tập với sinh viên nữ 69 Hình 4.7: Xem chi tiết lộ trình học 70 MỞ ĐẦU Trong gần hai thập kỷ qua, hệ thống sở liệu (CSDL) đem lại lợi ích vơ to lớn cho nhân loại Cùng với phát triển công nghệ thơng tin (CNTT) ứng dụng đời sống - kinh tế - xã hội, lƣợng liệu thu thập đƣợc ngày nhiều theo thời gian, làm xuất ngày nhiều hệ thống CSDL có kích thƣớc lớn Trong tình hình nay, thơng tin trở thành yếu tố định lĩnh vực vấn đề tìm thơng tin hữu ích CSDL lớn ngày trở thành mục tiêu quan trọng quan, tổ chức, doanh nghiệp khai phá liệu dần trở thành thành phần để thực thi nhiệm vụ khai phá tri thức Đƣợc đánh giá tao cách mạng kỷ 21, khai phá liệu ngày đƣợc ứng dụng phổ biến lĩnh vực nhƣ: thƣơng mại, tài chính, thị trƣờng chứng khốn, y học, thiên văn học, sinh học, giáo dục, viễn thông Hiện nay, đa số trƣờng đại học cao đẳng nƣớc ta chuyển từ đào tạo theo niên chế sang đào tạo theo tín Đào tạo tín có ƣu điểm giúp sinh viên tự quản lý quỹ thời gian tùy theo khả để tự định môn học theo kỳ Việc lựa chọn môn học học kỳ (hay gọi chọn lộ trình học) để cho kết học tập cao việc khó khăn sinh viên Vì vậy, việc dự đoán kết học tập để tƣ vấn cho sinh viên lựa chọn lộ trình học phù hợp nhằm đạt đƣợc kết học tập cao đƣợc đặc biệt quan tâm Đó khó khăn chung khơng sinh viên, mà cố vấn học tập, giáo viên chủ nhiệm tổ chức quản lý trƣờng Các giảng viên chuyên trách tiếp cận toàn liệu điểm sinh viên Ngay với cấp quản lý, cảm tính suy luận thủ cơng từ khối liệu lớn để đƣa tƣ vấn tốt việc chọn lộ trình học cho sinh viên khơng phải khả thi Tại Việt Nam, việc nghiên cứu khai phá liệu lĩnh vực giáo dục đào tạo cịn chƣa đƣợc quan tâm mức Đã có số cơng trình đƣợc cơng bố sử dụng hồ sơ cá nhân nhƣ điểm đầu vào để dự báo kết học 71 KẾT LUẬN VÀ KIẾN NGHỊ Kết luận Sau thời gian nghiên cứu làm việc nghiêm túc, luận văn đạt đƣợc số kết sau đây: Nghiên cứu sở lý thuyết khai phá liệu, tập trung vào kỹ thuật khai phá liệu áp dụng cho mơ hình dự báo nhƣ: định, Nạve Bayes, luật kết hợp mạng nơ ron nhân tạo - Nghiên cứu công cụ khai phá liệu BIDS Microsoft, ngôn ngữ truy vấn khai phá liệu DMX kỹ thuật lập trình khai phá liệu với Analysis Services APIs hệ quản trị sở liệu Microsoft SQL Server - Tìm hiểu mơ hình đào tạo theo tín chỉ, khó khăn sinh viên việc lựa chọn môn học đề xuất toán tƣ vấn cho sinh viên lộ trình học phù hợp để sinh viên đạt kết cao thông qua việc xây dựng lộ trình học tƣơng ứng với ngành mà sinh viên theo học, dự đoán kết học tập theo lộ trình lựa chọn lộ trình cho kết cao - Tiến hành thu thập tiền xử lý liệu, thu đƣợc 233.510 ghi điểm tổng kết học phần liệu cá nhân, tuyển sinh điểm tổng kết tồn khóa cho 3402 sinh viên thuộc 21 ngành học với 840 học phần (môn học), từ xây dựng CSDL hệ quản trị SQL Server 2008, phục vụ cho việc phát triển hệ thống dự đoán kết học tập - Xây dựng mơ hình dự đốn kết học tập với 04 thuật toán đề xuất định, luật kết hợp, mạng nơ ron nhân tạo Naive Bayes Qua đánh giá mức độ xác mơ hình cho thấy mơ hình Naive Bayes cho mức độ dự báo xác cao (80,98%), sau đến Neural Network (78,82%), Decision Tree (78,62%) thấp Cây định (75,29%) - Từ đánh giá trên, em xây dựng hệ thống dự đoán kết học tập với đầu vào thông tin cá nhân sinh viên nhƣ: ngành học, điểm thi tuyển sinh, giới tính, sử dụng mơ hình dự báo Naive Bayes Hệ thống hoạt động ổn định, cho kết nhanh hiển thị kết dự đốn cho tất lộ trình học tập sinh viên 72 (sắp xếp theo thứ tự từ cao xuống thấp), giúp sinh viên dễ dàng lựa chọn cho lộ trình học phù hợp Các độ đo nhƣ xác suất dự báo số trƣờng hợp hỗ trợ đƣợc đƣa vào để gợi ý sinh viên lựa chọn tốt (trong trƣờng hợp có nhiều lộ trình cho kết học tập cao nhất) Lộ trình đƣợc xem chi tiết theo tên môn học kỳ học (sắp xếp theo thứ tự tăng dần học kỳ) - Hệ thống có chức cho phép ngƣời quản trị cập nhật sở liệu cập nhật lại mơ hình kết thúc năm học với khóa tốt nghiệp, qua giúp hệ thống ngày đạt độ xác cao khách quan Kiến nghị Để hệ thống triển khai rộng rãi, thời gian tới em phát triển hệ thống web Do phần liệu thu thập đƣợc hạn chế nên độ xác mơ hình chƣa thực cao, mơ hình Nạve Bayes cho kết tốt đạt 80,98% Trong thời gian tới em tiếp tục cập nhật mơ hình với liệu khóa trƣờng để kết dự đoán đƣợc cải thiện Do thời gian thực luận văn không nhiều nên chắn tránh khỏi thiếu sót Em mong nhận đƣợc góp ý thầy, giáo bạn đọc để luận văn đƣợc hoàn thiện Xin chân thành cảm ơn! 73 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy, Giáo trình khai phá liệu, NXB Đại học Quốc gia Hà Nội, 2013 [2] Nguyễn Thái Nghe,Paul Janecek, Peter Haddawy,Một phân tích kỹ thuật dự đốn kết học tập, Khoa Cơng nghệ thơng tin Truyền thông, Đại học Cần Thơ [3] Nguyễn Thị Thanh Thủy, Ứng dụng khai phá liệu xây dựng cơng cụ dự đốn kết học tập sinh viên, Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ Đại học Đà Nẵng, 2012 [4] Nguyễn Đình Thúc, Trí tuệ nhân tạo Mạng nơ ron - phương pháp ứng dụng, NXB Giáo dục, 2000 Tiếng Anh [5] JamieMacLennan, ZhaoHui Tang, Bogdan Crivat Data Mining with Microsoft SQL Server 2008 Published by Wiley Publishing, Inc., Indianapolis, Indiana 2008 [6] Jiawei Han and Micheline Kamber Data Mining Concepts and Techniques, Second Edition Published by Elsevier Inc 2006 [7] Brian Knight, Devin Knight, Adam Jorgensen, Patrick LeBlanc, Mike Davis Knight's Microsoft Business Intelligence 24-Hour Trainer Published by Wiley Publishing, Inc 2010 [8] Developing Application that uses Analysis Services http://social.msdn.microsoft.com/Forums/zh/sqldatamining/thread/fb74ab561172-4460-8953-f566ca0a0cf3 [9] SQL server Data Mining http://www.sqlserverdatamining.com/ssdm/Home/Downloads/tabid/60/Default.aspx [10] Tang, Z H., MacLennan, J.: “Data Mining with SQL Server 2005”, Indianapolis: Wiley, 2005 74 PHỤ LỤC Các bƣớc tạo ứng dụng BIDS VS 2008 Sau đây, em trình bày bƣớc tạo ứng dụng BIDS Visual Studio 2008 kết hợp với hệ quản trị CSDL MS SQL Server 2008 Đây bƣớc em thực để tạo ứng dụng BIDS cho hệ thống dự đoán kết học tập trình bày chƣơng luận văn 1) Khởi động SQL Server Business Intelligence Development Studio từ SQL Server 2008 hay mở Visual Studio 2008 chọn New Project Sau chọn Analysis Services Project: Hình 1: Tạo ứng dụng BIDS 2) Tạo Data Source kết nối đến CSDL 75 Hình 2: Tạo Data Source 3) Tạo Data Source View Hình 3: Chọn bảng để tạo Data Source View 76 Hình 4: Tạo Data Source View 4) Tạo Mining Structure Trong cửa sổ Solution Explorer, bấm phải chuột mục Mining Structures chọn New Mining Structure Bấm Next chọn From existing relational database or data warehouse bấm Next chọn Decision tree: Hình 5: Chọn thuật tốn khai phá liệu Bấm Next để chọn Data Source View tạo bƣớc trƣớc, sau bấm Next để chọn Case, sau tiến hành tích chọn cột Input, Key Predictable: 77 Hình 6: Thiết lập thuộc tính cho dự báo Chú ý: Sau chọn thuộc tính predictable, cần nhấn nút Suggest hệ thống đề nghị thuộc tính Input tính liên quan đến thuộc tính predictable chọn Microsoft thiết lập thuộc tính có Score >=0.05 Nếu muốn lựa chọn thuộc tính khác ta tích chọn vào cột Input thuộc tính tƣơng ứng Bấm Next bấm Detect để xác định nội dung kiểu liệu thuộc tính đƣợc sử dụng mơ hình: 78 Hình 7: Kiểu liệu thuộc tính tham gia dự báo Thiết lập tỷ lệ phân chia liệu thành tập CSDL phục vụ cho huấn luyện test mơ hình (chia ngẫu nhiên ghi) Trong ví dụ, ta chọn chia tập liệu theo tỷ lệ 85% cho training 15% cho testing Chức có từ Visual Studio 2008 trở lên (từ 2005 trở xuống không hỗ trợ mà ngƣời dùng phải tạo tay CSDL phục vụ cho training testing): Hình 8: Thiết lập dataset cho training testing 79 Bấm Next, đặt tên cho Mining Structure Mining Model: Hình 9: Một Mining Structure Mining Model đƣợc tạo 5) Tạo Mining Model Khi tạo Mining Structure ban đầu có mơ hình khai phá liệu dựa kỹ thuật Decision Tree với tên gọi CayQuyetDinh nhƣ hình vẽ Trong phần ta sử dụng kỹ thuật khai phá liệu khác để đạt đƣợc mục đích nghiên cứu nhƣ so sánh hiệu khai phá liệu mơ hình để chọn mơ hình tốt Ở ta sử dụng thêm mơ hình làMicrosoft Association Rules model, Microsoft Nạve Bayes model Microsoft Neural Networks Ví dụ: Tạo Microsoft Naïve Bayes model - Click Mining Structure tab Mining Models tab Click chuột phải vào tên Mining Structure (nếu chuyển sang tab Mining Structure) click chuột phải lên vùng view hiển thị nội dung tab Mining Models (nếu tab này), sau chọn New Mining Model… Trong mục Algorithm name, ta chọn thuật tốn Microsoft Nạve Bayes đặt tên cho mơ hình NaiveBayes, click OK: 80 Hình 10: Thêm Mining Model Tƣơng tự nhƣ với mơ hình Microsoft Neural Network Cuối ta đƣợc mơ hình nhƣ sau: Hình 11: Tạo 04 Mining Models cho Mining Structure 6) Khai thác Mining Models Sau định nghĩa Mining Structure Mining Models nhƣ trên, ta tiến hành thực thi (deploy) Mining Models cách bấm F5 Sau thực thi Models xây dựng, ta kiểm tra kết quả, độ xác nhƣ việc sử dụng Mining Models cho việc dự đoán liệu chƣa biết tab: Mining Model Viewer (xem kết quả), Mining Accuracy Chart (kiểm tra tính xác), Mining Model Prediction (dùng để dự đốn) Ví dụ kết Mining Model: Mơ hình Cây định: 81 Hình 12: Kết tạo viewer cho mơ hình Cây định Mơ hình Luật kết hợp: Hình 13: Kết tạo viewer cho mơ hình Luật kết hợp Mơ hình Nạve Bayes: 82 Hình 14: Kết tạo viewer cho mơ hình Nạve Bayes Mơ hình Neural Network: Hình 15: Kết tạo viewer cho mơ hình mạng nơ ron nhân tạo 7) Kiểm tra độ xác Mining Models Kiểm tra độ xác models để biết khả đốn xác mining models Tab Mining Accuracy Chart Phƣơng pháp kiểm tra sử dụng Test data (là liệu đƣợc tách từ training dataset ban đầu Test data khơng đƣợc dùng vào q trình q trình xây dựng model Có nghĩa mẫu liệu thuộc test data khơng xuất Training Dataset Hiện tập dataset đƣợc phân tự động ngẫu nhiên theo thiết lập bƣớc trƣớc) BIDS vẽ thêm mơ hình lý tƣởng (Ideal Model, mơ hình mà dự đoán 100% mẫu) để 83 dễ dàng so sánh hiệu dự đoán Mining models Hai cơng cụ để mơ tả độ xác Mining models mà BIDS dùng Lift Chart , Classification Matrix Chọn tab Mining Accuracy Chart chọn Lift Chart: Hình 16: Biểu đồ Lift Chart cho 04 mơ hình Chọn tab Classification Matrix, ta đƣợc: Hình 17: Kết ma trận Classification Matrix 04 mơ hình Dựa vào hai kết Lift Chart Classification Matrix ta thấy phƣơng pháp Naïve Bayes cho kết dự báo tốt (80,98%), sau đến Neural Network (78,82%), tiếp đến Cây định với 78,62% cuối Luật kết hợp (75,29%) 84 8) Sử dụng Mining Models để dự đoán Sau chọn đƣợc mơ hình phù hợp (tốt nhất), bƣớc sử dụng mơ hình cho việc dự đốn Ta sử dụng ngơn ngữ truy vấn DMX giới thiệu mục trƣớc để thiết lập query cho dự đoán Các bƣớc sử dụng model để dự đoán nhƣ sau: Giả sử ta sử dụng mơ hình Nạve Bayes (mơ hình có dự đốn xác cao Mining models xây dựng trên) để dự đoán kết học tập sinh viên CSDL Trong tab Mining Model Prediction, chọn Select case table, chọn CSDL tạo Chọn NaiveBayes mục Select Model thiết kế query DMX trực quan nhƣ hình dƣới: Hình 18: Thiết kế truy vấn DMX với mơ hình đƣợc chọn Để xem kết dự đoán, chọn mục Result góc bên trái cửa sổ thiết kế Prediction Query Kết nhƣ sau: 85 Hình 19: Kết truy vấn với mơ hình đƣợc chọn Các cột MaSV, Ketqua Expression đƣợc dùng để xác định sinh viên đạt kết tổng kết loại với xác suất dự đốn xác % ... báo kết học tập tồn khố giai đoạn sinh viên, cơng trình nghiên cứu có sử dụng lộ trình học để dự đốn kết học tập cịn Vì vậy, đề tài ? ?Xây dựng cơng cụ dự đốn kết học tập sinh viên Đại học Đồng Tháp? ??... cho sinh viên trƣờng Đại học Phƣơng Đơng" Dự đốn kết lựa chọn mơn học: Cho kho liệu thông tin kết học tập sinh viên Hãy dự đoán kết cho sinh viên lựa chọn môn 22 học cho học kỳ sau dựa kết học. .. trình học sinh viên theo ngành học mà sinh viên chọn Bƣớc 2: Dự đốn kết học tập cuối khóa sinh viên theo tất lộ trình Chọn lộ trình với kết dự đoán cho kết học tập tốt để tƣ vấn cho sinh viên

Ngày đăng: 27/12/2020, 05:33

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan