Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 54 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
54
Dung lượng
1,51 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG ỨNG DỤNG MÁY HỌC CHO DỰ ĐOÁN KẾT QUẢ TUYỂN SINH TẠI TRƯỜNG ĐẠI HỌC LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Đồng Nai, Năm 2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG ỨNG DỤNG MÁY HỌC CHO DỰ ĐOÁN KẾT QUẢ TUYỂN SINH TẠI TRƯỜNG ĐẠI HỌC Chuyên ngành: Công nghệ thông tin Mã số chuyên ngành: 8480201 Đồng Nai, Năm 2022 LỜI CAM ĐOAN Tơi xin cam đoan nội dung trình bày luận văn cơng trình nghiên cứu tơi, hướng dẫn Thầy TS , trường Đại học Trong luận văn này, kiến thức từ cơng trình có liên quan kế thừa lại có trích dẫn đầy đủ Mã nguồn cài đặt hệ thống, thực nghiệm, kết quả, số liệu hình ảnh sử dụng luận văn trung thực LỜI CẢM ƠN Trong trình thực đề tài luận văn này, xin chân thành gửi lời cảm ơn đến: Thầy TS tận tình hướng dẫn, định hướng dành thời gian quý báu để góp ý cho tơi hồn thành luận văn Ban Giám hiệu Trường Đại học ., Khoa Sau Đại Học trường Đại học , Thầy Cô giáo – Các nhà khoa học trực tiếp giảng dạy, truyền đạt kiến thức kinh nghiệm quý báu, bảo tạo điều kiện cho tơi hồn thành luận văn Xin chân thành cảm ơn! Đồng Nai, tháng 11 năm 2022 TRƯỜNG ĐẠI HỌC LẠC HỒNG KHOA SAU ĐẠI HỌC TÓM TẮT LUẬN VĂN (Dùng cho luận văn người hướng dẫn) Đề tài: Ứng dụng máy học cho dự đoán kết tuyển sinh trường Đại học Ngành: Công nghệ thông tin Mã số: 8480201 Luận văn: Người hướng dẫn: TS NỘI DUNG TÓM TẮT Nội dung giao kết mong đợi người hướng dẫn - Sử dụng liệu năm tổng hợp để xây dựng sở liệu cho dự đoán kết tuyển sinh - Sử dụng hồi quy tăng cường luật kết hợp Apriori để xây dựng tập luật - Tiến hành phân tích yêu cầu sử dụng ngôn ngữ Python phần mềm Statistica để dự đốn - Phân tích kết đạt - Thực nghiệm đánh giá - Viết báo cáo luận văn Cách thức giải vấn đề Giải pháp đưa để giải vấn đề toán “Ứng dụng máy học cho dự đoán kết tuyển sinh trường Đại học” thực theo bước sau: - Bước 1: Xây dựng sở liệu - Buớc 2: Phân chia liệu tạo thành ba phần train, valid test để phục vụ cho việc huấn luyện - Bước 3: Sau có liệu, sử dụng hồi quy tăng cường luật kết hợp Apriori để xây dựng tập luật - Bước 4: Sau huấn luyện, áp dụng tập luật vào hệ thống dự đoán kết tuyển sinh trường Đại học Kết hợp bước triển khai xây dựng thành phần mềm dự đoán kết tuyển sinh Luận văn sử dụng Visual Studio Code để viết chương trình ngôn ngữ Python phần mềm Statistica để dự đoán Đồng Nai, Ngày … tháng … năm 2022 NGƯỜI HƯỚNG DẪN HỌC VIÊN MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC i DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT iii DANH MỤC CÁC BẢNG iv DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ v Chương Giới Thiệu Đề Tài 1.1 Tổng quan đề tài 1.2 Các cơng trình nghiên cứu liên quan 1.3 Ý nghĩa khoa học thực tiễn đề tài 1.3.1 Tính khoa học 1.3.2 Tính ứng dụng .3 1.4 Mục tiêu luận văn 1.5 Phát biểu toán .4 1.6 Phạm vi toán 1.7 Đóng góp luận văn 1.8 Cấu trúc luận văn .4 Chương Cơ Sở Lý Thuyết .5 2.1 Giới thiệu 2.2 Cơ sở lý thuyết 2.2.1 Khai phá liệu 2.2.2 Máy học .6 2.2.3 Cây định 2.2.4 Thuật toán Tăng cường .14 2.2.5 Thuật toán Apriori .20 Chương Hệ thống Dự đoán kết tuyển sinh 24 3.1 Giới thiệu 24 3.2 Xây dựng sở liệu .25 3.3 Bộ liệu sử dụng cho thuật toán hồi quy tăng cường 30 3.4 Bộ liệu sử dụng cho thuật toán Apriori 30 3.5 Mô hình tốn 31 Chương Thực Nghiệm Và Đánh Giá 33 4.1 Giới thiệu 33 4.2 Phần mềm STATISTICA 33 4.3 Môi trường ngôn ngữ cài đặt .33 4.4 Huấn luyện liệu 33 4.4.1 Giai đoạn 1: Huấn luyện hồi quy tăng cường 33 4.4.2 Giai đoạn 2: Xây dựng luật kết hợp .35 4.5 Kết thực nghiệm 37 4.5.1 Giai đoạn 1: Dự đoán số lượng sinh viên nhập học .37 4.5.2 Giai đoạn 2: Dự đoán ngành học mà sinh viên đăng ký 39 4.6 Đánh giá mơ hình .41 Chương Kết Luận 42 TÀI LIỆU THAM KHẢO DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT STT Ký hiệu viết tắt Nội dung viết tắt ANN Artificial Neural Network BRT Boosted Regression Trees CART Classification and Regression Tree CLS Concept learning System ID3 Iterative Dichotomiser LDA Linear Discriminant Analysis MAE Mean absolute error PCA Principal Component Analysis RMSE Root mean square error 10 SVM Support Vector Machine DANH MỤC CÁC BẢNG Bảng 3.1 Dữ liệu tổng hợp sinh viên xét tuyển 25 Bảng 3.2 Dữ liệu dùng cho thuật toán hồi quy tăng cường 30 Bảng 3.3 Dữ liệu dùng cho thuật toán Apriori .30 Bảng 4.1 Số lượng sinh viên đăng ký nhập học năm 38 Bảng 4.2 Dự kiến số lượng sinh viên đăng ký dự đoán số lượng sinh viên nhập học 38 29 Bảng Khu vực (KHUVUC) File name Data type File size Diễn giải MaKV Nvarchar Mã khu vực TenKV Nvarchar 40 Tên khu vực xét tuyển Mỗi khu vực có mã khu vực tên khu vực xét tuyển Khóa chính: Mã khu vực Bảng tầm ảnh hưởng: Quan hệ Thêm Xóa Sửa PTXT + - + Dữ liệu thu thập từ phần mềm xét tuyển riêng trường dùng để xây dựng sở liệu dạng thực thể kết hợp: Từ thực thể phân tích trên, ta có sơ đồ sở liệu quan hệ sau: Hình 3.3 Sơ đồ sở liệu quan hệ 30 Bộ liệu sử dụng cho thuật toán hồi quy tăng cường 3.3 Giai đoạn với mục đích dự đốn số lượng nhập học thuật toán hồi quy tăng cường ta sử dụng biến liệu sau: Bảng 3.2 Dữ liệu dùng cho thuật toán hồi quy tăng cường Mã hồ sơ Điểm TB XT Khu vực Tình trạng tốt nghiệp Năm Tình trạng nhập học 170001 -1 1 2017 180001 2018 190001 -1 2.5 2019 200001 -1 2.5 -1 2020 -1 210001 2021 … Bảng 3.2 mô tả: Điểm trung bình xét tuyển: Điểm lớn 7.5 (1), điểm từ 6.5 đến 7.5 (-1), điểm 6.5 (0) Khu vực chia thành: KV1 (1), KV (2), KV2NT (2.5) KV3 (3) Tình trạng tốt nghiệp gồm hai giá trị: Đã tốt nghiệp (1), chưa tốt nghiệp (1) cuối tình trạng tốt nghiệp gồm hai giá trị: Đã nhập học (1), không nhập học (-1) 3.4 Bộ liệu sử dụng cho thuật toán Apriori Giai đoạn 2: Quy tắc kết hợp Thuật toán Apriori áp dụng cho tập liệu cho nhằm mục đích tiết lộ mẫu thú vị đặc điểm sinh viên có nhiều khả nhập học vào khoa trường Bảng 3.3 Dữ liệu dùng cho thuật toán Apriori Phương Chương thức trình xét học tuyển THPT Địa Khoa nhập học 1 -1 -1 -1 -1 0 Mã hồ sơ Giới tính Điểm TB XT Khu vực tuyển sinh 170001 -1 1 180001 -1 190001 -1 2.5 31 200001 -1 -1 2.5 -1 -1 210001 1 1 -1 -2 … Bảng 3.3 mô tả giới tính chia thành: Nam (1), Nữ (-1) Phương thức xét tuyển gồm: Xét điểm THPT (1) xét điểm học bạ (-1) Chương trình học THPT gồm hai giá trị: Ban KHTN (1), Ban KHXH (-1) Địa bao gồm: Ngoài tỉnh (0), thuộc khu vực Biên Hòa (1) tỉnh Đồng Nai (-1) Cuối Khoa nhập học gồm giá trị: Khoa Công nghệ (1), Khoa Kinh tế - Quản trị (-1), Khoa Kế tốn – Tài (2), Khoa Y (-2), Khoa Ngoại ngữ (0) 3.5 Mơ hình tốn Giai đoạn dự đoán hồi quy tăng cường Tập huấn luyện (Traning Set) Tập kiểm thử (Testing Set) Tập đánh giá (Validation Set) Thuật toán hồi quy tăng cường Mơ hình huấn luyện Đánh giá Kết dự đốn Hình 3.5: Mơ hình dự đốn hồi quy tăng cường 32 Giai đoạn tạo luật kết hợp Thuật toán Apriori Tập liệu nhập học Thuật tốn Apriori Tập luật Hình 3.6: Mơ hình luật kết hợp Thuật toán Apriori 33 Chương Thực Nghiệm Và Đánh Giá 4.1 Giới thiệu Trong phần này, tác giả trình bày phương pháp xử lý liệu dùng cho việc dự đoán tỉ lệ nhập học vào trường lượng nhập học vào khoa trường Đại học Công nghệ Đồng Nai Sử dụng STATISTICA truy cập đến sở liệu để lấy thông tin đưa dự đoán 4.2 Phần mềm STATISTICA STATISTICA sản phẩm giải pháp phần mềm phân tích ban đầu phát triển StatSoft Dell mua lại vào tháng năm 2014 STATISTICA phần mềm phân tích thống kê phát triển để khai thác liệu, quản lý liệu, trực quan hóa liệu phân tích liệu Phần mềm có STATISTICA Base Phần mềm thường sử dụng để phân tích liệu, dùng khám phá thống kê mơ tả, tương quan phân tích Các mơ-đun phần mềm bao gồm máy tính xác suất tương tác bảng (tần suất, lập bảng chéo phân tích nhiều phản hồi) Ngồi mơ-đun khai thác liệu chuyên biệt công thức khai thác liệu, quy tắc kết hợp, phân loại hồi quy STATISTICA phát triển để chạy hệ điều hành Windows 4.3 Môi trường ngôn ngữ cài đặt Chương trình viết ngơn ngữ Python mơi trường Windows Cấu hình máy laptop sử dụng thể cài đặt chương trình: CPU: i7-7500U@2.70GHz, RAM: 08GB, Hệ điều hành: Windows 10 Home 64bit 4.4 Huấn luyện liệu 4.4.1 Giai đoạn 1: Huấn luyện hồi quy tăng cường Như trình bày chương 2, thuật toán tăng cường Gradient Boosting áp dụng cho thuật toán hồi quy sở liệu xây dựng Tại giai đoạn huấn luyện, tham số cập nhật nhằm giảm lỗi, cho kết dự đốn xác 34 Để xây dựng hồi quy tăng cường, tác giả sử dụng phần mềm STATISTICA với thông số Hình 4.1 Tổng số hồi quy tăng cường xây dựng 300 với tỉ lệ học (learning rate) 0.1 Hình 4.3 mơ tả hồi quy tăng cường xây dựng từ phần mềm STATISTICA Hình 4.1 Thơng số sử dụng q trình xây dựng Hình 4.2 Biểu đồ trình xây dựng 35 Hình 4.3 Mơ tả hồi quy tăng cường Hình 4.4 Mơ tả độ lỗi tập huấn luyện tập đánh giá 4.4.2 Giai đoạn 2: Xây dựng luật kết hợp Thuật toán Apriori sử dụng để khám phá mối quan hệ mục khác để phân tích đưa suy luận Trong thuật toán Apriori, đề cập Chương 2, độ đo xác định trước gọi độ hỗ trợ độ tin cậy xác định để giới hạn số lượng quy tắc tạo Các luật tạo phải đảm bảo độ hỗ trợ tối thiểu độ tin cậy tối thiểu lớn ngưỡng người dùng xác định trước Trong phần mềm STATISTICA, cần chọn biến để xây dựng luật kết hợp Ở đây, tác giả dự đốn sinh viên có xu hướng chọn vào khoa trường dựa vào thông số Giới tính, Điểm thi, Khu vực… 36 Hình 4.5 Chọn biến để xây dựng luật kết hợp Hình 4.6 Lựa chọn giá trị độ hỗ trợ độ tin cậy Thông số độ hỗ trợ độ tin cậy Sau cài đặt thông số, tác giả tiến hành tạo luật kết hợp Quá trình lâu hay nhanh tùy thuộc vào giá trị độ hỗ trợ độ tin cậy đề cập 37 Hình 4.7 Quá trình xây dựng luật kết hợp 4.5 Kết thực nghiệm Căn vào kết tuyển sinh thực tế năm (2017-2021) Trường, luận văn xây dựng dự đoán kết tuyển sinh gồm hai phần: Đầu tiên dự đoán số sinh viên nhập học dựa liệu đầu vào gồm thông tin sinh viên nhập học năm Tiếp đến dự đoán sau sinh viên nhập học chọn vào Khoa Trường 4.5.1 Giai đoạn 1: Dự đoán số lượng sinh viên nhập học Với lượng liệu thu thập được, sau huấn luyện hồi quy tăng cường, rút độ quan trọng biến q trình dự đốn tình trạng nhập học Như mơ tả Hình 4.8, khả nhập học cao Khu vực Địa Từ thấy rằng, sinh viên muốn học trường gần nơi 38 Hình 4.8 Độ quan trọng biến dự đốn tình trạng nhập học Bảng 4.1 Số lượng sinh viên đăng ký nhập học năm Năm Số lượng sinh viên đăng ký Số lượng sinh viên nhập học 2017 3317 1367 2018 6053 2000 2019 5082 1873 2020 4096 1671 2021 4965 1705 Dựa số lượng học sinh lớp 10, 11, 12 năm 2021 lớp 10 năm 2022, ta có: Bảng 4.2 Dự kiến số lượng sinh viên đăng ký dự đoán số lượng sinh viên nhập học Năm Dự kiến số lượng sinh viên đăng ký Dự đoán số lượng sinh viên nhập học 2022 4250 1671 2023 6510 2000 2024 5850 2000 2025 5250 1873 39 Hình 4.9 Kết dự đốn dựa bảng liệu Kết dự đoán cuối sau áp dụng hồi quy tăng cường mơ tả Hình 4.9 cho thấy mơ hình dự đốn năm có khả gia tăng số lượng sinh viên nhập học có xu hướng giảm vào năm 2025 Tuy nhiên, lượng liệu thu thập từ năm 2017 đến 2021 nên phần chưa mô tả rõ toàn giai đoạn 4.5.2 Giai đoạn 2: Dự đoán ngành học mà sinh viên đăng ký STATISTICA khơng hỗ trợ tính tốn GPU nên thời gian để xây dựng luật kết hợp lâu Với biến Khoa nhap hoc, tác giả chia thành khoa Tên khoa Ký hiệu Khoa Kế tốn – Tài Khoa Công nghệ Khoa Ngoại ngữ Khoa Kinh tế - Quản trị -1 Khoa Y -2 40 Hình 4.10 mơ tả biểu đồ luật, thấy liệu sinh viên vào Khoa Công nghệ (giá trị 1) cao Hình 4.10 Biểu đồ luật kết hợp apriori Hình 4.11 Độ tin cậy độ hỗ trợ luật tạo thuật toán Apriori 41 4.6 Đánh giá mơ hình Để đánh gia mơ hình, tác giả sử dụng hai độ đo phổ biến RMSE (root mean square error) MAE (mean absolute error) 𝑅𝑀𝑆𝐸 = √ ∑𝑛𝑖=1(𝑌𝑖 − 𝑦̂) 𝑖 (4.1) 𝑛 𝑀𝐴𝐸 = 𝑛 ∑𝑛𝑖=1 |𝑌𝑖 − 𝑦̂| 𝑖 (4.2) Trong 𝑌𝑖 giá trị dự đoán mẫu thứ i 𝑦̂𝑖 giá trị thực tế mẫu thứ i, n số mẫu dùng để đánh giá Kết mơ hình BRT cho kết tốt độ đo 0.48 0.469 0.4587 0.46 Độ lỗi 0.44 0.4394 0.4455 0.4625 0.4488 0.4194 0.42 0.4255 0.4047 0.3981 0.4 0.38 0.36 2017 2018 2019 2020 Năm MRSE MAE Hình 4.12 Độ lỗi RMSE MAE theo năm 2021 42 Chương Kết Luận Trong luận văn này, tác giả giới thiệu phân tích sâu tốn dự đốn sinh viên đăng ký vào trường Đại học Công nghệ Đồng Nai Để làm điều này, học viên tìm hiểu cơng trình nghiên cứu liên quan đến toán dự doán, khai phá liệu, đặc biệt hai thuật toán máy học Cây hồi quy tăng cường thuật toán xây dựng luật kết hợp Apriori sau so sánh để nhìn mặt cịn hạn chế Từ đó, tác giả xây dựng sở liệu để huấn luyện hai thuật toán Sau xây dựng mơ hình, tác giả thử nghiệm áp dụng mơ hình vào thực tế trường Đại học Công nghệ Đồng Nai, gồm hai giai đoạn dự đoán số sinh viên đăng ký vào trường năm tới dự đoán sinh viên chọn học Khoa Do hạn chế mặt thời gian kiến thức, bên cạnh thuận lợi, luận văn hạn chế liệu thu thập từ năm 2017 đến 2021 nên khả dự đốn cịn hạn chế Ngoài ra, tác động đại dịch Covid-19, số liệu liên quan đến năm 2019 - 2020 bị ảnh hưởng Trong tương lai, luận văn tiếp tục hồn thiện hạn chế nói Trước tiên, để giải vấn đề liệu, tác giả thu thập thêm thông tin năm trước 2017 thu thập thêm liệu năm 2022 chuẩn hóa liệu thu thập Kế đến, tác giả nghiên cứu thêm tầm ảnh hưởng đại dịch Covid-19 trình đăng ký nhập học TÀI LIỆU THAM KHẢO [1] Shilbayeh, Samar, and Abdullah Abonamah "Predicting student enrollments and attrition patterns in higher educational institutions using machine learning." International Arab Journal of Information Technology, Vol 18, No 4, pp 562567, July 2021 [2] Mulugeta, Mahlet, and Berhanu Borena "Higher education students’ enrolment forecasting system using data mining application in Ethiopia." HiLCoE Journal of Computer Science and Technology 2.2, pp 36-43, (2013) [3] Hồ Thị Duyên, Lê Thị Kim Anh, "Ứng dụng khai phá liệu để phân tích liệu tuyển sinh dựa vào xét điểm học bạ trường đại học phú yên năm học 2018 – 2019" Tạp chí Khoa học Đại học Phú Yên, Tập Số 20, (2019) [4] Dương Thu Trang, “Ứng dụng mạng nơ-ron nhân tạo dự báo số học sinh tuyển vào trung tâm GDNN-GDTX Quận Đống Đa” Luận văn Công nghệ thông tin, (2017) [5] Đặng Văn Nam, Nguyễn Thị Phương Bắc, Nguyễn Thị Hải Yến Nghiên cứu ứng dụng định toán tuyển dụng nhân - Hội nghị toàn quốc khoa hộc trái đất tài nguyên với phát triển bền vững (ersd 2018) [6] Schapire R and Freund Y, “Boosting: Foundations and Algorithms,” Kybernetes, (2013) [7] Schapire R and Freund Y, "A short introduction to boosting." Journal-Japanese Society For Artificial Intelligence 14, pp 771-780, (1999) [8] Friedman, Jerome H "Stochastic gradient boosting." Computational statistics & data analysis 38.4, pp 367-378, (2002) [9] Agrawal, Rakesh, et al "Fast discovery of association rules." Advances in knowledge discovery and data mining 12.1, pp 307-328, (1996) [10] Huyền Thị Thu Giang “Nghiên cứu luật kết hợp song song khai phá liệu” Luận văn Công nghệ thông tin, (2010) ...BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG ỨNG DỤNG MÁY HỌC CHO DỰ ĐOÁN KẾT QUẢ TUYỂN SINH TẠI TRƯỜNG ĐẠI HỌC Chuyên ngành: Công nghệ thông tin Mã số chuyên ngành: 8480201 Đồng... chuyển đổi số ứng dụng công nghệ thông tin đào tạo công tác tuyển sinh Việc xây dựng ứng dụng dự đoán khả nhập học sinh viên vào trường khả nhập học vào khoa sinh viên hỗ trợ nhà trường việc chuẩn... xây dựng luật kết hợp 4.5 Kết thực nghiệm Căn vào kết tuyển sinh thực tế năm (2017-2021) Trường, luận văn xây dựng dự đoán kết tuyển sinh gồm hai phần: Đầu tiên dự đoán số sinh viên nhập học dựa