ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
-
TRẦN THỊ THU TRANG
NGHIÊN CỨU, PHÁT TRIỂN KỸ THUẬT LẤY MẪU PHỤC VỤ CHO BÀI TOÁN DỰ ĐOÁN ĐIỂM
SINH VIÊN ĐẠI HỌC
Chuyên ngành: HỆ THỐNG THÔNG TIN QUẢN LÝ Mã số: 8340405
LUẬN VĂN THẠC SĨ
TP HỒ CHÍ MINH, tháng 07 năm 2023
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM
Cán bộ hướng dẫn khoa học: PGS TS Thoại Nam
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ) 1 Chủ tịch hội đồng: PGS TS Trần Minh Quang
2 Ủy viên phản biện 1: TS Đặng Trần Trí
3 Ủy viên phản biện 2: PGS TS Nguyễn Tuấn Đăng 4 Ủy viên hội đồng: TS Trương Thị Thái Minh 5 Thư ký hội đồng: TS Nguyễn Thị Ái Thảo
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)
CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA
KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
Trang 3ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc
II NHIỆM VỤ VÀ NỘI DUNG
- Tìm hiểu các phương pháp, kỹ thuật lấy mẫu ứng dụng phục vụ cho bài toán dự đoán điểm sinh viên đại học
- Nghiên cứu các đặc trung trên bộ dữ liệu sinh viên và xây dựng mô hình dự đoán điểm của sinh viên đại học
III NGÀY GIAO NHIỆM VỤ : 06/02/2023
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 11/6/2023
V CÁN BỘ HƯỚNG DẪN: PGS.TS Thoại Nam Tp HCM, ngày 12 tháng 6 năm 2023
Trang 4LỜI CẢM ƠN
Với lòng biết ơn sâu sắc nhất, em xin gửi đến các Thầy Cô khoa Khoa học và Kỹ thuật Máy tính trường Đại học Bách Khoa TPHCM đã hết lòng chỉ dạy, trang bị cho em kiến thức nền tảng bổ ích, cùng với sự hỗ trợ của gia đình đã tạo điều kiện, động viên, ủng hộ em trong quá trình học tập tại trường
Đặc biệt, em xin chân thành cảm ơn PGS.TS Thoại Nam đã tận tâm hướng
dẫn, động viên, truyền đạt nhiều kiến thức, kinh nghiệm quý báu giúp em thực hiện luận văn này
Mặc dù, đã có nhiều cố gắng nhưng luận văn sẽ không thể tránh khỏi những thiếu sót, chưa hoàn thiện, em rất mong nhận được những ý kiến đóng góp quý báu của quý Thầy Cô để em rút kinh nghiệm, tích lũy kiến thức trong lĩnh vực này được hoàn thiện hơn
Sau cùng, em xin kính chúc quý Thầy Cô cùng gia đình dồi dào sức khỏe, luôn thành công trong sự nghiệp và cuộc sống
Trang 5TÓM TẮT
Trường Đại học Bách Khoa - Đại học Quốc gia - TPHCM cũng như nhiều trường đại học khác đang có số liệu về kết quả học tập của sinh viên hằng năm học tại trường Tuy nhiên, việc ứng dụng bộ dữ liệu này phục vụ công tác dự báo điểm cho sinh viên và quản lý trường Đại học còn nhiều hạn chế Khi các khoa và trường đại học thực hiện các dự án nghiên cứu, việc chọn mẫu dữ liệu là một bước quan trọng để thu thập thông tin cần thiết Việc chọn mẫu dữ liệu phù hợp với đặc điểm riêng của từng trường sẽ đảm bảo rằng dữ liệu được xử lý đưa vào mô hình phân tích dự đoán sẽ có tính đại diện và có khả năng áp dụng cho nghiên cứu và phân tích
Mục tiêu luận văn của tôi là việc nghiên cứu, áp dụng các kỹ thuật lấy mẫu trong thống kê kết hợp phương pháp lấy mẫu trong học máy (Machine Learning) dựa vào heuristic nghiên cứu giáo dục đại học để ứng dụng vào việc tiền xử lý dữ liệu và chọn mẫu phân tích để đưa vào mô hình dự đoán sớm điểm các môn học cho sinh viên đại học dựa trên dữ liệu quá khứ mà sinh viên tất cả các khoa đã học tại trường Đại học Bách Khoa - ĐHQG - TPHCM Phương pháp lấy mẫu trong luận văn này hướng đến xây dựng tập dữ liệu huấn luyện nhỏ nhưng kết quả dự đoán điểm của sinh viên phải đảm bảo một độ chính xác nhất định
Trang 6ABTRACT
Ho Chi Minh City University of Technology - Vietnam National University Ho Chi Minh City (HCMUT), as well as many other universities, are having data on the student learning outcomes every year However, the application of this dataset for student perfomance forecasting and the University management is still limited When faculties and universities undertake research projects, data sampling is an important step in gathering the necessary information Matching the data sample to the unique characteristics of each school will ensure that the processed data fed into the predictive analytics model will be representative and applicable to research and analysis
The goal of my thesis is a combination of research and application of sampling techniques in statistics combined with sampling methods in machine learning based on heuristics in the higher education research to apply in pre-processing data and selecting analytical samples to include in an early prediction model of subject grades for university students based on past data that students of all faculties have studied at Ho Chi Minh City University of Technology - Vietnam National University Ho Chi Minh City The sampling methods in this thesis is aimed to building a small training dataset, but the student's grades prediction results must ensure a certain accuracy
Trang 7LỜI CAM ĐOAN
Tôi xin cam đoan luận văn “Nghiên cứu, phát triển kỹ thuật lấy mẫu phục vụ cho bài toán dự đoán điểm sinh viên đại học” là nghiên cứu của riêng tôi Các số liệu, tài liệu sử dụng trong luận văn là trung thực Tất cả những tài liệu tham khảo, kế thừa đều được trích dẫn và tham chiếu đầy đủ
TP HCM, ngày 12 tháng 6 năm 2023
Người cam đoan
Trần Thị Thu Trang
Trang 8DANH MỤC HÌNH VÀ BIỂU ĐỒ xii
CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI 1
1.1 Giới thiệu đề tài 2
1.1.1 Giới thiệu vấn đề cần nghiên cứu 2
1.1.2 Đối tượng nghiên cứu 2
1.1.3 Phạm vi nghiên cứu 2
1.2 Mục tiêu nghiên cứu 3
1.3 Nội dung nghiên cứu 3
1.4 Ý nghĩa đề tài 4
1.4.1 Ý nghĩa khoa học 4
1.4.2 Ý nghĩa thực tiễn của luận văn 4
1.4.2.1 Ý nghĩa thực tiễn đối với nhà trường 4
1.4.2.2 Ý nghĩa thực tiễn đối với sinh viên đại học 5
1.5 Cấu trúc luận văn 5
1.6 Kết luận chương 1 6
CHƯƠNG 2: TỔNG QUAN NGHIÊN CỨU 7
2.1 Một số khái niệm 8
2.1.1 Lấy mẫu (Sampling) là gì ? 8
2.1.2 Học máy có giám sát (Supervised Machine Learning) 9
2.1.3 Cây quyết định (Decision Trees) 9
Trang 92.1.5 Kỹ thuật xuống đồi (Gradient descent) 9
2.2 Ưu điểm, nhược điểm lấy mẫu theo thống kê truyền thống 11
2.3 Phân biệt các phương pháp Lấy mẫu 12
2.4 Phương pháp Lấy mẫu theo nhóm (Clustering Sampling) 14
2.5 Phương pháp dự đoán điểm sinh viên đại học 15
2.5.1 Gradient Boosting (tăng cường độ dốc) 15
❖ Thuật toán Gradient Boosting tổng quát 15
❖ Hoạt động của mô hình tăng cường độ dốc (Gradient Boosting model) 16
2.5.2 XGBoost 17
❖ Hoạt động của mô hình XGBoost 17
2.6 Đánh giá độ chính xác của mô hình dự đoán 18
2.7 Các công trình nghiên cứu nổi bật trong giáo dục đại học 19
2.8 Kết luận chương 2 20
CHƯƠNG 3: PHÂN TÍCH VÀ GIẢI PHÁP 21
3.1 Mô tả bài toán 22
3.2 Các đặc trưng của dữ liệu sinh viên đại học Bách Khoa 22
3.3 Phân bố điểm sinh viên đại học Bách Khoa 23
3.4 Độ xiên (skewness) và Kurtosis điểm của sinh viên 31
3.5 Xây dựng mô hình dự đoán điểm sinh viên 32
3.5.1 Kiến trúc tổng quan của bài toán 32
3.5.2 Các bước thực hiện Tiền xử lý dữ liệu 33
3.6 Giải pháp cho bài toán 36
3.7 Kết luận chương 3 37
CHƯƠNG 4 : KẾT QUẢ VÀ ĐÁNH GIÁ 38
4.1 Thực nghiệm dự đoán điểm sinh viên 39
4.1.1 Tiền xử lý dữ liệu 39
4.2 Đánh giá độ chính xác của mô hình dự đoán điểm 46
4.2.1 Phương pháp Gradient Boosting Regression 46
4.2.2 Phương pháp XGBoost 50
Trang 104.3 Kết luận chương 4 53
CHƯƠNG 5: KẾT LUẬN 54
5.1 Đối chiếu mục tiêu và nội dung nghiên cứu 55
5.2 Thuận lợi khi thực hiện đề tài 55
5.2.1 Thuận lợi của đề tài 55
Đã có đề tài nghiên cứu trước về dữ liệu sinh viên đại học Bách Khoa 55
5.2.2 Khó khăn khi thực hiện đề tài 55
5.3 Hướng phát triển đề tài 56
5.4 Kết luận chung 56
TÀI LIỆU THAM KHẢO 57
PHỤ LỤC: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT 60
Trang 11DANH MỤC TỪ VIẾT TẮT
1 TPHCM Thành phố Hồ Chí Minh 2 SVĐH sinh viên Đại học chính quy
6 DC khoa Kỹ thuật Địa chất và Dầu khí
8 GT khoa Kỹ thuật Giao thông
10 MO khoa Môi trường và Tài nguyên 11 MT khoa Khoa học và Kỹ thuật Máy tính
14 VL khoa Công nghệ Vật liệu
16 BD Trung tâm Bảo dưỡng Công nghiệp
18 VP Kỹ sư chất lượng cao PFIEV Việt Pháp
Trang 12DANH MỤC BẢNG
Bảng 2 1: Ưu điểm, khuyết điểm lấy mẫu theo thống kê truyền thống 11
Bảng 2 2: Phân biệt các phương pháp Lấy mẫu 12
Bảng 3 1: Danh sách các môn học chung 34
Bảng 4 1: Chỉ số đo độ chính xác của phương pháp Gradient Boosting 46
Bảng 4 2: Chỉ số đo độ chính xác của phương pháp Gradient Boosting lấy mẫu theo nhóm các môn học chung 47
Bảng 4 3: Chỉ số đo độ chính xác của phương pháp Gradient Boosting lấy mẫu theo nhóm các môn học chung gồm tất cả sinh viên học chung toàn trường 48
Bảng 4 4: Chỉ số đo độ chính xác của phương pháp Gradient Boosting lấy mẫu theo nhóm các môn học chuyên ngành của từng khoa 49
Bảng 4 5: Chỉ số đo độ chính xác của phương pháp XGBoost 50
Bảng 4 6: Chỉ số đo độ chính xác của phương pháp XGBoost lấy mẫu theo nhóm các môn học chung 51
Bảng 4 7: Chỉ số đo độ chính xác của phương pháp XGBoost lấy mẫu theo nhóm các môn học chung gồm tất cả sinh viên học các môn học chung 52
Bảng 4 8: Chỉ số đo độ chính xác của phương pháp XGBoost lấy mẫu theo nhóm các môn học chuyên ngành của từng khoa 53
Trang 13DANH MỤC HÌNH VÀ BIỂU ĐỒ
Hình 2 1: Định nghĩa Lấy mẫu 8
Hình 2 2: Supervised machine learning [24] 9
Hình 2 3: Chọn mẫu theo nhóm 15
Hình 2 4: Thuật toán Gradient Boosting [2] 16
Hình 2 5: Flowchart xử lý tuần tự của Gradient Boosting 17
Hình 3 1: Tổng quan các khoa ngành của trường Đại học Bách Khoa TP.HCM 23
Hình 3 2: Biểu đồ phân bố điểm sinh viên Đại học Bách Khoa 23
Hình 3 3: Biểu đồ phân bố điểm trung tâm Bảo dưỡng Công nghiệp 24
Hình 3 4: Biểu đồ phân bố điểm khoa Cơ khí 24
Hình 3 5:Biểu đồ phân bố điểm khoa Kỹ thuật Địa chất và Dầu khí 25
Hình 3 6: Biểu đồ phân bố điểm khoa Điện - Điện tử 25
Hình 3 7: Biểu đồ phân bố điểm khoa Kỹ thuật Giao thông 26
Hình 3 8: Biểu đồ phân bố điểm khoa Hoá học 26
Hình 3 9: Biểu đồ phân bố điểm khoa Môi trường và Tài nguyên 27
Hình 3 10: Biểu đồ phân bố điểm khoa Khoa học và Kỹ thuật máy tính 27
Hình 3 11: Biểu đồ phân bố điểm khoa Chất lượng cao 28
Hình 3 12: Biểu đồ phân bố điểm khoa Quản lý Công nghiệp 28
Hình 3 13: Biểu đồ phân bố điểm khoa Khoa học Ứng dụng 29
Hình 3 14: Biểu đồ phân bố điểm khoa Công nghệ Vật liệu 29
Hình 3 15: Biểu đồ phân bố điểm Kỹ sư chất lượng cao PFIEV Việt Pháp 30
Hình 3 16: Biểu đồ phân bố điểm khoa Xây dựng 30
Hình 3 17: Biểu đồ hộp (boxplot) phân bố điểm sinh viên của từng khoa 31
Hình 3 18: Chỉ số độ xiên của dữ liệu điểm và Kurtosis 31
Hình 3 19: Kiến trúc Tổng quan của bài toán 32
Hình 4 1: Quy trình Tiền xử lý dữ liệu tổng quát của mô hình dự đoán điểm 39
Hình 4 2: Phân bố điểm SV tất cả các Khoa - Trước và Sau khi loại bỏ điểm 0 40
Trang 14Hình 4 3: Phân bố điểm SV khoa BD - Trước và Sau khi loại bỏ điểm 0 40
Hình 4 4: Phân bố điểm SV khoa CK - Trước và Sau khi loại bỏ điểm 0 41
Hình 4 5: Phân bố điểm SV khoa DC - Trước và Sau khi loại bỏ điểm 0 41
Hình 4 6: Phân bố điểm SV khoa DD - Trước và Sau khi loại bỏ điểm 0 41
Hình 4 7: Phân bố điểm SV khoa GT - Trước và Sau khi loại bỏ điểm 0 42
Hình 4 8: Phân bố điểm SV khoa HC - Trước và Sau khi loại bỏ điểm 0 42
Hình 4 9: Phân bố điểm SV khoa MO - Trước và Sau khi loại bỏ điểm 0 42
Hình 4 10: Phân bố điểm SV khoa MT - Trước và Sau khi loại bỏ điểm 0 43
Hình 4 11: Phân bố điểm SV khoa PD - Trước và Sau khi loại bỏ điểm 0 43
Hình 4 12: Phân bố điểm SV khoa QL - Trước và Sau khi loại bỏ điểm 0 43
Hình 4 13: Phân bố điểm SV khoa UD - Trước và Sau khi loại bỏ điểm 0 44
Hình 4 14: Phân bố điểm SV khoa VL - Trước và Sau khi loại bỏ điểm 0 44
Hình 4 15: Phân bố điểm SV khoa VP - Trước và Sau khi loại bỏ điểm 0 44
Hình 4 16: Phân bố điểm SV khoa XD - Trước và Sau khi loại bỏ điểm 0 45
Trang 15Chương 1: Giới thiệu đề tài GVHD: PGS.TS Thoại Nam
CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI
Phần mở đầu giới thiệu các nội dung tổng quan các vấn đề cần nghiên cứu, mục tiêu, ý nghĩa mà đề tài muốn hướng đến trên phương diện khoa học và ý nghĩa áp dụng vào thực tiễn phục vụ cho các bài toán dự đoán điểm sinh viên đại học, cũng như trong công tác quản lý, tư vấn đăng ký môn học và cung cấp thêm cho sinh viên công cụ hỗ trợ học tập được cải thiện tốt hơn
Gồm các nội dung chính như sau: ➢ Giới thiệu đề tài
➢ Đối tượng và phạm vi nghiên cứu ➢ Mục tiêu nghiên cứu
➢ Nội dung nghiên cứu ➢ Ý nghĩa thực tiễn của đề tài ➢ Cấu trúc luận văn
Trang 16Chương 1: Giới thiệu đề tài GVHD: PGS.TS Thoại Nam
CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu đề tài
1.1.1 Giới thiệu vấn đề cần nghiên cứu
Trong bối cảnh nền kinh tế tri thức và toàn cầu hóa, nhiều nước trên thế giới không ngừng tìm kiếm các cách thức khác nhau để nâng cao chất lượng giáo dục, đáp ứng yêu cầu nguồn nhân lực chất lượng cao trong môi trường cạnh tranh quốc tế Việt Nam đang thực hiện công cuộc đổi mới căn bản môi trường “số hóa” và toàn diện nền giáo dục, nhất là giáo dục đại học và sau đại học Giáo dục đại học Việt Nam thay đổi mạnh mẽ từ triết lý, mục tiêu giáo dục đến vai trò của người thầy, từ phương pháp dạy học đến vị trí “trung tâm” của người học v.v nhằm đáp ứng nhu cầu phát triển xã hội và đẩy mạnh sự tiến bộ của quốc gia nói chung và đổi mới giáo dục nói riêng
Hiện nay, trường Đại học Bách Khoa - Đại học Quốc gia - TPHCM (ĐHBK) cũng như nhiều trường đại học khác đang có số liệu về kết quả học tập của sinh viên nhưng việc ứng dụng tập dữ liệu này cho công tác dự báo phục vụ sinh viên cũng như quản lý của nhà trường còn nhiều hạn chế Đối với các trường có bề dày lịch sử lâu đời như trường Đại học Bách Khoa sẽ có số lượng dữ liệu đáng kể, nhưng cũng có một số trường đại học có quy mô nhỏ và mới thành lập thì phải cần có thời gian thu thập dữ liệu đủ lớn để có thể thực hiện các nghiên cứu về dự đoán điểm cho sinh viên cho phù
hợp với quy mô cụ thể của từng trường Do đó, “Nghiên cứu, phát triển kỹ thuật lấy
mẫu phục vụ cho bài toán dự đoán điểm sinh viên đại học” là cần thiết phục vụ cho
việc sinh viên lựa chọn đăng ký môn học, định hướng học tập và phục vụ cho nhà trường trong việc lập kế hoạch, chiến lược phát triển đào tạo, định hình chương trình đào tạo và hỗ trợ tuyển sinh trong giai đoạn hiện nay
1.1.2 Đối tượng nghiên cứu
Đối tượng nghiên cứu của luận văn là kết quả điểm học tập của sinh viên hệ Đại học chính quy của tất cả các khoa tại trường ĐHBK từ năm 2014 đến năm 2017
1.1.3 Phạm vi nghiên cứu
Phạm vi nghiên cứu của luận văn trong lĩnh vực giáo dục bậc đại học Đề tài được thực hiện trên bộ dữ liệu sinh viên Đại học chính quy của trường ĐHBK từ năm 2014
Trang 17Chương 1: Giới thiệu đề tài GVHD: PGS.TS Thoại Nam
đến năm 2017 Dữ liệu này là các thông tin về điểm của các môn học mà sinh viên đã học qua các học kỳ tương ứng trong quá trình học tập của sinh viên của tất cả các khoa
1.2 Mục tiêu nghiên cứu
Tìm hiểu các đặc trưng của bộ dữ liệu sinh viên Đại học Bách Khoa từ năm 2014 đến năm 2017
Nghiên cứu, áp dụng các kỹ thuật lấy mẫu trong thống kê và phương pháp lấy mẫu trong học máy (Machine Learning)
Tìm hiểu các phương pháp phân tích dữ liệu từ đó, xây dựng mô hình và đưa ra dự đoán kết quả học tập (điểm các môn học) của sinh viên Đại học dựa trên dữ liệu quá khứ mà sinh viên tất cả các khoa đã học tại trường Đại học Bách Khoa - ĐHQG - TPHCM (ĐHBK)
Cuối cùng, đưa ra kết luận làm sao để chọn mẫu dữ liệu tốt nhất, phù hợp với bộ dữ liệu của sinh viên ĐHBK
Phương pháp lấy mẫu trong luận văn này hướng đến xây dựng tập dữ liệu huấn luyện nhỏ nhưng kết quả dự đoán điểm của sinh viên phải đảm bảo một độ chính xác nhất định dựa trên những đặc trưng riêng phù hợp với bộ dữ liệu
1.3 Nội dung nghiên cứu
Để hoàn thành các mục tiêu nghiên cứu nêu trên, luận văn tập trung nghiên cứu các nội dung chính sau:
Tìm hiểu các kỹ thuật lấy mẫu, chọn mẫu trong nghiên cứu khoa học thống kê và phương pháp lấy mẫu ứng dụng trong học máy (Machine Learning) để ứng dụng vào luận văn
Nghiên cứu các đặc trung trên bộ dữ liệu sinh viên Đại học tại trường Đại học Bách Khoa - TPHCM gồm độ thưa dữ liệu, mật độ phân bố dữ liệu, các mối quan hệ tương quan đa biến của dữ liệu, độ xiên Skewness và Kutossis v.v
Xây dựng mô hình dự đoán điểm các môn học của sinh viên đại học
Trang 18Chương 1: Giới thiệu đề tài GVHD: PGS.TS Thoại Nam
1.4 Ý nghĩa đề tài 1.4.1 Ý nghĩa khoa học
Vận dụng các kỹ thuật lấy mẫu, kỹ thuật phân tích dữ liệu trên nền tảng công nghệ khai phá dữ liệu dữ liệu giáo dục và học máy
Kết quả nghiên cứu có giá trị tham khảo cho các nghiên cứu tiếp theo về phân tích dữ liệu sinh viên Đại học
1.4.2 Ý nghĩa thực tiễn của luận văn
1.4.2.1 Ý nghĩa thực tiễn đối với nhà trường
Thực hiện lấy mẫu dữ liệu và phân tích dự báo điểm cho sinh viên đại học có thể mang lại lợi ích cho khoa và các trường đại học nói chung, cụ thể là quản lý đào tạo, cố vấn học tập sinh viên như sau:
Ứng dụng lấy mẫu trong nghiên cứu và phân tích dữ liệu: Khi các khoa và trường đại học thực hiện các dự án nghiên cứu, việc lấy mẫu dữ liệu là một bước quan trọng để thu thập thông tin cần thiết Lấy mẫu đảm bảo rằng dữ liệu được thu thập có tính đại diện và có khả năng áp dụng cho nghiên cứu và phân tích
Lấy mẫu dữ liệu có nhiều lợi ích như đảm bảo tính đại diện, tiết kiệm thời gian và nguồn lực, kiểm soát quy mô và đặc điểm, giảm bias và lỗi, cũng như áp dụng trong quá trình phân tích và dự đoán Điều này làm cho phương pháp lấy mẫu trở thành một công cụ quan trọng trong quá trình nghiên cứu và phân tích dữ liệu
Thực hiện lấy mẫu dữ liệu và phân tích dự báo điểm cho sinh viên đại học có thể mang lại lợi ích cho các cố vấn học tập, quản lý đào tạo sinh viên có thể biết được với dữ liệu về kết quả học tập của sinh viên hiện có thì các môn nào có nhiều sinh viên học không tốt, kết quả còn thấp để có thể tìm ra nguyên nhân cải thiện giúp sinh viên khắc phục, học tập tốt hơn
Từ đó, bộ môn chuyên ngành sẽ có kế hoạch xây dựng nội dung môn học, phương pháp giảng dạy cho môn học phù hợp hơn với sinh viên, cũng như khoa và các trường đại học cải thiện, đánh giá, điều chỉnh nội dung chương trình đào tạo, xây dựng chuẩn đầu ra của chương trình đào tạo dựa trên mục tiêu và ngành đào tạo của khoa và cung cấp sự hỗ trợ phù hợp để nâng cao hiệu quả học tập của sinh viên
Bên cạnh đó, giúp cho nhân viên phòng Đào tạo tư vấn, hỗ trợ sinh viên khi đăng ký môn học tự chọn hoặc tư vấn kết quả học tập của sinh viên tốt hơn
Trang 19Chương 1: Giới thiệu đề tài GVHD: PGS.TS Thoại Nam
Giảm bớt lượng công việc tư vấn hỗ trợ sinh viên trong quá trình sinh viên học tập tại trường
Phát hiện sớm những môn học sinh viên không đạt trong quá trình học tập của sinh viên tại trường Cảnh báo cho sinh viên khi đăng ký môn học, chọn môn học phù hợp với năng lực học tập của mình
1.4.2.2 Ý nghĩa thực tiễn đối với sinh viên đại học
Hỗ trợ SV trong suốt quá trình học tập tại trường Dựa vào kết quả học tập của sinh viên của các môn đã học, dự đoán các môn học mà sinh viên sẽ học trong các học kỳ tiếp theo để sinh viên có thể đăng ký môn học có kết quả học tập tốt nhất, phù hợp với khả năng của mình
Dự báo sớm về các môn học không đạt, có thể xảy ra trong tương lai để có chiến lược học tập phù hợp Từ đó, có được định hướng, cảnh báo sớm cho sinh viên chú tâm, cố gắng hơn nữa trong việc học để có điểm trung bình toàn khóa cao nhất
Giúp sinh viên đã và đang học yếu kém biết được khả năng của mình để chọn học môn học phù hợp với khả năng bản thân mình sao cho kết quả học tập của SV đạt được cao nhất nhằm nâng cao điểm tích lũy học tập của sinh viên
Giúp sinh viên có cái nhìn tổng quan, có thể tự xây dựng lộ trình học tập, điều chỉnh phương pháp học cho phù hợp với năng lực
1.5 Cấu trúc luận văn
Cấu trúc luận văn bao gồm 5 chương, cụ thể như sau:
Chương 1: Giới thiệu đề tài
Giới thiệu các vấn đề cần nghiên cứu, mục tiêu, nội dung, ý nghĩa khoa học và thực tiễn của đề tài ứng dụng cho các bài toán dự đoán điểm sinh viên đại học
Chương 2: Tổng quan nghiên cứu
Giới thiệu nền tảng cơ sở lý thuyết về các công nghệ, kỹ thuật lấy mẫu và kỹ thuật Machine Learning xây dựng mô hình dự đoán điểm sinh viên áp dụng trong luận văn và các công trình nghiên cứu nổi bật có liên quan
Chương 3: Phân tích và giải pháp
Từ nền tảng cơ sở lý thuyết và nghiên cứu các công trình nghiên cứu trước, chương này trình bày các phân tích đặc trưng trên bộ dữ liệu hiện có
Trang 20Chương 1: Giới thiệu đề tài GVHD: PGS.TS Thoại Nam
Từ đó, nêu lên những giải pháp đề xuất chọn mẫu dữ liệu và xây dựng mô hình phân tích dựa vào học máy cho bài toán dự đoán điểm số của sinh viên dựa trên dữ liệu quá khứ của sinh viên đã học
Chương 4: Kết quả và đánh giá
Từ những phân tích và đề xuất giải pháp trong chương 3, nội dung chính của chương này trình bày các thực nghiệm và những kết quả đạt được khi thực hiện gom nhóm lấy mẫu dữ liệu và xây dựng mô hình phân tích dự báo kết quả học tập của sinh viên Đại học của trường Đại học Bách Khoa - ĐHQG - TPHCM
Đánh giá kết quả thực hiện việc lấy mẫu dữ liệu và phân tích dự đoán điểm sinh viên đại học
Chương 5: Kết luận
Tóm lại các nội dung đã trình bày trong các chương, khẳng định lại các vấn đề cần nghiên cứu, đánh giá lại những mặt còn tồn đọng, và nêu lên các đề xuất phát triển trong tương lai
1.6 Kết luận chương 1
Phân tích dự đoán kết quả học tập của sinh viên là một lĩnh vực đang được nhiều sự quan tâm, nghiên cứu và vận dụng để cải thiện chất lượng giáo dục, đào tạo hiện nay tại Việt Nam nói chung và Đại học Bách Khoa - ĐHQG - TPHCM nói riêng Phương pháp lấy mẫu trong thống kê và lấy mẫu dữ liệu để phân tích trong machine learning đóng vai trò quan trọng trong việc giảm chi phí, thời gian và độ phức tạp tính toán, đồng thời đảm bảo đại diện dữ liệu và đưa ra kết quả chính xác
Với mục tiêu vận dụng cơ sở lý thuyết về kỹ thuật lấy mẫu dữ liệu cho phân tích dữ liệu và học máy để đưa ra phương án chọn mẫu dữ liệu phù hợp với bộ dữ liệu điểm sinh viên đại học Bách Khoa và dự đoán kết quả học tập của sinh viên Đại học Bách Khoa khi lựa chọn đăng ký môn học
Từ đó, đưa ra kết luận giúp cho các trường đại học đang sẵn có dữ liệu điểm sinh viên đại học có thể chọn mẫu dữ liệu tốt nhất, phù hợp với bộ dữ liệu của trường mình Và nghiên cứu này cũng làm cơ sở tiền đề cho các nghiên cứu tiếp theo trong lĩnh vực giáo dục đại học trong thời gian sắp tới
Trang 21Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam
CHƯƠNG 2: TỔNG QUAN NGHIÊN CỨU
Nội dung chính của chương này trình bày các kiến thức tổng quan về kiến thức nền tảng, cơ sở lý thuyết để thực hiện luận văn Là cơ sở nền tảng cho các phân tích, giải pháp giải quyết ở các chương tiếp theo
Gồm các nội dung chính như sau: ➢ Một số khái niệm
➢ Ưu điểm, nhược điểm các phương pháp lấy mẫu theo thống kê truyền thống
➢ Phân biệt phương pháp Lấy mẫu ➢ Phương pháp lấy mẫu theo nhóm
➢ Phương pháp dự đoán điểm sinh viên đại học ➢ Đánh giá độ chính xác của mô hình dự đoán
➢ Các công trình nghiên cứu nổi bật trong giáo dục đại học
Trang 22Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam
CHƯƠNG 2: TỔNG QUAN NGHIÊN CỨU 2.1 Một số khái niệm
2.1.1 Lấy mẫu (Sampling) là gì ?
Theo lý thuyết điều tra chọn mẫu (theory of sample surveys) nhằm mục đích lựa chọn một mẫu đơn vị để đại diện cho một tổng thể lớn hơn Sự ra đời của phương pháp đại diện bắt nguồn từ [3], người đề xuất tạo ra các ước tính bằng cách sử dụng mẫu các thành phố và cá nhân được kiểm soát không ngẫu nhiên, thay vì điều tra dân số Nhưng điều này thực sự với Neyman [4] rằng những điều cơ bản của lấy mẫu khảo sát hiện đại đã được ổn định Neyman đề xuất một thiết lập chặt chẽ cho các khảo sát ngẫu nhiên, đặt nền móng cho các khảo sát xác suất nhưng có kiểm soát, cho phép kiểm soát thống kê độ chính xác của các công cụ ước tính [1]
“Lấy mẫu là một phương pháp cho phép lấy thông tin về tổng thể
(population) dựa trên số liệu thống kê từ một tập hợp con của tổng thể (mẫu) mà không cần phải điều tra từng cá nhân” [20]
Hình 2 1: Định nghĩa Lấy mẫu
Tuy nhiên, trong học máy có giám sát và không giám sát trong Machine Learning có thể lấy mẫu [1] theo các dạng sau:
➢ Phương pháp lấy mẫu ngẫu nhiên đơn giản ➢ Lấy mẫu với xác suất không bằng nhau ➢ Thuộc tính thống kê của thiết kế lấy mẫu
Trang 23Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam
2.1.2 Học máy có giám sát (Supervised Machine Learning)
Học máy có giám sát sử dụng các thuật toán để đào tạo một mô hình nhằm tìm các mẫu trong tập dữ liệu có nhãn và tính năng, sau đó sử dụng mô hình đã đào tạo để dự đoán nhãn trên các tính năng của tập dữ liệu mới [24]
Hình 2 2: Supervised machine learning [24]
2.1.3 Cây quyết định (Decision Trees)
Cây quyết định tạo ra một mô hình dự đoán nhãn bằng cách đánh giá cây câu hỏi đặc trưng nếu-thì-khác đúng/sai và ước tính số lượng câu hỏi tối thiểu cần thiết để đánh giá xác suất đưa ra quyết định đúng Cây quyết định có thể được sử dụng để phân loại để dự đoán một danh mục hoặc hồi quy để dự đoán một giá trị số liên tục [24]
2.1.4 Hàm mất mát (Loss function)
Hàm mất mát là một trong những tham số cần thiết để xác định mức độ gần của một mạng neuron cụ thể đối với trọng số trong quá trình đào tạo
2.1.5 Kỹ thuật xuống đồi (Gradient descent)
Kỹ thuật xuống đồi (Gradient descent) là “kỹ thuật có thể giúp sự biến thiên của một hàm số luôn là giảm (xuống đồi) dựa trên sự thay đổi của các tham số cấu tạo nên hàm số này” [8]
Gradient Descent là cơ sở của nhiều trình tối ưu hoá và là một trong những thuật toán tối ưu hoá phổ biến nhất trong Machine Learning và Deep learning
Trang 24Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam
Gradient descent sử dụng đạo hàm cấp một (gradient) của loss function khi cập nhật các tham số Gradient cho độ dốc của một hàm tại thời điểm đó
Quá trình này bao gồm chuỗi dẫn xuất của giá trị mất mát (loss value) của từng tầng ẩn (hidden layer) từ các dẫn xuất của loss value của lớp trên nó, kết hợp chức năng kích hoạt trong phép tính toán
Trong mỗi lần lặp lại, khi tất cả các neuron có giá trị của gradient của loss funtion tương ứng với chúng, giá trị của tham số được cập nhật theo hướng ngược lại với các giá trị được chỉ ra bởi gradient
• Mục tiêu: tìm vector các tham số sao cho tối ưu hoá hàm mục tiêu cụ thể
Như vậy, kết quả của gradient descent là kết hợp các trọng số (weight) của các độ dốc (gradient)
Trang 25Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam
2.2 Ưu điểm, nhược điểm lấy mẫu theo thống kê truyền thống
Bảng 2 1: Ưu điểm, khuyết điểm lấy mẫu theo thống kê truyền thống
Phương pháp chọn mẫu
Ngẫu nhiên đơn giản
Dễ thực hiện, tính khách quan cao
Có thể lồng ghép vào tất cả các kỹ thuật chọn mẫu xác suất phức tạp khác
Cần phải có một danh sách của các đơn vị mẫu Không dùng được cho mẫu lớn hoặc mẫu dao động
Mẫu được chọn có thể phân tán khó thu thập
Có khả năng bỏ sót vài nhóm trong tổng thể
Chọn mẫu hệ
thống
Nhanh, dễ thực hiện Độ chính xác cao, chọn đối tượng theo mục đích điều tra Tính đại diện cao hơn
Có thể bị trùng lặp, dẫn đến mẫu thiếu tính đại diện
Chọn mẫu phân
tầng
Độ chính xác cao Tính đại diện cao hơn và dễ quản lý mẫu ngẫu nhiên đơn giản
Cần thiết lập khung mẫu cho từng tầng Điều này thường khó thực hiện trong thực tế
Chọn mẫu theo cụm
Áp dụng cho phạm vi rộng lớn, độ phân tán cao Dễ chọn và chi phí rẻ hơn
Tổng thể phải lớn Nếu cùng cỡ mẫu tính đại diện hoặc tính chính xác thấp hơn mẫu ngẫu nhiên đơn giản
Chọn mẫu nhiều
bậc
Hiệu quả trong việc thu thập dữ liệu sơ cấp Hiệu quả về chi phí và thời gian Mức độ linh hoạt cao
Mức độ chủ quan cao Kết quả nghiên cứu không bao giờ có thể đại diện 100% Sự hiện diện của thông tin cấp nhóm là bắt buộc
Trang 26
Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam
2.3 Phân biệt các phương pháp Lấy mẫu
Bảng 2 2: Phân biệt các phương pháp Lấy mẫu
Lấy mẫu trong Thống kê
truyền thống (Statistics) Lấy mẫu trong Học máy (Machine Learning)
Lấy mẫu trong Học máy Thống kê
(Statistical Machine Learning hoặc Statistical Learning)
Phương
pháp Phụ thuộc vào dữ liệu (data-driven) Phụ thuộc vào dữ liệu (data-driven) Phụ thuộc vào dữ liệu (data-driven)
Việc học dữ liệu
Ngữ cảnh Được sử dụng trong lĩnh vực thống
Áp dụng các phương pháp thống kê trong việc xây dựng mô hình machine learning
Mục đích (Purpose)
Rút ra các kết luận về đặc điểm và thông tin của quần thể dựa trên một mẫu đại diện
- Sử dụng để ước lượng các tham số và tính toán khoảng tin cậy, sai số, và độ tin cậy của các ước lượng đối với quần thể
Tập trung vào việc chọn một tập dữ liệu huấn luyện từ tập dữ liệu ban đầu để xây dựng mô hình hoặc học thuật
Ước lượng và đánh giá thông tin về quần thể gồm các tham số, tổng quan hoặc mô hình của quần thể (population) dữ liệu ban đầu
- Tạo ra tập dữ liệu huấn luyện để xây dựng mô hình có tính đại diện, tổng quát để mô hình có khả năng tổng quát hoá tốt
- Đảm bảo mô hình được huấn luyện trên đủ các trường hợp và có khả năng tổng quát hóa tốt trên dữ liệu mới
- Tạo ra một tập dữ liệu huấn luyện có tính tổng quát và khả năng đại diện cho quần thể dữ liệu ban đầu - Sử dụng các phương pháp thống kê để hiểu rõ hơn và tối ưu hóa các thuật toán Machine Learning, thông qua việc xác định mẫu, quy tắc, và đặc trưng quan trọng, đánh giá và so sánh các mô hình
Trang 27Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam
Lấy mẫu trong Thống kê
(Machine Learning)
Lấy mẫu trong Học máy Thống kê
(Statistical Machine Learning hoặc Statistical Learning)
Phạm vi ứng dụng
Trong các nghiên cứu khoa học, điều tra dân số và phân tích dữ liệu
Là một phần quan trọng trong quá trình xây dựng mô hình học máy và áp dụng các thuật toán để máy tính có thể học từ dữ liệu và tự động thực hiện các tác vụ giải quyết các vấn đề thực tế
Lấy mẫu như một phần của quá trình toàn diện hơn Nó sử dụng các phương pháp lấy mẫu thống kê để xác định một tập mẫu đại diện từ tập dữ liệu ban đầu
Phương pháp tiếp cận
Sử dụng các phương pháp và kỹ thuật để lấy mẫu từ một quần thể lớn để đại diện cho các đặc điểm quan trọng của quần thể đó như: lấy mẫu ngẫu nhiên đơn giản, hệ thống, phân tầng và theo nhóm
Sử dụng các phương pháp tiếp cận khác nhau như hồi quy, phân loại, gom cụm, và kỹ thuật thực nghiệm để xây dựng mô hình, và xác định các mối quan hệ giữa các biến
Sử dụng các thuật toán học máy và phương pháp thống kê để xác định các mối quan hệ và kiến thức từ dữ liệu
Xác định các mối quan hệ các mẫu, đặc trưng
- Lấy mẫu tập trung vào việc phân tích dữ liệu, ước lượng tham số và đánh giá độ tin cậy của kết quả
- Lấy mẫu thường nhằm đảm bảo tập dữ liệu huấn luyện bao gồm các mẫu đại diện từ các lớp hoặc phân phối dữ liệu khác nhau để đảm bảo tính đa dạng và khả năng tổng quát hóa của mô hình
- Lấy mẫu thường kết hợp phương pháp thống kê để xác định các mẫu đại diện và đặc trưng quan trọng trong dữ liệu - Tạo ra các mô hình Machine Learning có tính diễn giải cao và cung cấp thông tin hữu ích về mối quan hệ giữa các biến trong dữ liệu
- Đi kèm với việc xây dựng và tối ưu hoá mô hình Machine Learning, sử dụng các thuật toán học máy và phương pháp thống kê
Kiến thức từ dữ liệu
- Sử dụng để xác định phương pháp lấy mẫu, lựa chọn biến quan trọng, tính toán kích thước mẫu, đánh giá sai số và độ tin cậy, và tạo ra những kết luận có ý nghĩa về quần thể mà chúng ta quan tâm
Tập trung vào khả năng dự đoán và đa dạng của tập dữ liệu huấn luyện, mối quan hệ với lý thuyết thống kê thường ít được xem xét
- Sử dụng để hiểu và tối ưu hóa mô hình Machine Learning
Trang 28
Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam
2.4 Phương pháp Lấy mẫu theo nhóm (Clustering Sampling)
Phương pháp lấy mẫu dữ liệu để đưa vào mô hình Machine Learning được sử dụng trong luận văn này là phương pháp lấy mẫu theo nhóm (Clustering Sampling) Phương pháp kỹ thuật lấy mẫu theo nhóm là kỹ thuật chọn mẫu trong
đó việc lựa chọn các nhóm cá thể có cùng tính chất
Ví dụ: Sinh viên học chung các môn học Chính trị, xã hội sẽ xếp vào cùng một nhóm, sinh viên của cùng 1 khoa học các môn chuyên ngành của khoá đó sẽ trong nhóm của từng khoa
❖ Cách thực hiện:
Bước 1: Xác định các cụm thích hợp
Bước 2: Lập danh sách dự đoán điểm sinh viên như sau:
Có hai cách chọn mẫu theo ý tưởng của người thực hiện nghiên cứu:
✓ Cách 1: Tất cả các cá thể trong các cụm đã chọn vào nghiên cứu
Ví dụ: tất cả các sinh viên toàn trường học tất cả các môn học
✓ Cách 2: Danh sách các cá thể trong các cụm đã chọn, sau đó áp dụng
cách chọn mẫu ngẫu nhiên đơn hoặc ngẫu nhiên hệ thống trong mỗi
cụm để chọn các cá thể vào mẫu
Ví dụ: Danh sách nhóm các sinh viên học chung các môn học Chính trị, xã hội, ngoại ngữ, các môn Tự nhiên (gọi tắt là: các môn học chung) của tất cả các khoa và nhóm các môn học chuyên ngành của từng khoa
Trang 29Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam
Tăng cường độ dốc bổ sung các yếu tố dự đoán một cách tuần tự vào nhóm, trong đó các yếu tố dự đoán trước sửa các yếu tố kế tiếp của chúng, tạo thành chuỗi các mô hình (model) mà mô hình sau sẽ tốt hơn model trước bởi trọng số được cập nhật qua mỗi model Cụ thể là, trọng số của những dữ liệu dự đoán đúng sẽ không đổi, còn trọng số của những dữ liệu dự đoán sai sẽ được tăng thêm và lấy kết quả của model cuối cùng trong chuỗi model này làm kết quả trả về Do đó làm tăng độ chính xác của mô hình
❖ Thuật toán Gradient Boosting tổng quát
Thuật toán này nhằm xấp xỉ độ dốc (gradient) thông qua một hàm tham số h x a( ; n) Tại mỗi vòng lặp, tính gradient , xem
{−y xi, }iN là tập training để huấn luyện
Trang 30Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam
Có thể viết hàm Gradient Boost [2] như sau:
Hình 2 4: Thuật toán Gradient Boosting [2]
❖ Hoạt động của mô hình tăng cường độ dốc (Gradient Boosting model)
Chủ yếu có 3 thành phần chính được sử dụng để tăng độ dốc [20] như sau: - Hàm mất mát (Loss function): là thành phần chính và cơ bản của mô hình
tăng cường độ dốc (Gradient Boosting model) để tối ưu hoá chức năng mất mát được thực hiện Hàm mất mát cải tiến nhiều loại vấn đề khác nhau - Thành phần học yếu (weak learner) để đưa ra các dự đoán Một cây quyết
định là một thành phần “Weak Learner” Cây hồi quy cụ thể dành cho các giá trị đầu ra thực tế được sử dụng để phân tách
- Mô hình bổ sung (an additional model) không cần sửa đổi cây trước đó và cây hiện có trong mô hình Sau một thời gian mô hình yêu cầu thêm cây, mô hình tăng cường độ dốc làm giảm khả năng mất mát Nó cũng làm giảm bớt các tham số và giảm tối thiểu lỗi của trọng số cập nhật sau khi tính toán lỗi
Trang 31Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam
Weak Learner 1
Prediction 1
Prediction 2
Prediction 3
Final PredictionWeak
Learner 2
Weak Learner 3
Weak Learner 3
Hình 2 5: Flowchart xử lý tuần tự của Gradient Boosting
2.5.2 XGBoost
XGBoost, viết tắt của Extreme Gradient Boosting, là thư viện máy học cây quyết định tăng cường độ dốc có thể mở rộng, phân tán Nó cung cấp khả năng tăng cường cây song song và là thư viện máy học hàng đầu cho các vấn đề về hồi quy, phân loại và xếp hạng [24]
XGBoost là một trong những thuật toán học máy phổ biến và được sử dụng rộng rãi nhất hiện nay XGBoost nhằm giải quyết bài toán supervised learning cho độ chính xác khá cao và thường giành giải chiến thắng trong các cuộc thi trên Kaggle Học máy có giám sát sử dụng các thuật toán để đào tạo một mô hình nhằm tìm các mẫu trong tập dữ liệu có nhãn và tính năng, sau đó sử dụng mô hình đã đào tạo để dự đoán nhãn trên các tính năng của tập dữ liệu mới
❖ Hoạt động của mô hình XGBoost
XGBoost là một triển khai tăng cường độ dốc có thể mở rộng và có độ chính xác cao giúp đẩy các giới hạn của sức mạnh tính toán cho các thuật toán cây được tăng cường, được xây dựng chủ yếu để tăng cường hiệu suất và tốc độ tính toán của mô hình máy học
Trang 32Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam
Với XGBoost, các cây được xây dựng song song, thay vì tuần tự như Gradient Boostng Nó tuân theo một chiến lược khôn ngoan theo cấp độ, quét qua các giá trị độ dốc và sử dụng các tổng từng phần này để đánh giá chất lượng của các phần tách ở mọi phần tách có thể có trong tập huấn luyện
XGBoost sử dụng cây quyết định với độ dốc được tăng cường, giúp cải thiện tốc độ và hiệu suất Nó phụ thuộc rất nhiều vào tốc độ tính toán và hiệu suất của mô hình mục tiêu Việc đào tạo mô hình phải tuân theo một trình tự, do đó làm chậm quá trình triển khai các máy tăng cường độ dốc
Nếu Deep learning chỉ nhận đầu vào là dữ liêu thô (raw data) dạng numerical (ta thường phải chuyển đổi sang n-vector trong không gian số thực) thì XGBoost nhận đầu vào là tabular datasets với mọi kích thước và dạng dữ liệu bao gồm cả categorical mà dạng dữ liệu này thường được tìm thấy nhiều hơn trong business model
Bên cạnh đó, XGBoost có tốc độ huấn luyện nhanh, có khả năng scale để tính toán song song trên nhiều server, có thể tăng tốc bằng cách sử dụng GPU có thể tính toán nhanh với dũ liệu lớn (Big data)
2.6 Đánh giá độ chính xác của mô hình dự đoán
Kết quả dự đoán sử dụng các phép đo độ chính xác của mô hình hồi quy “được tính toán dựa trên sai số của giá trị dự báo so với giá trị thực tế của dữ liệu” [8]
Sử dụng các sai số dự báo hay còn gọi là độ đo hàm lỗi MAE, RMSE, MSE, và R Square để đánh giá hiệu quả của mô hình Giá trị của các độ đo hàm lỗi càng nhỏ thì biểu thị mô hình càng tốt
Với hàm lỗi trung bình bình phương (RMSE) là một hàm chi phí trên cơ sở xác định hiệu suất của mô hình trong việc đưa ra dự đoán hoặc tìm ước tính Giá trị này càng gần với 0, mô hình càng tốt RMSE được tính toán trên dữ liệu ước tính/dự đoán bằng cách so sánh nó với các giá trị thực
Trang 33Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam
• Sai số bình phương trung bình (MSE)
1 n
=− (2.3) Trong đó, Yt là dữ liệu tại thời điểm t
2.7 Các công trình nghiên cứu nổi bật trong giáo dục đại học
Trong lĩnh vực khái phá dữ liệu giáo dục (Education Data mining) là một trong những hướng nghiên cứu phổ biến là trích xuất các thông tin cần thiết để dự đoán khả năng học tập của sinh viên [12,17]
Thông thường, các nghiên cứu này tập trung vào việc dự đoán thời gian hoàn thành chương trình học tại một trường đại học lớn ở Mỹ Nghiên cứu sử dụng phương pháp dự đoán dựa trên dữ liệu để xác định yếu tố ảnh hưởng đến thời gian hoàn thành của sinh viên Các tác giả J M Aiken, R De Bin, M Hjorth-Jensen and M D Caballero [14] đã thu thập dữ liệu từ một số lượng lớn sinh viên tại trường đại học và sử dụng các phương pháp thống kê và học máy sử dụng logistic regression và XGBoost để phân tích dữ liệu Nghiên cứu này tập trung vào việc dự đoán thời gian hoàn thành chương trình học tại một trường đại học lớn ở Mỹ Kết quả cho thấy có nhiều yếu tố ảnh hưởng đến thời gian hoàn thành của sinh viên, bao gồm kỹ năng học tập, môi trường học tập, hỗ trợ từ gia đình và bạn bè,
Trang 34Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam
và yếu tố kinh tế Kết quả nghiên cứu có thể hỗ trợ các nhà quản lý giáo dục đưa ra biện pháp nhằm nâng cao tỷ lệ tốt nghiệp
Nhóm tác giả L E Contreras Bravo, J A Caro Silva and D L Morales Rodríguez [15] đã làm nghiên cứu tổng hợp đánh giá về việc sử dụng phương pháp Ensemble trong dự đoán kết quả học tập sinh viên Nhóm tác giả tập trung vào việc khảo sát các phương pháp ensemble, tức là việc kết hợp nhiều mô hình dự đoán để cải thiện độ chính xác của việc dự đoán hiệu suất học tập Kết quả của bài báo cho thấy rằng sử dụng các phương pháp ensemble có thể cải thiện khả năng dự đoán hiệu suất học tập của sinh viên so với việc sử dụng một mô hình dự đoán đơn lẻ Các phương pháp ensemble bao gồm voting, stacking, bagging và boosting Tuy nhiên, các tác giả nhận thấy còn nhiều khía cạnh cần nghiên cứu và cải tiến để tối ưu hóa việc sử dụng các phương pháp ensemble trong dự đoán hiệu suất học tập của sinh viên
Nhóm tác giả T Hu và T Song [17] sử dụng thuật toán XGBoost để xây dựng mô hình dự báo và phân tích học tập của sinh viên Các tác giả đã sử dụng dữ liệu học tập của sinh viên để dự báo kết quả học tập của họ dựa trên các yếu tố như điểm số trước đây, tham gia vào các hoạt động ngoại khóa, và các yếu tố khác liên quan Kết quả của nghiên cứu cho thấy XGBoost có khả năng dự báo kết quả học tập với độ chính xác cao Mô hình XGBoost cung cấp thông tin quan trọng về mức độ ảnh hưởng của các yếu tố khác nhau đối với kết quả học tập Bài viết cũng cung cấp một phân tích chi tiết về các yếu tố quan trọng và mức độ ảnh hưởng của chúng đối với kết quả học tập và giúp hiểu rõ hơn về các yếu tố ảnh hưởng đến kết quả học tập và hỗ trợ các nhà giáo dục và nhà quản lý giáo dục trong việc đưa ra các biện pháp nhằm nâng cao hiệu quả học tập của sinh viên
2.8 Kết luận chương 2
Chương 2 trình bày Tổng quan nghiên cứu, cơ sở lý thuyết liên quan để thực hiện luận văn
Trang 35Chương 3: Phân tích và Giải pháp GVHD: PGS.TS Thoại Nam
CHƯƠNG 3: PHÂN TÍCH VÀ GIẢI PHÁP
Từ mục tiêu cần đạt được trong chương I, phân tích các vấn đề để xây dựng mô hình phân tích điểm của sinh viên Đại học Từ đó, đưa ra các giải pháp đề xuất thực hiện trên bộ dữ liệu để đạt được kết quả xây dựng mô hình phân tích dự báo và gợi ý điểm các môn học tiếp theo của sinh viên Đại học tại trường Đại học Bách Khoa – ĐHQG - TPHCM
Gồm các nội dung chính như sau: ➢ Mô tả bài toán
➢ Các đặc trưng của bộ dữ liệu sinh viên Đại học Bách Khoa ➢ Phân bố điểm sinh viên đại học Bách Khoa
➢ Độ xiên (skewness) và Kurtosis điểm của sinh viên ➢ Xây dựng mô hình dự đoán điểm sinh viên
➢ Giải pháp giải quyết bài toán
Trang 36Chương 3: Phân tích và Giải pháp GVHD: PGS.TS Thoại Nam
CHƯƠNG 3: PHÂN TÍCH VÀ GIẢI PHÁP
Đa số tất cả các trường đại học hiện nay đều đào tạo theo hình thức tín chỉ dựa trên Quy chế đào tạo tín chỉ của Bộ giáo dục và Đào tạo Sinh viên sẽ học một số học phần bắt buộc và học phần tự chọn Mỗi ngành sẽ có chương trình đào tạo riêng cho ngành đó Các học phần sinh viên cần tích luỹ được quy định trong chương trình đào tạo, bao gồm: nhóm học phần bắt buộc và nhóm học phần tự chọn của chuyên ngành
Học phần bắt buộc là học phần gồm những nội dung kiến thức chính yếu của mỗi chương trình đào tạo bắt buộc sinh viên phải tích lũy Các học phần tự chọn là học phần chứa những kiến thức cần thiết sinh viên sẽ tự chọn theo các chuyên ngành đào tạo nhằm đa dạng hoá chuyên môn hoặc sinh viên được chọn lựa tuỳ ý theo quy định của mỗi chương trình để tích luỹ đủ số tín chỉ, học phần
Bài toán dự đoán điểm sớm cho sinh viên đại học sẽ giúp cho sinh viên có được cái nhìn tổng quan về các môn học mà sinh viên sẽ học trong thời gian tới dựa trên kết quả điểm học tập các học phần mà sinh viên đã hoàn thành Sinh viên sẽ thực hiện dự đoán điểm theo các nhóm môn học chung và môn học tự chọn chuyên ngành của từng khoa được quy định trong chương trình đào tạo
Định dạng ban đầu của bộ dữ liệu này là những file có định dạng excel (.xlsx) Bộ dữ liệu này bao gồm 2.453.995 dòng dữ liệu có 60.953 sinh viên, 4.610 môn học của tất cả các ngành thuộc 12 khoa và 2 trung tâm đào tạo Mỗi bản ghi thể hiện thông tin của sinh viên học tập các môn học với điểm số tương ứng của từng môn học
Mỗi tập tin kết quả học tập của sinh viên các Khoa, ngành đều có các thuộc tính như sau: Năm học, học kỳ, mã học kỳ, mã môn học, tên môn học, đơn vị tín chỉ, phần trăm kiểm tra, phần trăm thi, mã nhóm, mã tổ, số thứ tự, mã khoa, tên lớp, khối, mã ngành, tên ngành, mã số sinh viên, điểm kiểm tra, tỉ lệ kiểm tra, điểm bài tập, tỉ lệ bài tập, điểm bài tập lớn, tỉ lệ bài tập lớn, điểm thí nghiệm, tỉ lệ thí nghiệm, điểm thi, tỉ lệ thi, điểm tổng kết, điểm tổng kết 1, điểm tổng kết 2, điểm tổng kết hệ 10, ghi chú
Trang 37Chương 3: Phân tích và Giải pháp GVHD: PGS.TS Thoại Nam
Hình 3 1: Tổng quan các khoa ngành của trường Đại học Bách Khoa TP.HCM
Hình 3 2: Biểu đồ phân bố điểm sinh viên Đại học Bách Khoa
(sau khi Tiền xử lý dữ liệu)
Trang 38Chương 3: Phân tích và Giải pháp GVHD: PGS.TS Thoại Nam
• Biểu đồ phân bố điểm sinh viên của từng khoa
Hình 3 3: Biểu đồ phân bố điểm trung tâm Bảo dưỡng Công nghiệp
Hình 3 4: Biểu đồ phân bố điểm khoa Cơ khí