Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 77 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
77
Dung lượng
1,38 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA TRẦN THỊ THU TRANG NGHIÊN CỨU, PHÁT TRIỂN KỸ THUẬT LẤY MẪU PHỤC VỤ CHO BÀI TOÁN DỰ ĐOÁN ĐIỂM SINH VIÊN ĐẠI HỌC Chuyên ngành: HỆ THỐNG THÔNG TIN QUẢN LÝ Mã số: 8340405 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 07 năm 2023 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM Cán hướng dẫn khoa học: PGS TS Thoại Nam (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét 1: TS Đặng Trần Trí (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét 2: PGS TS Nguyễn Tuấn Đăng (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp.HCM ngày 10 tháng năm 2023 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ luận văn thạc sĩ) Chủ tịch hội đồng: PGS TS Trần Minh Quang Ủy viên phản biện 1: TS Đặng Trần Trí Ủy viên phản biện 2: PGS TS Nguyễn Tuấn Đăng Ủy viên hội đồng: TS Trương Thị Thái Minh Thư ký hội đồng: TS Nguyễn Thị Ái Thảo Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH i ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: TRẦN THỊ THU TRANG MSHV: 2170514 Ngày, tháng, năm sinh: 01/06/1982 Nơi sinh: TPHCM Ngành: Hệ thống Thông tin quản lý Mã số: 8340405 I TÊN ĐỀ TÀI Nghiên cứu, phát triển kỹ thuật lấy mẫu phục vụ cho toán dự đoán điểm sinh viên đại học (Research and develop sampling techniques for the problem of predicting university students' scores) - II NHIỆM VỤ VÀ NỘI DUNG - Tìm hiểu phương pháp, kỹ thuật lấy mẫu ứng dụng phục vụ cho toán dự đoán điểm sinh viên đại học Nghiên cứu đặc trung liệu sinh viên xây dựng mơ hình dự đốn điểm sinh viên đại học III NGÀY GIAO NHIỆM VỤ : 06/02/2023 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 11/6/2023 V CÁN BỘ HƯỚNG DẪN: PGS.TS Thoại Nam Tp HCM, ngày 12 tháng năm 2023 CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) HỘI ĐỒNG NGÀNH (Họ tên chữ ký) PGS.TS Thoại Nam TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH (Họ tên chữ ký) ii LỜI CẢM ƠN Với lòng biết ơn sâu sắc nhất, em xin gửi đến Thầy Cơ khoa Khoa học Kỹ thuật Máy tính trường Đại học Bách Khoa TPHCM hết lòng dạy, trang bị cho em kiến thức tảng bổ ích, với hỗ trợ gia đình tạo điều kiện, động viên, ủng hộ em trình học tập trường Đặc biệt, em xin chân thành cảm ơn PGS.TS Thoại Nam tận tâm hướng dẫn, động viên, truyền đạt nhiều kiến thức, kinh nghiệm quý báu giúp em thực luận văn Mặc dù, có nhiều cố gắng luận văn khơng thể tránh khỏi thiếu sót, chưa hồn thiện, em mong nhận ý kiến đóng góp quý báu quý Thầy Cô để em rút kinh nghiệm, tích lũy kiến thức lĩnh vực hồn thiện Sau cùng, em xin kính chúc q Thầy Cơ gia đình dồi sức khỏe, ln thành cơng nghiệp sống iii TĨM TẮT Trường Đại học Bách Khoa - Đại học Quốc gia - TPHCM nhiều trường đại học khác có số liệu kết học tập sinh viên năm học trường Tuy nhiên, việc ứng dụng liệu phục vụ công tác dự báo điểm cho sinh viên quản lý trường Đại học nhiều hạn chế Khi khoa trường đại học thực dự án nghiên cứu, việc chọn mẫu liệu bước quan trọng để thu thập thông tin cần thiết Việc chọn mẫu liệu phù hợp với đặc điểm riêng trường đảm bảo liệu xử lý đưa vào mơ hình phân tích dự đốn có tính đại diện có khả áp dụng cho nghiên cứu phân tích Mục tiêu luận văn việc nghiên cứu, áp dụng kỹ thuật lấy mẫu thống kê kết hợp phương pháp lấy mẫu học máy (Machine Learning) dựa vào heuristic nghiên cứu giáo dục đại học để ứng dụng vào việc tiền xử lý liệu chọn mẫu phân tích để đưa vào mơ hình dự đốn sớm điểm môn học cho sinh viên đại học dựa liệu khứ mà sinh viên tất khoa học trường Đại học Bách Khoa - ĐHQG - TPHCM Phương pháp lấy mẫu luận văn hướng đến xây dựng tập liệu huấn luyện nhỏ kết dự đoán điểm sinh viên phải đảm bảo độ xác định iv ABTRACT Ho Chi Minh City University of Technology - Vietnam National University Ho Chi Minh City (HCMUT), as well as many other universities, are having data on the student learning outcomes every year However, the application of this dataset for student perfomance forecasting and the University management is still limited When faculties and universities undertake research projects, data sampling is an important step in gathering the necessary information Matching the data sample to the unique characteristics of each school will ensure that the processed data fed into the predictive analytics model will be representative and applicable to research and analysis The goal of my thesis is a combination of research and application of sampling techniques in statistics combined with sampling methods in machine learning based on heuristics in the higher education research to apply in pre-processing data and selecting analytical samples to include in an early prediction model of subject grades for university students based on past data that students of all faculties have studied at Ho Chi Minh City University of Technology - Vietnam National University Ho Chi Minh City The sampling methods in this thesis is aimed to building a small training dataset, but the student's grades prediction results must ensure a certain accuracy v LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Nghiên cứu, phát triển kỹ thuật lấy mẫu phục vụ cho toán dự đoán điểm sinh viên đại học” nghiên cứu riêng Các số liệu, tài liệu sử dụng luận văn trung thực Tất tài liệu tham khảo, kế thừa trích dẫn tham chiếu đầy đủ TP HCM, ngày 12 tháng năm 2023 Người cam đoan Trần Thị Thu Trang vi MỤC LỤC LỜI CẢM ƠN iii TÓM TẮT iv ABTRACT v LỜI CAM ĐOAN vi MỤC LỤC vii DANH MỤC TỪ VIẾT TẮT x DANH MỤC BẢNG xi DANH MỤC HÌNH VÀ BIỂU ĐỒ xii CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu đề tài 1.1.1 Giới thiệu vấn đề cần nghiên cứu 1.1.2 Đối tượng nghiên cứu 1.1.3 Phạm vi nghiên cứu 1.2 Mục tiêu nghiên cứu 1.3 Nội dung nghiên cứu 1.4 Ý nghĩa đề tài 1.4.1 Ý nghĩa khoa học 1.4.2 Ý nghĩa thực tiễn luận văn 1.4.2.1 Ý nghĩa thực tiễn nhà trường 1.4.2.2 Ý nghĩa thực tiễn sinh viên đại học 1.5 Cấu trúc luận văn 1.6 Kết luận chương CHƯƠNG 2: TỔNG QUAN NGHIÊN CỨU 2.1 Một số khái niệm 2.1.1 Lấy mẫu (Sampling) ? 2.1.2 Học máy có giám sát (Supervised Machine Learning) 2.1.3 Cây định (Decision Trees) 2.1.4 Hàm mát (Loss function) vii 2.1.5 Kỹ thuật xuống đồi (Gradient descent) 2.2 Ưu điểm, nhược điểm lấy mẫu theo thống kê truyền thống 11 2.3 Phân biệt phương pháp Lấy mẫu 12 2.4 Phương pháp Lấy mẫu theo nhóm (Clustering Sampling) 14 2.5 Phương pháp dự đoán điểm sinh viên đại học 15 2.5.1 Gradient Boosting (tăng cường độ dốc) 15 ❖ Thuật toán Gradient Boosting tổng quát 15 ❖ Hoạt động mơ hình tăng cường độ dốc (Gradient Boosting model) 16 2.5.2 ❖ XGBoost 17 Hoạt động mơ hình XGBoost 17 2.6 Đánh giá độ xác mơ hình dự đốn 18 2.7 Các cơng trình nghiên cứu bật giáo dục đại học 19 2.8 Kết luận chương 20 CHƯƠNG 3: PHÂN TÍCH VÀ GIẢI PHÁP 21 3.1 Mô tả toán 22 3.2 Các đặc trưng liệu sinh viên đại học Bách Khoa 22 3.3 Phân bố điểm sinh viên đại học Bách Khoa 23 3.4 Độ xiên (skewness) Kurtosis điểm sinh viên 31 3.5 Xây dựng mơ hình dự đốn điểm sinh viên 32 3.5.1 Kiến trúc tổng quan toán 32 3.5.2 Các bước thực Tiền xử lý liệu 33 3.6 Giải pháp cho toán 36 3.7 Kết luận chương 37 CHƯƠNG : KẾT QUẢ VÀ ĐÁNH GIÁ 38 4.1 Thực nghiệm dự đoán điểm sinh viên 39 4.1.1 4.2 Tiền xử lý liệu 39 Đánh giá độ xác mơ hình dự đốn điểm 46 4.2.1 Phương pháp Gradient Boosting Regression 46 4.2.2 Phương pháp XGBoost 50 viii Chương 4: Kết Đánh giá GVHD: PGS.TS Thoại Nam • Kịch 2B: : Lấy mẫu theo nhóm môn học chung gồm tất sinh viên học chung toàn trường Bảng 3: Chỉ số đo độ xác phương pháp Gradient Boosting lấy mẫu theo nhóm mơn học chung gồm tất sinh viên học chung toàn trường STT Phép đo Giá trị MAE 1.2027 RMSE 1.5756 R-Squared 0.1982 Nhận xét: Khi lấy mẫu theo nhóm mơn học chung gồm sinh viên khoa học môn học chung với thực nghiệm với phương pháp Gradient Boosting độ đo hàm lỗi chương trình đào tạo Kỹ sư chất lượng cao Việt Pháp (VP) thấp toàn trường (MAE≈1.0316) cao khoa Khoa học Kỹ thuật Máy tính RMSE≈1.519 HV: Trần Thị Thu Trang Trang 48 / 61 Chương 4: Kết Đánh giá GVHD: PGS.TS Thoại Nam • Kịch 3: Lấy mẫu theo nhóm mơn học chun ngành khoa Bảng 4: Chỉ số đo độ xác phương pháp Gradient Boosting lấy mẫu theo nhóm môn học chuyên ngành khoa KHOA MAE RMSE R-SQUARE BD 1.2637 1.6218 0.2769 CK 1.1934 1.5828 0.2501 DC 1.1201 1.4766 0.3531 DD 1.2745 1.6661 0.2681 GT 1.1998 1.5654 0.3206 HC 1.0688 1.4268 0.3056 MO 1.0027 1.3507 0.3535 MT 1.2436 1.6293 0.2896 PD 1.1525 1.4913 0.3662 QL 0.9499 1.2837 0.3142 UD 1.2080 1.5765 0.3428 VL 1.1276 1.4969 0.3459 VP 1.2014 1.5458 0.3491 XD 1.2767 1.6628 0.2372 Nhận xét: Khi lấy mẫu theo nhóm sinh viên mơn học chun ngành khoa, thực nghiệm với phương pháp Gradient Boosting độ đo hàm lỗi khoa Quản lý Cơng nghiệp (QL) thấp tồn trường (MAE≈0.95) cao khoa Điện - Điện tử (RMSE≈1.67) HV: Trần Thị Thu Trang Trang 49 / 61 Chương 4: Kết Đánh giá GVHD: PGS.TS Thoại Nam Phương pháp XGBoost 4.2.2 Từ phân tích giải pháp đề xuất mục 3.8 chương 3, đánh giá thực nghiệm kịch sau: • Kịch 1: Lấy mẫu toàn liệu sinh viên tất mơn học Khơng thực gom nhóm sinh viên, sử dụng tập liệu chung toàn trường Bảng 5: Chỉ số đo độ xác phương pháp XGBoost lấy mẫu tất môn học KHOA MAE RMSE R-Squared BD 1.2575 1.6099 0.3033 CK 1.1856 1.5672 0.2630 DC 1.1236 1.4813 0.3458 DD 1.2341 1.6167 0.2639 GT 1.1945 1.5616 0.3241 HC 1.0552 1.4106 0.2896 MO 1.0207 1.3570 0.3728 MT 1.2254 1.6080 0.2790 PD 1.1267 1.4471 0.3722 QL 0.9811 1.3162 0.3144 UD 1.1510 1.5041 0.3791 VL 1.1121 1.4697 0.3455 VP 1.1693 1.5165 0.3575 XD 1.2457 1.6269 0.2367 Nhận xét: Khi lấy mẫu sinh viên toàn trường, thực nghiệm với phương pháp XGBoost độ đo hàm lỗi khoa Quản lý Công nghiệp (QL) thấp toàn trường (MAE≈0.98) cao khoa Xây dựng (RMSE≈1.63) HV: Trần Thị Thu Trang Trang 50 / 61 Chương 4: Kết Đánh giá GVHD: PGS.TS Thoại Nam • Kịch 2A: Lấy mẫu theo nhóm mơn học chung gồm sinh viên khoa, học môn học chung với Bảng 6: Chỉ số đo độ xác phương pháp XGBoost lấy mẫu theo nhóm mơn học chung MAKHOA MAE RMSE R-Squared BD 1.2575 1.6099 0.3033 CK 1.1856 1.5672 0.2630 DC 1.1236 1.4813 0.3458 DD 1.2341 1.6167 0.2639 GT 1.1945 1.5616 0.3241 HC 1.0552 1.4106 0.2896 MO 1.0207 1.3570 0.3728 MT 1.2254 1.6080 0.2790 PD 1.1267 1.4471 0.3722 QL 0.9811 1.3162 0.3144 UD 1.1510 1.5041 0.3791 VL 1.1121 1.4697 0.3455 VP 1.1693 1.5165 0.3575 XD 1.2457 1.6269 0.2367 Nhận xét: Khi lấy mẫu toàn liệu sinh viên tất môn học thực nghiệm phương pháp Gradient Boosting độ đo hàm lỗi khoa Quản lý Cơng nghiệp (QL) thấp toàn trường (MAE≈0.98) cao khoa Xây dựng RMSE≈1.63 HV: Trần Thị Thu Trang Trang 51 / 61 Chương 4: Kết Đánh giá GVHD: PGS.TS Thoại Nam • Kịch 2B: Lấy mẫu theo nhóm mơn học chung gồm tất sinh viên học môn học chung Bảng 7: Chỉ số đo độ xác phương pháp XGBoost lấy mẫu theo nhóm mơn học chung gồm tất sinh viên học môn học chung STT Phép đo Giá trị MAE 1.2285 RMSE 1.6067 R-Squared 0.1869 Nhận xét: - Khi thực lấy mẫu theo nhóm mơn học chung gồm tất sinh viên học mơn học chung tồn trường mơn Triết học Mác-Lênin, giáo dục quốc phịng v.v xây dựng mơ hình dự đốn điểm sinh viên phương pháp XGBoost có độ đo hàm lỗi MAE ≈ 1.2, RMSE ≈ 1.6 biến độc lập giải thích 18.69% biến thiên biến phụ thuộc Phần cịn lại 81.31% giải thích biến ngồi mơ hình sai số ngẫu nhiên HV: Trần Thị Thu Trang Trang 52 / 61 Chương 4: Kết Đánh giá GVHD: PGS.TS Thoại Nam • Kịch 3: Lấy mẫu theo nhóm mơn học chun ngành khoa Bảng 8: Chỉ số đo độ xác phương pháp XGBoost lấy mẫu theo nhóm môn học chuyên ngành khoa KHOA MAE RMSE R-Squared BD 1.2798 1.6413 0.2616 CK 1.1838 1.5722 0.2473 DC 1.0970 1.4471 0.3364 DD 1.2722 1.6628 0.2646 GT 1.2018 1.5704 0.3169 HC 1.0587 1.4193 0.3055 MO 0.9660 1.2939 0.3445 MT 1.2156 1.5932 0.2911 PD 1.1710 1.5283 0.3696 QL 0.9346 1.2699 0.2902 UD 1.1836 1.5492 0.3415 VL 1.1160 1.4824 0.3455 VP 1.1852 1.5315 0.3650 XD 1.2683 1.6508 0.2413 Nhận xét: Khi lấy mẫu sinh viên theo nhóm mơn học chuyên ngành khoa, thực nghiệm với phương pháp XGBoost độ đo hàm lỗi khoa Quản lý Cơng nghiệp (QL) thấp tồn trường (MAE≈0.93) cao khoa Điện Điện tử (RMSE≈1.66) 4.3 Kết luận chương Chương trình bày kết thực nghiệm tốn lấy mẫu theo nhóm để xây dựng mơ hình dự đốn điểm sinh viên học máy đánh giá độ xác mơ hình HV: Trần Thị Thu Trang Trang 53 / 61 Chương 5: Kết luận GVHD: PGS.TS Thoại Nam CHƯƠNG 5: KẾT LUẬN Từ phân tích, giải pháp đề xuất kết thực nghiệm trình bày chương trước, chương đối chiếu lại kết thực đề tài với mục tiêu nghiên cứu Từ đó, rút số kết luận đề xuất giải pháp, hướng phát triển đề tài tương lai Gồm nội dung sau: ➢ Đối chiếu mục tiêu, nội dung nghiên cứu ➢ Thuận lợi khó khăn thực đề tài ➢ Đề xuất hướng phát triển đề tài ➢ Kết luận chung đề tài HV: Trần Thị Thu Trang Trang 54 / 61 Chương 5: Kết luận GVHD: PGS.TS Thoại Nam CHƯƠNG 5: KẾT LUẬN 5.1 Đối chiếu mục tiêu nội dung nghiên cứu Như trình bày chương Giới thiệu đề tài, luận văn hồn thành mục tiêu cụ thể, là: - Tìm hiểu đặc trưng liệu sinh viên Đại học Bách Khoa từ năm 2014 đến năm 2017 Nghiên cứu, áp dụng kỹ thuật lấy mẫu thống kê phương pháp lấy mẫu học máy (Machine Learning) - Tìm hiểu phương pháp phân tích liệu từ đó, xây dựng mơ hình đưa dự đoán kết học tập (điểm môn học) sinh viên Đại học dựa liệu khứ mà sinh viên tất khoa học trường Đại học Bách Khoa ĐHQG - TPHCM (ĐHBK) - Cuối cùng, đưa kết luận để chọn mẫu liệu tốt nhất, phù hợp với liệu sinh viên ĐHBK 5.2 Thuận lợi thực đề tài 5.2.1 Thuận lợi đề tài Đã có đề tài nghiên cứu trước liệu sinh viên đại học Bách Khoa 5.2.2 Khó khăn thực đề tài Bên cạnh thuận lợi, tác giả gặp số khó khăn q trình tiền xử lý liệu, chuẩn hố liệu ban đầu để đưa vào mơ hình Machine Learning sau: Thứ nhất, liệu sử dụng cho thực nghiệm liệu thu thập, tổng hợp từ nhiều phân hệ quản lý học vụ trường ĐHBK có nhiều liệu dư thừa thơng tin khơng phục vụ cho việc phân tích, có nhiều cột điểm bị thiếu khơng thể u cầu bổ sung thêm liệu thiếu Thứ hai, liệu đáng tin cậy song có số số liệu khơng đồng số tên môn học ký tự đặc biệt Chẳng hạn khoa mã môn học A B chất môn học thay đổi mã mơn học qua nhiều khóa thay đổi chương trình đào tạo Hoặc khoa, mã mơn học có nhiều tên khác HV: Trần Thị Thu Trang Trang 55 / 61 Chương 5: Kết luận GVHD: PGS.TS Thoại Nam Bên cạnh đó, theo quy chế đào tạo trường quy định điểm chữ số, kiểu liệu trường mã môn học, điểm gồm chuỗi chuỗi số không theo thang điểm thông thường từ đến 10 Khi tiến hành tiền xử lý liệu, tác giả phải quy đổi điểm theo thang điểm từ đến 10 Thứ ba, liệu điểm không hợp lệ, liệu khơng có quy định, quy chế đào tạo Các lỗi liệu nguyên nhân chủ quan từ người nhập liệu chương trình ghi nhận liệu điểm vào hệ thống cũ Ví dụ: điểm tổng kết môn học “]” điểm “-11.9” Thứ tư, liệu sinh viên tồn trường có nhiều điểm làm cho phân bố điểm sinh viên đại học vừa lệch, vừa có nhiều liệu outlier, liệu thiếu thưa làm ảnh hưởng đến độ xác mơ hình phân tích 5.3 Hướng phát triển đề tài Phần ứng dụng thực nghiệm kỹ thuật lấy mẫu liệu sử dụng Machine Learning cần phát triển ứng dụng giao diện người dùng (GUI) để dễ dàng trực quan kết thực nghiệm tốt 5.4 Kết luận chung Khai phá liệu lĩnh vực giáo dục nhu cầu thiết thực, cần thiết giai đoạn giúp cho trường Đại học đẩy mạnh, nâng cao chất lượng đào tạo, giảng dạy ngày tốt hơn, phù hợp với nhu cầu thực tế Khi khoa trường đại học thực dự án nghiên cứu, việc chọn mẫu liệu bước quan trọng để thu thập thông tin cần thiết Việc mẫu liệu phù hợp với đặc điểm riêng trường đảm bảo liệu xử lý đưa vào mơ hình phân tích dự đốn có tính đại diện có khả áp dụng cho nghiên cứu phân tích Luận văn nghiên cứu đặc trưng liệu sinh viên Đại học Bách Khoa giai đoạn từ năm 2014 đến năm 2017 Trên sở áp dụng phương pháp kỹ thuật lấy mẫu thống kê kỹ thuật lấy mẫu Machine Learning, kỹ thuật phân tích liệu học máy đưa giải pháp đề xuất lấy mẫu thực nghiệm phân tích dự đốn điểm sinh viên đại học Từ đó, đưa kết dự đốn điểm sinh viên phương án để chọn mẫu liệu tốt nhất, phù hợp với liệu sinh viên ĐHBK HV: Trần Thị Thu Trang Trang 56 / 61 Tài liệu tham khảo TÀI LIỆU THAM KHẢO [1] G Chauvet, “Introduction to Sampling Techniques”, in Sampling Techniques for Supervised or Unsupervised Tasks, M Emre Celebi, Switzerland: Springer Nature Switzerland, 2020, pp [2] T Hastie, R Tibshirani, and J Friedman, “Boosting and Additive Tree”, in The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition, T Hastie, R Tibshirani, and J Friedman Springer, 2009, pp 361 [3] Kiaer and A Nicolai, “Observations et expériences concernant des dénombrements représentatifs” Bulletin of the International Statistical Institute, vol 9, pp 176–183, 1896 [4] J Neyman, “On the two different aspects of the representative method: the method of stratified sampling and the method of purposive selection”, Journal of the Royal Statistical Society, vol 97, pp 558-625, 1934 [5] H Trọng and C N M Ngọc, Thống kê ứng dụng kinh tế & kinh doanh TP Hồ Chí Minh, Việt Nam: NXB Kinh tế TPHCM, 2017 [6] N Đ Thọ, Phương pháp nghiên cứu khoa học kinh doanh - Thiết kế thực Tp Hồ Chí Minh, Việt Nam: NXB Lao động Xã hội, 2011 [7] Q T Thơ, Mạng Nơ-ron nhân tạo: Từ hồi quy đến học sâu TP Hồ Chí Minh, Việt Nam: NXB Đại học Quốc gia - HCM, 2021 [8] T M Quang, Khai phá liệu kỹ thuật phân lớp TP Hồ Chí Minh, Việt Nam: NXB Đại học Quốc gia - HCM, 2020 [9] V H Tiệp, Machine Learning Hà Nội, Việt Nam: NXB Khoa học Kỹ thuật, 2018 [10] Đ T Phát and M L Thơng, “Nghiên cứu, phát triển cơng cụ phân tích liệu cho Đại học trực quan hóa”, khóa luận tốt nghiệp Đại học, trường Đại học Bách Khoa, ĐHQG - HCM, TP Hồ Chí Minh, Việt Nam, 2019 [11] N H Quang, “Áp dụng luật việc dự đoán kết học tập sinh viên”, luận văn Thạc sĩ, trường Đại học Bách Khoa, ĐHQG - HCM, TP Hồ Chí Minh, Việt Nam, 2018 HV: Trần Thị Thu Trang Trang 57 / 61 Tài liệu tham khảo [12] [13] [14] C Romero and S Ventura, “Educational Data Mining: A Review of the State of the Art”, IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, vol 40, pp 601–618, 2010 H Ij, “Statistics versus machine learning,” Nat Methods, vol 15, no 4, p 233, 2018 J M Aiken, R De Bin, M Hjorth-Jensen, and M D Caballero, “Predicting time to graduation at a large enrollment American university”, Plos one, vol 15, no 11, p e0242334, 2020 [15] L E Contreras Bravo, J A Caro Silva, and D L Morales Rodríguez, “A review on the prediction of students' academic performance using ensemble methods,” Ingeniería Solidaria, vol 18, no 2, 2022 [16] T Hamim, F Benabbou, and N Sael, “Student profile modeling using boosting algorithms,” International Journal of Web-Based Learning and Teaching Technologies (IJWLTT), vol 17, no 5, pp 1-13, 2022 [17] T Hu and T Song, “Research on XGboost academic forecasting and analysis modelling,” in Journal of Physics: Conference Series, vol 1324, no 1: IOP Publishing, p 012091, 2019 [18] R S Baker and K Yacef, “The state of educational data mining in 2009: A review and future visions,” Journal of Educational Data Mining, vol.1, pp 601–618, Dec 2009 [19] Business Jargons, “Cluster Sampling” [Online] Available: https://businessjargons.com/cluster-sampling.html (Lần truy cập cuối: 10/6/2023) [20] BrainAlyst, “A Quick Guide to Boosting Algorithms in Machine Learning” [Online] Available: https://brainalyst.in/boosting-algorithmsin-machine-learning/ (Lần truy cập cuối: 10/6/2023) [21] Wikipedia, “Gradient boosting” [Online] Available: https://en.wikipedia.org/wiki/Gradient_boosting (Lần truy cập cuối: 10/6/2023) [22] Akansha Khandelwal, “A Complete Guide on Sampling Techniques for Data Science” [Online] Available: https://www.analyticsvidhya.com/blog/2021/09/a-complete-guide-onsampling-techniques/ (Lần truy cập cuối: 10/6/2023) HV: Trần Thị Thu Trang Trang 58 / 61 Tài liệu tham khảo [23] “A Data Scientist’s Guide to Types of Sampling Techniques” [Online] Available: https://www.analyticsvidhya.com/blog/2019/09/data-scientists-guide-8types-of-sampling-techniques/ (Lần truy cập cuối: 10/6/2023) [24] NVIDIA, “XGBoost” [Online] Available: https://www.nvidia.com/enus/glossary/data-science/xgboost/ (Lần truy cập cuối: 10/6/2023) HV: Trần Thị Thu Trang Trang 59 / 61 Phụ lục PHỤ LỤC: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT STT Thuật ngữ Tiếng Anh Thuật ngữ Tiếng Việt An additional model Mơ hình bổ sung Big data Dữ liệu lớn Boxplot Biểu đồ hộp Business model Mơ hình kinh doanh Categorial Loại Clustering Sampling Phương pháp lấy mẫu theo nhóm Decision Trees Cây định Deep Learning Học sâu Goal Mục tiêu 10 Gradient Độ dốc 11 Gradient Boosting Phương pháp Tăng cường độ dốc 12 Gradient descent Kxy thuật xuống đồi 13 Hidden layer Tầng ẩn Judgment Sampling Phương pháp lấy mẫu theo Phán đoán 15 Loss funtion Hàm mát 16 Loss value Giá trị mát 17 Machine Learning Học máy 14 HV: Trần Thị Thu Trang Trang 60 / 61 Phụ lục 18 Population Tổng thể, quần thể 19 Purpose Mục đích 20 Raw data Dữ liệu thô 21 Regression Hồi quy 22 Sampling Phương pháp lấy mẫu phương pháp chọn mẫu 23 Skewness Độ xiên 24 Statistical Machine Learning Học máy thống kê 25 Statistics Thống kê học 26 Supervised machine learning Học máy có giám sát 27 Testing dataset Tập kiểm tra 28 Theory of sample surveys Lý thuyết điều tra chọn mẫu 29 Training dataset Tập huấn luyện 30 Weak Learner Thành phần học yếu 31 Weight Trọng số 32 XGBoosting (Extreme Gradient Boosting) Phương pháp Tăng cường độ dốc HV: Trần Thị Thu Trang Trang 61 / 61 LÝ LỊCH TRÍCH NGANG Họ tên: Trần Thị Thu Trang Ngày, tháng, năm sinh: 01/06/1982 Nơi sinh: TPHCM Địa liên lạc: 71 đường số 13, Phường 16, Quận Gị Vấp, TPHCM Q TRÌNH ĐÀO TẠO 2001 - 2006: học trường Đại học Văn Hiến, TPHCM 2021 - nay: học Thạc sĩ, trường Đại học Bách Khoa, TPHCM Q TRÌNH CƠNG TÁC 2006 - 2008: làm việc phòng Kế hoạch phát triển Hạ tầng mạng, FPT Telecom 2008 - 2019: công tác Cục Kỹ thuật Nghiệp vụ, Tổng cục An ninh, Bộ Công an 2020 - 2022: làm việc Cty FPT Software vi